Применение PageRank в поисковиках
Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа”) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе.
На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки.
Введение в PageRank
PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google.
За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания
Вычисление Pagerank
Представьте себе идеального веб-серфера перемещающегося по всемирной
паутине. Пусть сёрфер посещает страницу p, случайное блуждание
при этом находится в состоянии p.
На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную
псевдо-случайным образом, либо он следует по ссылке на текущей странице, при
этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность
случайного прыжка обозначим как d тогда вероятность перехода по ссылке
будет 1-d.
Таким образом, вероятность нахождения пользователя на странице p
можно вычислить по следующей формуле:
где R(p) - PageRank страницы, С(p) - число
ссылок на странице, к - число ссылающихся на p страниц, d-
коэффициент затухания (damping factor). Обычно 0.1
или случая, когда все ссылаются на всех, и, вероятно, это утверждение
справедливо вообще для всех симметричных топологий. Гораздо более перспективны
с точки зрения увеличения PageRank асимметричные
топологии. Утверждение о бесполезности создания <пустых> (но ссылающихся друг на друга)
сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах
таким образом, что у одного из них PageRank будет в 15
раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится,
написав небольшую программку.
Некоторые распространённые заблуждения связанные с PageRank
Проанализировав сообщения в
рунетовских форумах, посвященных позиционированию в поисковых системах, можно
выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую
просто неверных. Кратко рассмотрим эти утверждения:
Если на какой-то сайт есть много ссылок с
FFA, гостевых книг или на сайтов другой тематики, то PageRank
будет занижен.
Не стоит путать понятия <индекс цитирования> и PageRank. При расчёте PageRank
анализ содержимого ни сайта ни текста ссылки не производится, учитываются
только общее число ссылок и их веса, поэтому никаких штрафных санкций при
наличии ссылок с <неправильных> страниц не применяется.
Если добиться высокого PageRank для какой-то страницы, то
эта страница будет на первом месте в результатах поиска.
Не верно, по той причине, что PageRank является не основным критерием для
ранжирования страниц, а вспомогательным. В противном случае, на первых
страницах по очень многим запросам располагались бы только рейтинги и топы.
Только при прочих равных условиях страница с более высоким PageRank
будет располагаться выше в результатах поиска.
Если зарегистрировать сайт во всех популярных каталогах, то PageRank
будет очень высоким
Не стоит обольщаться - PageRank
вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории,
скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно
взять не качеством ссылок, а их количеством. Надо только обращать внимание на то,
чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт,
иначе они просто не будут учитываться. Кроме того, правила многих каталогах
требуют размещения корневой страницы, а не того документа, PageRank которого вы
собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank
конкретной страницы ссылкой с корневой страницы своего собственного сайта.
PageRank уменьшается при проставлении внешних ссылок
Весьма спорное утверждение, как говорилось выше PageRank
понижается в случае симметричного
объединения ссылающихся страниц, вероятность получить которое при проставлении
внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно
дать совет завести специальную страницу для обмена ссылками. Кстати, стоит
заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.
Автор: Гендольф
Пока комментариев нет
Разместил: Maggot Дата: 2008-11-03 20:19