Индексация, тИЦ и PR

Поскольку значительная часть посетителей привлекается на сайт поисковыми системами, а большинство пользователей просматривают не более трех страниц поисковой выдачи, каждый вебмастер заинтересован в том, чтобы ссылка на его сайт попадала на одну из этих трех страниц. А лучше - на первую. Чтобы хотя бы в общих чертах представить, как этого можно достичь, необходимо иметь некоторое представление о том, как работают поисковые системы и как добиться того, чтобы ваш сайт попадался на глаза пользователя поисковой системы.

Индексация сайта поисковыми роботами

Вообще-то правильнее говорить об индексации не сайта в целом, а каждой отдельной страницы сайта. Потому что когда пользователь вводит какой-то запрос в строке поисковой системы, последняя должна выдать ему перечень страниц, наиболее полно отвечающих потребностям пользователя. То есть в список должна попадать ссылка на конкретную страницу, а не на сайт в целом. Попробуем представить, как поисковая система составляет список таких страниц.

Во-первых, надо сказать, что когда поисковик получил запрос пользователя, он не начинает обходить весь интернет в поисках нужных страниц, а обращается к заранее собранным базам - индексам страниц. Индексы представляют собой ....(надо найти описание). Для формирования и обновления индекса страниц поисковая система периодически запускает особую программу (которую называют пауком или ботом). Эта программа осуществляет обход сайтов Интернета и по результатам этого обхода составляет или обновляет индекс.

Что происходит, когда пользователь обращается к поисковой системе с запросом?

Поисковая система обращается к индексу для составления списка страниц, наиболее полно соответствующих запросу пользователя, их называют "релевантными запросу". Принимать решение о том, насколько та или иная страница из общего числа страниц, включенных в индекс, соответствует запросу пользователя, поисковая система должна на основе только выданного запроса. Запрос состоит из одного или нескольких слов. Поэтому страница будет считаться более релевантной, если она содержит как можно большее количество вхождений слов из запроса. Причем для ранжирования страниц в поисковой выдаче поисковики кроме текста самой страницы использовали слова, перечисленные в тегах <Title>, <Description>, <Keywords>. Веб-мастера и оптимизаторы быстро научились поднимать значимость своих страниц "в глазах" поисковых систем по определенным запросам, увеличивая число вхождений ключевых слов в тексте страницы и в указанных тегах. Релевантность выдачи снизилась.

Хотя все поисковые системы держат в секрете свои алгоритмы, тем не менее некоторые данные о том, как именно поисковые системы ранжируют ресурсы в выдаче по поисковыи запросам, известны. Естественно, что на странице, выдаваемой пользователю, должны содержаться все или хотя бы отдельные слова из запроса. Другими факторами, влияющими на порядок выдачи, являются количество слов из запроса на странице, содержание мета-тегов «Title», «Descriptions», «Keywords», частота обновления сайта, дата индексирования сайта, а так же количество и качество внешних ресурсов, ссылающихся на данную страницу. Все поисковики учитывают "цитируемость", но базы у них разные - поэтому цитируемый сайт для одного поисковика может не быть цитируемым для другого. Поэтому, очень важно то, чтобы ссылки на Ваш сайт были с наиболее цитируемых ресурсов.

Тогда (или еще раньше, но этот момент с точки зрания настоящей заметки несущественен) поисковики кроме числа вхождений ключевых слов из запроса стали при оценке релевантности страницы использовать дополнительные критерии. Одним из таких критериев является вес или значимость страницы. Страница тем выше располагается в выдаче поисковой системы, чем больше вес, присвоенный ей данной поисковой системой. Идея расчета значимости страниц или сайтов заимствована из практики научных публикаций.

Индекс цитирования (или ИЦ) - принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.

В Интернет идея рассчета индексов цитируемости воплотилась в использовании весов отдельных страниц или сайтов. Разные поисковые системы используют разные методы вычисления веса страниц. Наиболее известны индекс PR поисковой системы Google и тематический индекс цитирования поисковой системы Яндекс. При этом Яндекс ориентируется на значимость сайта в целом, поэтому его индекс цитирования (тИЦ) рассчитывается для сайтов. А Google рассчитывает свой индекс PR для каждой отдельной страницы сайта.

Об этих двух индексах поговорим подробнее.

Что такое Page Rank?

Дополнительные сведения об алгоритме расчета индекса PR вы найдете в статье

Индекс цитирования (тИЦ) поисковой системы Яндекс

Настоящий подраздел основан на тексте, опубликованном на сайте Яндекса.

Тематический индекс цитирования (тИЦ) поисковой системы Яндекс определяет "авторитетность" интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов. Эта качественная характеристика называется "весом" ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.

тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса. тИЦ не является чисто количественной характеристикой, поэтому он принимает некоторые округленные значения, которые помогают ориентироваться в "значимости" ("авторитетности") ресурсов в каждой области (теме).

тИЦ рассчитывается для интернет-ресурсов. Под интернет-ресурсом может пониматься как сайт (хост), так и некоторый раздел сайта (физически это директория). Раздел сайта (директория) считается самостоятельным ресурсом, если она описана в каталоге Яндекса. Если для сайта в каталоге описаны несколько директорий, тИЦ будет обсчитываться для каждой из них, в противном случае весь сайт будет считаться одним интернет-ресурсом.

Поскольку в тИЦ учитывается только вес внешних интернет-ресурсов, ссылающихся на заданный, тИЦ не может быть увеличен ни за счет "внутренних" ссылок (с одних страниц ресурса на другие), ни за счет расположения нескольких ссылок на одной или нескольких страницах одного и того же "внешнего" ресурса. При расчете тИЦ одного из разделов сайта (директорий) ссылки на раздел сайта из других разделов этого сайта будут считаться внутренними и, следовательно, не будут увеличивать его тИЦ. При этом ссылки на каждый из разделов сайта учитываются (объединяются) при подсчете тИЦ всего сайта.

При измерении тИЦ берутся ссылки только с тех ресурсов, которые Яндекс проиндексировал и по которым он ищет. При подсчете тИЦ сайта не учитываются ссылки с веб-бордов, форумов, сетевых конференций, немодерируемых каталогов и прочих ресурсов, в которые кто угодно может добавлять ссылки без контроля со стороны владельца ресурса. Также при подсчете тИЦ не учитываются ссылки с сайтов, расположенных на бесплатных хостингах, в случае если они не описаны в Яндекс.Каталоге. Иными словами, все такие ссылки имеют для Яндекса нулевой вес.

Индексы цитирования так называемых зеркал (алиасов) объединяются, то есть веса всех неповторяющихся ссылок на зеркальные адреса суммируются для вычисления тИЦ главного адреса. При этом зеркалами считаются только сайты, абсолютно идентичные по структуре и содержанию. Главный адрес определяется автоматически и совпадает с адресом, который индексирует поисковый механизм Яндекса. Изменить его можно с помощью директивы Host.

тИЦ пересчитывается в среднем два раза в месяц. За это время какие-то сайты появляются, а какие-то исчезают. Соответственно, веса ссылок изменяются, и изменяется тИЦ ресурса. Яндекс не отвечает на вопросы, почему сайт поднялся или упал в результатах поиска, не комментирует обнуление тИЦ, не предуведомляет о нем, и не дает никаких гарантий и сроков на восстановление тИЦ.

тИЦ призван быть показателем сложившейся в интернете оценки ресурса, а не его самооценки. Поэтому попытки владельца ресурса активно воздействовать на значение своего тИЦ могут караться обнулением тИЦ на срок от одного месяца, поскольку действия по накрутке тИЦ считаются разновидностью поискового спама, то есть попыткой "обмана поисковой системы и манипулирования ее результатами с целью завышения позиции сайтов (страниц) в результатах поиска"" (Лицензия на использование поисковой системы Яндекса, п. 3.5 - http://rules.yandex.ru/termsofuse.xml).

Значение тИЦ рассчитывается для всех ресурсов, на которые хотя бы раз ссылается какой-либо из просканированных Яндексом ресурсов. Узнать тИЦ ресурса можно с помощью имеющихся в сети сервисов для вебмастеров, например, на сайте .... Для сайтов, описанных в Яндекс.Каталоге индекс цитирования показывается рядом с описанием ресурса:

Дополнительные данные о работе поисковой системы Яндекс и используемым Яндексоам индексам цитирования вы можете найти в статьях

Исключение страниц из индексации с помощью файла robots.txt

Не все страницы сайта имеет смысл отдавать на индексацию поисковым системам. Например, не нужно индексировать скрипты CGI или ISAPI, а также файлы статистики или списки файлов в папках. Отказ от индексации ряда страниц может быть вызван соображениями секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сайт, тем быстрее робот его обойдет. Поэтому при создании сайта имеет смысл подумать о том, чтобы запретить поисковым роботам индексацию всех документов, которые не имеет смысла индексировать. Сделать это можно с помощью файла robots.txt, находящегося в корневом каталоге сайта.

Детальное описание спецификации файла можно прочитать в документе "Стандарт исключений для роботов". В простейшем виде (разрешено все, кроме папки скриптов) файл robots.txt выглядит следующим образом:

	User-Agent: *
	Disallow: /cgi-bin/

Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow.

Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка Disallow: /forum игнорируется, поскольку перед ней нет строки с полем user-Agent.

	User-Agent: *
	Disallow: /cgi-bin
	Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, чтобы запретить индексирование документов, начинающихся с /cgi-bin и /forum, необходимо написать.

	User-Agent: * .
	Disallow: /cgi-bin
	Disallow: /forum

А следующий фрагмент будет неверным

	User-Agent: *
	Disallow: /cgi-bin /forum

В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:

	User-Agent: *
	Disallow: www.iqyho8t.ru/cgi-bin

запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но не запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi. В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:

	User-Agent: *
	Disallow: *

запрещает индексирование документов, начинающихся с символа "*" (которых в природе не существует), а файл:

	User-Agent: *
	Disallow: /

запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то достаточно добавить дополнительный тег <МЕТА> в HTML-код вашей страницы (внутри тега <HEAD>):

	<MЕТА NAME="ROBOTS" CONTENT="NOINDEX">

Тогда данный документ также не будет проиндексирован. Вы также можете использовать тег

	<MЕТА NAME="ROBOTS" CONTENT="NOFOLLOW">

Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы. Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тег

	<МЕТА NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами <NOINDEX> </NOINDEX> Теперь, когда все заголовки соответствуют содержимому страниц, на каждой странице размещены описание и ключевые слова для нее, а все рисунки снабжены надписями и запрещено индексирование некоторых документов или их частей, можно приступать к регистрации сайта в поисковой системе.

Использование noindex и nofollow

Для запрета индексации части страницы существует тег noindex.

Тег noindex воспринимается только поисковыми роботами Яндекса и Рамблера, другие поисковики и в том числе Гугл его игнорируют. Тег noindex можно использовать в мета-теге Robots.

Когда следует использовать тег noindex:

  • 1) Закрывайте от индексации коды счетчиков;
  • 2) Закрывайте от индексации исходящие ссылки, когда не хотите чтобы они были учтены поисковиками или биржами ссылок.
  • 3) Закрывайте тегом noindex информацию, индексация которой не имеет смысла по причине постоянного изменения.
  • 4) Закрывайте от индексации повторяющийся контент.

Если Вы не хотите закрывать от индексации ссылку, (а бывает иногда нужно, чтобы поисковый робот пошел по ней) можно использовать атрибут rel="nofollow".

Атрибут nofollow не мешает индексации ссылки. Задача этого атрибута - сообщить поисковой системе, что рейтинг со страницы, на которой ссылка размещена, не должен передаваться странице, на которую данная ссылка ведет. Код с атрибутом nofollow будет выглядеть следующим образом -
<a rel="nofollow" href="http://сама_ссылка.ru">текст ссылки</a>

Атрибут nofollow следует использовать для всех ссылок, ведущих на другие сайты (если это не ваши сайты и вы не хотите передавать им вес страницы). Для ссылок, ведущих на собственные страницы, данный атрибут использовать не следует.

Атрибут nofollow так же можно использовать в метатеге robots.

Особенности использования noindex и nofollow:

  • 1) Тег noindex не соответствует стандартам HTML. Тег был придуман Яндексом и принят Рамблером. Google и другие его не воспринимают. Многие валидатотры ругаются на него как на ошибку в коде.
  • 2) За использование тега noindex пессимизация сайта не происходит.
  • 3) Для Гугла не существует аналога noindex, а сам тег Гуглом не воспринимается.
  • 4) По ссылке, заключенной в noindex вес не передается для Яндекса, для Гугла следует использовать атрибут rel="nofollow" в коде самой ссылки.
  • 5) Чтобы исключить передачу веса для Гугла и Для Яндекса, код должен выглядеть следующим образом: <noindex><a rel="nofollow" href="http://сама_ссылка.ru">текст ссылки</a></noindex>.

Полезные ресурсы

Загляните на досуге

Счетчики

Рейтинг@Mail.ru

LiveInternet

Rambler's Top100