Страница последний раз редактировалась 01.03.2010

Программа XENU Link Sleuth. Создание файла Sitemap.xml

Файл Sitemap.xml создают для облечения индексирования сайта роботами поисковых систем Яндекс и Google (подробнее смотрите здесь). Чтобы создать такой файл с помощью программы XENU Link Sleuth, нужно вначале провести сканирование сайта как это было описано в первой части наших заметок. После завершения сканирования можно отказаться от создания отчета, но необходимо сохранить результаты сканирования (смотри рис.10 в первой части). Тогда вы в любой момент сможете снова открыть файл с результатами сканирования и продолжить работу.

Надо сразу сказать, что приступать к созданию файла Sitemap.xml следует только тогда, когда вы уже закончили работу по исправлению всех битых, неработающих и некорректных ссылок на внутренние страницы вашего сайта. Если этого не сделать, то файл Sitemap.xml будет содержать все такие ссылки, что вряд ли будет способствовать достижению тех целей, ради которых этот файл создается. Тем не менее, на предыдущих этапах анализа иногда не удается выявить и удалить все некорректные ссылки, так что прежде чем отдавать файл Sitemap.xml поисковикам, надо его тщательно проанализировать.

Итак, открываем файл с результатами сканирования (если вы не выходили из программы, то эти результаты у вас уже открыты) и выбираем в главном меню меню пункт "File - Create Google Sitemap File...". Откроется диалог, в котором нужно ввести имя файла и можно также выбрать каталог, где он будет сохранен (рис.11).

Программа XENU. Создание файла Sitemap.xml
Рис. 12. Ввод имени файла и выбор каталога

Я обычно называю файл Sitemap.xml, а, чтобы не путаться, сохраняю такие файлы для разных сайтов в отдельных каталогах.

Сам процесс создания файла не занимает много времени. Но вот после его появления в выбранном каталоге нужно еще проделать значительную работу. Дело в том, что, как уже было сказано выше, XENU Link Sleuth выдает в отчете далеко не все некорректные ссылки. Расскажу о своем опыте корректировки файла Sitemap.xml, полученного с помощью программы XENU Link Sleuth.

Примечание: Ниже рассказывается об ошибках, которые имели место на моем конкретном сайте. К тому же в начале использования программы XENU я создавал файл Sitemap.xml, не проведя предварительно исправление всех битых ссылок. Но мой опыт может оказаться полезным, несмотря на то, что, возможно, ошибок, подобных описываемым ниже, у вас не обнаружится. Зато могут быть другие, свои.

Я создавал файл Sitemap.xml для своего достаточно старого сайта http://rus-linux.net, который к рассматриваемому моменту содержал по оценкам, выдаваемым сервисами Яндекса и Google, от 8 до 12 тысяч страниц (точной цифры я и не знал, она определилась позже, по результатам создания и выверки файла Sitemap.xml). Программа XENU при первом запуске создала файл, содержащий 13 146 записей. Даже беглый просмотр этого файла показал, что не все ссылки в нем корректны.

Первый момент, на который я обратил внимание при просмотре файла Sitemap.xml, это наличие ссылок на графические файлы. Такие ссылки досточно легко удалить из Sitemap.xml, просто проведя поиск по расширениям ".png", ".gif", ".jpg" и удалив соответствующие записи. В результате число записей в моем случае уменьшилось до 12146.

Удаление ссылок на графические файлы я вначале делал вручную - путем поиска указанных расширений во встроенном текстовом редакторе программы FAR (как уже отмечалось, я не сразу нашел полезную опцию Properties в контекстном меню ссылки). При этом волей-неволей просматриваешь записи, хоть и не все, и замечаешь другие "битые" ссылки. Я, например, заметил присутствие ссылок на некоторые уже удаленные страницы сайта. Поскольку в моем случае эти ссылки можно было легко найти по характерной подстроке в адресе, я их тоже удалил. Число записей сократилось до 11943. Со страниц сайта такие ссылки тоже было легко удалить, поскольку они встречались только на ограниченном числе страниц.

Еще я заметил наличие в файле Sitemap.xml ссылок, в которых включены почтовые адреса, например, http://rus-linux.net/rldp@ftp.botik.ru. Причина в наличии ссылки вида <a href="rldp@ftp.botik.ru">, в которой пропущен префикс mailto: в ссылке. Такие ошибки нетрудно "вычистить" из Sitemap.xml и страниц сайта.

Затем я обратил внимание на наличие ссылок, включающих адреса сторонних сайтов, например, "http://rus-linux.net/www.dll-files.com". Причина появления таких ошибок аналогична предыдущему случаю: в тексте сайта дана ссылка вида "a href="www.dll-files.com" (без префикса http://). И при отображении страницы с такой ссылкой в браузере и при сканировании сайта программой XENU такие ссылки приводятся к виду "http://rus-linux.net/www.dll-files.com" и вызывают появление "битой ссылки". Пришлось искать все такие ссылки в файле Sitemap.xml, а найдя, выискивать, где же они встречаются в текстах сайта и править, что было уже гораздо сложнее, чем с предыдущими группами неверных записей.

Предыдущий пример еще достаточно простой в том смысле, что имеется критерий поиска таких ссылок и в файле Sitemap.xml (ищем вхождения строки вида "http://rus-linux.net/www") и в текстах сайта (ищем подстроку вида "a href="www."). Но ведь ссылки без префикса "http://" могут и не содержать "www.". Такие ссылки искать сложнее. Я воспользовался поиском подстрок вида ".com", ".org", однако этот список не исчерпывающий (например, не могу воспользоваться поиском подстроки ".net", поскольку она встречается в каждой записи файла Sitemap.xml). И вообще, перебор всех имен доменов верхнего уровня - задача не воодушевляющая. Тем более, что в этом случае в результаты поиска включаются и вполне корректные ссылки с префиксом "http://", а таковых на моем сайте предостаточно. В результате мне хватило терпения на поиск только 40 таких ссылок, а дальше пришлось задуматься о том, как бы облегчить задачу.

Частичное решение дает та же программа XENU. На следующем рисунке обратите внимание на кнопку "Local file...".

Программа XENU. Анализ локального файла
Рис. 13. Выбор локального файла

С помощью этой кнопки вы можете выбрать для проверки на наличие "битых" ссылок локальный файл. Только не забудьте проставить флажок "Check external links" и, очевидно, что для проверки ссылок необходимо подключение к Интернет. Преобразовать полученный к этому моменту вариант файла Sitemap.xml в файл формата html достаточно просто. Если вы владеете каким-то языком программирования, хотя бы скриптовым языком оболочки bash, вам не составит труда написать небольшую программку. Я сделал это с помощью нескольких операций во встроенном редакторе программы FAR. Записи в Sitemap.xml имеют следующий вид:

  <url>
	<loc>http://rus-linux.net/MyLDP/BOOKS/USB-Guide/c577_files/x33.html</loc>
	<lastmod>2010-01-22</lastmod>
	<changefreq>monthly</changefreq>
	<priority>0.8</priority>
  </url>

причем все строки, кроме строки с адресом, одинаковы для всех записей в файле. Нам нужно сначала удалить все строки, кроме строки с адресом, после чего заменить <loc> на <a href=, а </loc> - на >XXXXX</a> так что строка с адресом примет вид

  <a href=http://rus-linux.net/MyLDP/BOOKS/USB-Guide/c577_files/x33.html>XXXXX</a> 

(в данном случае несущественно, что все ссылки указывают как бы на файлы с одним и тем же именем, нам важно найти неработающие ссылки. Затем сортируем файл (для облегчения следующей операции удаления пустых строк, которую я делал вручную), удаляем из него пустые строки и отдаем на анализ программе XENU.

В списке неработающих ссылок, который выдала программа, обращает на себя внимание масса ссылок на файлы .css и .js. Такие ссылки тоже нетрудно вычистить из Sitemap.xml, но несколько сложнее отыскать и удалить из файлов на сайте. Впрочем, вероятно их и не стоит удалять из файлов на сайте - работать они скорее всего не будут: ссылки на них есть, а сами файлы отсутствуют. Другое дело, что поиск таких файлов замедлит немного отдачу страниц, так что в целях оптимизации работы сайта такую чистку провести все же целесообразно.

Но я несколько увлекся вопросом о выявлении и устранении "битых", то есть неработающих ссылок. Занятие это полезное и работу по их удалению провести необходимо, но целью настоящей заметки является создание файла Sitemap.xml. К этой теме мы и вернемся. Мы же создаем его с целью оказания помощи поисковым роботам. Так что из этого файла удалить все битые ссылки необходимо независимо от того, будут ли они удалены на сайте. Поэтому все неработающие ссылки, выявленные на предыдущем этапе с помощью программы XENU, из Sitemap.xml удаляем.

В моем случае даже после завершения описанных выше операций еще не все записи в файле Sitemap.xml были корректны. Но полностью описывать процесс доведения своего файла "до ума" я не буду - ошибки у каждого будут скорее всего свои. Отмечу только, что для поиска этих ошибок удобно пользоваться созданным нами вспомогательным файлом формата html - в нем все ссылки отсортированы в лексиграфическом порядке и, просматривая этот файл, можно найти еще какие-то битые ссылки (вы же хорошо представляете, какие страницы имеются на вашем сайте, а какие попали в этот файл в силу разных ошибок).

В результате всех вышеописанных действий я удалил с сайта более 3 тысяч некорректных ссылок. Тем не менее, на сайте осталось еще 7 642 страницы, которые и были перечислены в результирующем файле Sitemap.xml.

Завершая разговор о создании файла Sitemap.xml с помощью программы XENU хочу еще отметить, что эта программа для каждой страницы вашего сайта создает запись, состоящую из 6 строк, пример которой уже был приведен выше, но я повторю:

  <url>
	<loc>http://rus-linux.net/MyLDP/BOOKS/USB-Guide/c577_files/x33.html</loc>
	<lastmod>2010-01-22</lastmod>
	<changefreq>monthly</changefreq>
	<priority>0.8</priority>
  </url>

При этом только одна строка в этой записи изменяется, а все остальные - одинаковы во всех записях. Причем, как утверждается в документации на сайте Google (а это разработчик Sitemap.xml) три из шести строк не обязательны. Необязательные строки можно удалить и запись примет следующий вид:

  <url>
	<loc>http://rus-linux.net/MyLDP/BOOKS/USB-Guide/c577_files/x33.html</loc>
  </url>

Это существенно сокращает объем файла Sitemap.xml, что может в некотором смысле оказаться полезным. Например, сокращается объем передаваемых по FTP данных при обновлении сайта (что влечет необходимость обновления и файла Sitemap.xml).

В завершение скажу, что целесообразно однажды выверить файл Sitemap.xml и потом просто добавлять в него записи при добавлении на сайт каждой новой странички. В таком случае вы всегда будет иметь актуальную версию этого файла и возможность передать его поисковым системам.

Полезные ресурсы

Загляните на досуге

Счетчики

Рейтинг@Mail.ru

LiveInternet

Rambler's Top100