Страница последний раз редактировалась 22.02.2010

Программа XENU Link Sleuth. Продолжаем искать "битые" ссылки

Итак, вы получили отчет программы XENU Link Sleuth в виде html-файла, в котором перечислены неработающие ссылки (они даже сгруппированы по страницам их местоположения) и исправили все указанные ошибки. Однако, как показывает мой личный опыт, таким образом удаляются еще далеко не все "битые" ссылки. Я использовал программу XENU при анализе своего сайта Виртуальная энциклопедия "Linux по-русски". Создавал я этот сайт уже более 10 лет назад, причем, не имея опыта сайтостроения, не заботился о качестве html-кода. Работает и ладно! Но когда сайт стал использоваться для размещения платных ссылок, пришлось обратить внимание на вопросы оптимизации его для поисковых систем. А за 10 лет разного рода недостатков и ошибок на нем было накоплено изрядно, так что этот сайт был идеальной площадкой для испытания всех возможностей программы XENU в частности, и для отработки вопросов оптимизации сайта вообще. Вот о том, какого рода ошибки я нашел на своем сайте с помощью программы XENU, я и расскажу ниже.

Напомню, что после завершения анализа сайта программой следует сохранить результат в файле, к которому можно обращаться снова и снова. Теперь открываем этот файл. Обратите внимание на перечень колонок таблицы, которую выдает программа после сканирования сайта (см.рис.11, на котором я сознательно уменьшил ширину столбцов, чтобы все их названия поместились на рисунке):

Программа XENU. Заголовки колонок в таблице результатов
Рис. 11. Заголовки колонок в таблице, выдаваемой программой XENU Link Sleuth

Программа позволяет сортировать содержимое таблицы по любому столбцу, для чего достаточно щелкнуть мышкой по заголовку столбца. Второй щелчок меняет порядок сортировки на обратный. Эта возможность сильно помогает в проведении дальнейшего анализа. Давайте рассмотрим, какие сведения можно получить, рассматривая данные в отдельных столбцах.

Колонка Address

Проведя упорядочивание данных по этой колонке и бегло пролистав таблицу, я сразу заметил несколько несуразностей. Во-первых, я обнаружил, что на моем сайте имеются ссылки, начинающиеся на file:/, apt:/, telnet:/, ftp://, ftp:ftp:, localhost:, mailto: и news:. Если telnet:/, ftp://, mailto: и news: подозрений не вызывают, то file:/, ftp:ftp:, localhost: явно показывают на некорректные ссылки (про apt:/ что-то ничего пока сказать не могу, просто не знаю, существует ли такой протокол).

Поскольку в данном случае уже не видно, на какой странице находится некорректная ссылка, ее приходится искать методом поиска вхождений подозрительной подстроки в локальной копии страниц сайта. Я проводил такой поиск в программе FAR, в UNIX- или Linux-системах можно пользоваться командой find. Чуть ниже я покажу более удобный способ поиска той страницы, на которой расположена некорректная ссылка (я его не сразу обнаружил). Впрочем, выбор инструмента - это уже ваша забота, так что вернусь к описанию своего случая.

Вхождения подстрок перечисленого вида оказались в большинстве случаев не ссылками, а просто встречались в тексте или в примерах кода. Однако там, где эти подстроки были внутри тегов <a href=...>...</a> пришлось текст править.

Нужно еще заметить, что все ссылки рассматриваемого вида программа XENU считает внешними. Я с внешними "битыми" ссылками вообще говоря, не боролся, ибо внешних некорректных ссылок у меня очень много, в силу характера сайта. Однако, ссылки вида <a href=localhost:...>...</a> и <a href=file:/...>...</a> мне представляются потенциально опасными для посетителя сайта, поэтому я постарался их удалить.

Следующий вид ошибок, которые я обнаружил при просмотре колонки Address, связан с появлением ссылок на несуществующие файлы и каталоги в корневой папке сайта. В этой папке не так уж много файлов и подкаталов, я их помню наперечет и появление ссылок вида http://rus-linux.net/file.html или http://rus-linux.net/katalog/, если в корневой папке нет файла file.html или каталога katalog, указывает на явную ошибку.

Колонки Status, Type и Size

Колонка Size показывает размер файла, содержащего данную страницу. Мы уже имели выше повод убедиться в полезности этой колонки. Но ее можно использовать еще и для того, чтобы выявить слишком большие страницы, которые потом можно разбить на несколько меньших.

Сортировка результатов по колонке Status позволяет, например, сгруппировать все ссылки со статусом "not found". Это другой вариант поиска "битых" ссылок на вашем сайте. Просмотрев после упорядочения ссылки со статусом "ok", я обнаружил еще целый класс некорректных ссылок на своем сайте.

В процессе удаления ссылок на несуществующие файлы из корневого каталога я обратил внимание на то, что эти ссылки помечены в таблице XENU зеленым цветом и в графе Status стоит "ok", то есть XENU не считает их "битыми". При этом в графе Size у всех таких ссылок стоит одно и то же значение. Причину этого я вскоре понял. Дело в том, что у меня подключен обработчик ошибки 404, который выводит в случае обращения к несуществующей странице стандартное сообщение и в http-заголовке возвращает код статуса 200 OK. XENU, естественно, считает, что страница открылась корректно и не относит ее к разряду "битых". Но фактически то такие случаи надо исправлять тоже.

Как только я понял причину появления таких случаев, я переместил подсветку на одну из подобных строк и щелкнул по заголовку колонки Size. Поскольку все такие страницы имеют один и тот же размер, все страницы, обрабатываемые скриптом error404.php сгруппировались в результатах анализа, их не пришлось вылавливать по одной, осталось только найти и исправить соответствующие ссылки.

Поскольку в данном случае программа уже не считает эту ссылку некорректной и, следовательно, в отчете уже не указано, на какой именно странице сайта встречается эта ссылка, снова возникает проблема поиска неправильной ссылки. К счастью, программа XENU предоставляет дополнительный инструмент для анализа входящих ссылок. Если подсветить нужную строку в таблице результатов, после чего на панели инструментов щелкнуть по значку с изображением руки, указательный палец которой направлен на стилизованный лист бумаги с текстом, появится окно, изображенное на рис. 12 (появление этого можно вызвать и путем щелчка правой кнопкой мыши по подсвеченной строке в таблице, после чего в появившемся меню выбираем пункт Properties).

Программа XENU. Окно с перечнем входящих и исходящих ссылок
Рис. 12. Окно с перечнем входящих и исходящих ссылок.

В этом окне перечислены все входящие и исходящие ссылки для выбранной страницы. Исходящие ссылки можно проанализировать на необходимость их нахождения на данной странице. Но нас на данном этапе интересуют входящие ссылки, которые перечислены в нижнем поле окна со свойствами страницы. Если вы видите, что какой-то страницы у вас на сайте фактически нет, открываете это окно и смотрите, откуда идет ссылка. На приведенном на рисунке примере видно, что в данном случае ссылка на несуществующую страницу имеется в двух других файлах. Открываем их и правим. Так что это окно существенно облегчает работу по удалению тех фактически "битых" ссылок на вашем сайте, которые не указаны как некорреткные в отчете, выдаваемом программой.

Сортировка таблицы результатов по колонке Type тоже может оказаться полезной в некоторых случаях. Можно, например, отсортировать результаты по этой колонке, переместив предварительно подсветку на одну из строк с типом "text/html". Опять же, просматривая сгруппированные таким образом ссылки, можно заметить некоторые несуразности.

Я полагаю, что проведя таким образом анализ результатов работы программы XENU применительно к вашему сайту, вы сможете удалить с сайта все битые и некорректные ссылки. После чего можно будет перейти к анализу тегов TITLE, используя колонку с таким наименованием.

Перейдем к колонке Title.

Загляните на досуге

Счетчики

Рейтинг@Mail.ru

LiveInternet

Rambler's Top100