Страница последний раз редактировалась 18.10.2009

Инcтрументарий вебмастера. Программа XENU Link Sleuth

В этой статье мы рассмотрим один из инструментов веб-мастера - программу поиска так называемых "битых ссылок", то есть ссылок, которые ведут "в никуда", сформированы ошибочно. Либо просто со временем объект, на который вела ссылка, пропал. Подробнее о "битых" ссылках, о том, как они возникают и о других средствах их выявления вы можете прочитать на посвященной им странице. Здесь же будет рассмотрен только один (но, кажется, лучший) инструмент для борьбы с такими ссылками - программу XENU Link Sleuth. Я буду иллюстировать изложение примерами поиска битых ссылок на своем сайте http://rus-linux.net.

Программа XENU Link Sleuth распространяется свободно, скачать ее можно с сайта разработчика. Автор программы - Tilman Hausherr. К сожалению, работает XENU только под Windows, версий для других ОС нет. На момент написания этих заметок текущей версией была версия 1.3c от 25-го апреля 2009 года. Итак, скачиваем архивный файл XENU.ZIP и разархивируем. В нем содержится программа Setup.exe, запускаем ее и следуем инструкциям. Подробно описывать установку я не буду, отмечу только, что для установки могут потребоваться права локального администратора Windows. Если вы такими правами не обладаете, то можно развернуть программу на своем компьютере, а потом просто перенести исполняемый файл на любой другой компьютер (или, например, флеш-диск) и она будет запускаться без проблем. Собственно, вся процедура инсталляции заключается, видимо, в том, что вы соглашаетесь с лицензией (а кто ее читает-то у нас?) и в создании ярлыка для запуска программы на вашем рабочем столе.

1. Запуск XENU Link Sleuth и получение списка "битых" ссылок

Теперь с помощью ярлыка или иным способом (не мне вас учить!) запускаем исполняемый файл xenu.exe. Открывается окно программы:

Стартовое окно программы XENU /txt/xenu/
Рис. 1. Стартовое окно программы XENU Link Sleuth

Для того, чтобы запустить проверку "битых ссылок", нужно выбрать в меню File пункт Check URL.... Откроется диалоговое окно, изображенное на рисунке 2 (обратите внимание на различие оформления окон на снимках 1 и 2; программа работает в разных версиях ОС):

Программа XENU. Диалоговое окно для задания параметров анализа
Рис. 2. Диалоговое окно для задания параметров анализа

В строке ввода в верхней части этого окна нужно ввести адрес сайта, который вы хотите проверить. На рисунке 2 вы видите пример задания URL исследуемого сайта.

Примечание: У меня иногда при вводе полного URL, с добавлением http://, программа отказывалась работать. Я не сразу заметил, что в этом случае адрес сайта приобретал вид http://http://rus-linux.net. То есть программа сама добавляла тип протокола. Если же я просто вводил имя домена rus-linux.net (без http://), все работало нормально. Так что если возникнут проблемы при задании полного запроса, попробуйте альтернативный вариант.

Если вы хотите, чтобы в ходе анализа сайта проверялись и внешние ссылки (то есть ссылки, указывающие на внешние сайты), проставьте флажок в чекбоксе "Check external links". Что касается моего сайта, я этот флажок обычно не ставлю, потому что знаю заранее, что неработающих внешних ссылок у меня очень много. Но это обусловлено спецификой моего сайта, содержащего каталог статей, опубликованных в Интернет за последние 10 лет. Естественно, что за эти годы многие ссылки перестали работать, а поправить их все у меня уже нет возможности. Оставляю такие ссылки как свидетельства истории.

Экранная кнопка Local file... используется в тех случаях, когда вы хотите проверить ссылки в локальном файле. Эту возможность мы рассмотрим чуть позже, а пока вернемся к случаю анализа сайта в сети.

В двух полях ввода ниже кнопки Local file... можно либо добавить какие-то типы ссылок к анализу, либо, наоборот, исключить. Я, например, при анализе своего сайта исключаю полностью форум, поскольку XENU Link Sleuth находит в нем столько битых и небитых ссылок, сколько там и не было никогда. Для исключения группы страниц нужно ввести соответствующие данные в строку ввода "Do not check any URLs beginning with this:" и щелкнуть по экранной кнопке "Add". Соответствующая подстрока переносится в список под строкой ввода, как показано на рис.2, и начинающие с нее ссылки на будут анализироваться.

Прежде чем запускать сканирование сайта, щелкните еще по экранной кнопке "More options...". Откроется диалоговое окно с двумя вкладками: "Basic" и "Advanced", с помощью которых нужно сразу задать некоторые параметры анализа.

Программа XENU. Диалоговое окно для задания параметров анализа. Вкладка Basic
Рис. 3. Диалоговое окно для задания параметров анализа. Вкладка "Basic"

Примечание: Разработчик программы советует при анализе форумов ограничивать глубину просмотра (Maximum level на рис. 3), но я этот вариант пока не пробовал.

Ползунком "Parallel Threds" на вкладке "Basic" вы определяете число одновременно работающих потоков программы, то есть число одновременно проверяемых ссылок. Как видите, максимально можно задать 100 потоков. Выбор здесь зависит, очевидно, от объема оперативной памяти вашего компьютера и "толщины" канала связи до провайдера. Я не менял установленного по умолчанию значения 30. На некоторых блогах рекомендуют ограничиться 10-ю потоками, так как считают, что при большем числе можно просто "положить" сервер.

Что на этой вкладке поменять необходимо, по моему мнению, так это детальность получаемого отчета (поле "Report"). Если оставить все флажки, то в результате можете получить огромный по объему отчет. Если речь идет только о поиске битых ссылок, можно оставить только один флажок "Brocken links, ordered by page" ("Битые ссылки, упорядоченные по страницам сайта"). Другие варианты пока не рассматриваем, как и вкладку "Advanced".

Программа XENU. Диалоговое окно для задания параметров анализа. Вкладка Advanced
Рис. 4. Диалоговое окно для задания параметров анализа. Вкладка "Advanced"

На рисунке 2 вы видите еще экранную кнопку "e-mail...". С помощью этой кнопки вы можете настроить отправку электронных писем, извещающих об окончании процесса сканирования сайта. Но я этой функцией программы пока не пользовался, так что ограничусь рисунком 5, из которого в общем-то ясны функции этого диалогового окна, если вы хотя бы со словарем прочитаете имеющиеся в этом окне надписи.

Программа XENU. Настройка отправки сообщения по электронной почте
Рис. 5. Настройка отправки сообщения по электронной почте

Ну, наконец, с настройками покончено и можно запустить собственно сканирование, щелкнув по экранной кнопке "OK" в окне, изображенном на рис.2. Ход процесса сканирования вы можете наблюдать в реальном режиме (если успеете передвигать ползунок вслед за обновлением экрана):

Программа XENU. Отображение хода сканирования
Рис. 6. Отображение хода сканирования.

На рисунке 6 видно, что рабочие (небитые) ссылки отображаются зеленым цветом, пропущенные в соответствии со сделанными выше настройками внешние ссылки - синим, внутренние ссылки, которые пользователь запретил просматривать - коричневым. Битые ссылки будут выделены красным, а ссылки, просматриваемые в данный момент - серым цветом (на рисунке это не видно). Сам процесс сканирования для достаточно больших сайтов может продолжаться часами. Когда программа закончит сканирование, будет выдано сообщение, представленное на рис. 7.

Программа XENU. Сообщение об окончании сканирования
Рис. 7. Сообщение об окончании сканирования

Не торопитесь со щелчком по кнопке "Да". Скажите "Нет" и попробуйте вначале выбрать в главном меню (теперь состав выпадающих меню стал гораздо обширнее) пункт "Retry broken links". У меня неоднократно получалось так, что программа продолжала сканирование, обходя значительно большее число страниц сайта (это число отображается в строке статуса в правом нижнем углу окна программы).

Есть и другой, более правильный способ определения того, что еще не все страницы сайта обработаны программой: если имеются строки такие, что в столбце "Status" проставлено значение "pending" или "timeout", сканирование надо повторять. Причем, если сайт у вас содержит достаточно большое число страниц, повторять многократно. Вот когда число известных программе страниц перестанет увеличиваться и все строки будут иметь статус "ok" или "skip", можно уже задать формирование отчета. При большом количестве страниц этот процесс тоже не быстрый, при этом на экране отображается окно (рис.8), позволяющее его прервать. Создание отчета можно произвести и впоследствии (если вы сохранили результаты работы программы, о чем чуть ниже).

Программа XENU. Окно прерывания процесса создания отчета
Рис. 8. Окно прерывания процесса создания отчета

Если же вы дождетесь окончания этой процедуры, откроется окно браузера и вы увидите собственно отчет. На рис.9 представлен результат, который получил я:

Программа XENU. Пример отчета, формируемого программой
Рис. 9. Пример отчета, формируемого программой

Теперь достаточно несложно исправить все битые ссылки, открыв перечисленные в отчете страницы в вашем привычном редакторе и внеся необходимые исправления. Если нет времени сделать это немедленно, можно сохранить страницу с отчетом в виде файла, чтобе провести работу позже. Можно также сохранить результат работы программы XENU, выбрав в меню пункт "File" - "Save" ("горячие" клавиши - <Ctrl-S>). Загрузив позже этот результат, вы сможете продолжить работу по сканированию сайта, либо заново сформировать отчет. Но если вы уже поправили часть ссылок на вашем сайте, то лучше, конечно, начать все заново. Если вы попытаетесь выйти из программы, не сохранив предварительно результаты работы, программа сама напомнит вам о необходимости сохранения.

Программа XENU. Предложение сохранить результат работы
Рис. 10. Предложение сохранить результат работы

В заключение отмечу, на основании собственного опыта работы с программой XENU Link Sleuth, что список "битых" ссылок, формируемых программой, может оказаться не полным. Для того, чтобы действительно исправить все ссылки на отсутствующие страницы, мне пришлось использовать другие возможности программы XENU, о чем я и постараюсь рассказать в следующей заметке серии.

Полезные ресурсы

Загляните на досуге

Счетчики

Рейтинг@Mail.ru

LiveInternet

Rambler's Top100