Создание файла Robots.txt
Дата публикации: 03/02/2003
Категория: Поисковые системы
Версия для печати Некоторые вебмастера полагают, что должны оптимизировать разные страницы для каждой из поисковых систем под конкретный ключевой запрос. Я не рекомендую
этого делать, но если вы все же решите создавать такие страницы, то должны учитывать один момент.
Страницы, оптимизированные под разные поисковые системы обычно похожи друг на друга. Поисковые системы определяют идентичность страниц и могут запретить сайт к индексации. Для того, чтобы сайт не был оштрафован за спамминг, вы должны запретить индексацию страниц, не предназначенных для этого. То есть, например: вы должны запретить индексировать AltaVista страницы предназначенные для Google и наоборот. Использование файла robots.txt - лучший способ сделать это.
Вы должны создать файл robots.txt, используя текстовый редактор, например
Блокнот Windows. Не используйте текстовый процессор для создания подобного
файла.
Далее идет основной синтаксис файла robots.txt:
User-Agent: [Spider Name]
Disallow: [File Name]
Например, для того, чтобы объяснить роботу AltaVista (Scooter), не
индексировать файл с названием myfile1.html, находящемуся в корневом каталоге, вы должны написать
User-Agent: Scooter
Disallow: /myfile1.html
Для того, чтобы объяснить поисковому серверу Google, называемому
Googlebot, не индексировать myfile2.html и myfile3.html, вы должны написать
User-Agent: Googlebot
Disallow: /myfile2.html
Disallow: /myfile3.html
Конечно, вы можете давать указания одновременно разным поисковым роботам в
одном файле robots.txt. Так, для того, чтобы указать AltaVista не
индексировать файл с именем myfile1.html, и указать Google не индексировать
файлы myfile2.html и myfile3.html, вы должны написать
User-Agent: Scooter
Disallow: /myfile1.html
User-Agent: Googlebot
Disallow: /myfile2.html
Disallow: /myfile3.html
Если вы хотите чтобы все поисковые роботы не индексировали файл с именем
myfile4.html, Вы можете использовать символ * в строке User-Agent, т.е. вы
должны написать
User-Agent: *
Disallow: /myfile4.html
Но вы не можете указать символ * в строке Disallow.
После того, как вы сделали файл robots.txt, вы должны закачать его в
корневой каталог сайта. Файл robots.txt,
закачанный в любой подкаталог не будет работать - он должен находиться в корневом каталоге.
Я не хочу обсуждать далее синтаксис и структуру файла robots.txt - вы
можете узнать все подробности самостоятельно.
Теперь мы подошли к тому, как файл robots.txt может быть использован для
предотвращения наказания за спамминг в случае, если вы используете различные
страницы для разных поисковых систем. Все что вы должны сделать - это
запретить каждой поисковой системе индексацию страниц, которые не
предназначены для нее.
Для простоты предположим, что вы нацелены только на две ключевых фразы:
"tourism in Australia" и "travel to Australia". Также, предположим, что вы
работаете только с тремя самыми важными поисковыми серверами: AltaVista,
HotBot и Google.
Теперь, предположим, что вы следовали следующему правилу при наименовании
файлов: каждая страница названа разделением слова из ключевой фразы
дефисом. К этому добавлены две первые буквы поискового сервера, для которого
оптимизирована эта страница.
Таким образом, файлы для AltaVista будут названы
tourism-in-australia-al.html
travel-to-australia-al.html
Файлы для HotBot будут названы
tourism-in-australia-ho.html
travel-to-australia-ho.html
Файлы для Google будут названы
tourism-in-australia-go.html
travel-to-australia-go.html
Как было замечено ранее, поисковый робот AltaVista называется Scooter и
поисковый робот Google называется Googlebot.
Теперь мы знаем, что HotBot использует Inktomi, и из этого списка мы узнаем,
что робот Inktomi называется Slurp.
Учитывая это, мы создаем следующий файл robots.txt:
User-Agent: Scooter
Disallow: /tourism-in-australia-ho.html
Disallow: /travel-to-australia-ho.html
Disallow: /tourism-in-australia-go.html
Disallow: /travel-to-australia-go.html
User-Agent: Slurp
Disallow: /tourism-in-australia-al.html
Disallow: /travel-to-australia-al.html
Disallow: /tourism-in-australia-go.html
Disallow: /travel-to-australia-go.html
User-Agent: Googlebot
Disallow: /tourism-in-australia-al.html
Disallow: /travel-to-australia-al.html
Disallow: /tourism-in-australia-ho.html
Disallow: /travel-to-australia-ho.html
Когда вы поместите эти строки в robots.txt file, вы инструктируете каждую поисковую систему не индексировать файлы, предназначенные для других
поисковых систем.
Заканчивая создание robots.txt дважды убедитесь, что вы не сделали в нем никаких ошибок. Маленькая ошибка может иметь серьезные последствия - поисковая система может проиндексировать файлы, которые не предназначены для нее, и в этом случае наказать сайт за спамминг, или она может не проиндексировать никакие файлы, в этом случае, сайт не получит высокого положения при поиске в этой поисковой системе.
Полезный инструмент для проверки синтаксиса файла robots.txt находится здесь. И хотя это поможет вам исправить синтаксические ошибки в robots.txt, необходимо вручную внимательно проверить файл на логические ошибки, как это описано выше.
Sumantra Roy - один из наиболее признанных специалистов по оптимизации сайтов для поисковых систем. Вы можете прочитать больше статей подписавшись на рассылку 1st Search Ranking (отправьте пустое письмо на 1stSearchRanking.999.99@optinpro.com ) или посетив сайт http:// www.1stsearchranking.com/
Статьи по теме: