Robots.txt – это текстовый файл, который находится в корневой директории ресурса и содержит инструкции для поисковых машин:
- запрет индексации отдельных разделов, страниц или файлов, которые могут затруднить раскрутку сайта,
- рекомендации по соблюдению временного промежутка между скачиванием файлов с сервера,
- информацию о зеркалах домена т.д.
История
Документ «Стандарт исключений для роботов» — это результат соглашения между основными производителями поисковых систем, заключенного 30 июня 1994 года. Данный стандарт не является официальным или корпоративным и не гарантирует его соблюдения будущими поисковыми ботами. Причиной принятия соглашения стал тот факт, что индексация происходит периодически против желания владельцев сайтов, может осуществляться некорректно и затруднять работу посетителей ресурса с сервером.Создание файла
Для создания robots.txt необходим обычный текстовый файл. Если раскрутка сайта не требует установки запретов по индексации, достаточно сделать пустой документ. На ресурсе может быть только один robots.txt, обязательно в его корне (размещение файла в поддиректориях сделает его незаметным для поисковых роботов без использования специальных мета-тегов robots). Так как URL чувствителен к регистру, название файла пишется строчными латинскими буквами. Если в процессе оптимизации сайта файл robots.txt не был создан, если он пуст или заполнен не по стандарту, поисковые боты работают по своему алгоритму.Стандарт
Robots.txt может содержать одну или несколько записей (каждая обязательно с новой строки) в форме <поле:> <пробел> <значение> <пробел>. Поле от регистра не зависит. В файл могут быть включены комментарии в стандартном для UNIX виде (# — начало комментария, конец строки — его окончание). Запись начинается со строки User-Agent (одной или нескольких), затем Disallow. Нераспознанные поля игнорируются.Простейший robots.txt выглядит следующим образом:
User-agent: *
Disallow: /название 1-го раздела/
Disallow: /название 2-го раздела/
Disallow: /название 3-го раздела/
В данном случае запрещена индексация трех разделов.User-Agent. Значением для этого поля является имя поискового бота, для которого устанавливаются права доступа. Если указаны несколько имен, то права доступа распространяются на всех перечисленных. Символ «*» вместо имени значит, что запись содержит инструкции для всех поисковых роботов.
Disallow. Значением для этого поля является полный или частичный URL, который нельзя индексировать. Если оно не указано, анализируется все дерево страниц на сервере.
В robots.txt не прописывается путь к панелям управления на сайте или консолям администратора, так как файл доступен для чтения посетителям ресурса. Поисковики в любом случае не индексируют страницы, запрашивающие логин или пароль, или те, на которые нет ссылок.