+7 (967) 051-86-50 seo1msk@gmail.com
Без выходных
г. Москва

Файл robots.txt

https://seomoskva.ru/wp-content/uploads/2021/01/robots-txt.jpg

Robots.txt служит для корректной индексации сайта и его отдельных страниц поисковыми машинами. По сути, он является файлом в текстовом формате .txt. Присутствие в нем специальных директив позволяет разрешать или запрещать доступ поисковым системам к считыванию и обработке информации. Наличие данного текстового файла дает возможность роботам руководствоваться при индексации прописанными правилами – это ускоряет и оптимизирует поиск страниц, снижает нагрузку на поисковые системы.

Что дает использование robots.txt

Данный файл считается источником правил, к которым в первую очередь обращается поисковая система. Учитывая информацию в нем, роботы определяют, насколько возможно индексировать весь сайт или его разделы либо страницы.

В нем содержится вся информация, которую должен учитывать бот при ранжировании сайта. Разделы и некоторая часть страниц, которые не нужно указывать в поисковых результатах, также указываются в данном файле. При этом обычно указывается путь к Sitemap – карте сайта.

В robots.txt содержится информация с запретом. В частности, он касается доступа к административной панели и плагинам. Таким образом ограничивается риск получения доступа к персональным данным владельца сайта.

Файл robots.txt всегда находится в корневой директории сайта.

Настройка файла Robots.txt

Создание файла robots.txt выполняется следующим образом:

  • ручное создание файла;
  • готовые шаблоны;
  • генераторы онлайн.

Создание robots.txt

Для ручного формирования файла используются любые текстовые редакторы, например: стандартный блокнот, а также NotePad++ или любой другой.

После внесения всех директив данный файл погружается в корневой каталог, а для загрузки обычно используется одна из панелей управления: Cpanel или ISPmanager. Также можно применять для загрузки админ-панель или CMS консоль, или же FTP-клиент, например – Total Commander.

Шаблонный файл

Для составления такого файла используются шаблонные директивы. Тем не менее, они готовы не полностью, и требуют дополнительных настроек, хотя и содержат стандартные директивы. Поэтому для работы с ними необходимо иметь опыт работы с движками типа Drupal, а также распространенным WordPress или любыми другими, на которых размещается сайт.

Важно: Обязательно после внесения изменений в robots, обновить его в Яндекс Вебмастере и Google Search Console, далее выборочно проверьте доступность страниц, что бы какой то директорией случайно не закрыли их к индексации.

Robots для сайтов на CMS WordPress

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

Для сайтов на CMS Joomla

User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /component/tags*
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Host: vash_sait.ru (или www.vash_sait.ru)
 Sitemap: http://путь к вашей карте XML формата

 User-agent: *
 Allow: /*.css?*$
 Allow: /*.js?*$
 Allow: /*.jpg?*$
 Allow: /*.png?*$
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Sitemap: http://путь к вашей карте XML формата 

Для сайтов на CMS Bitrix

User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге
Disallow: /bitrix/          # папка с системными файлами битрикса
Disallow: *bitrix_*=        # GET-запросы битрикса
Disallow: /local/           # папка с системными файлами битрикса
Disallow: /*index.php$      # дубли страниц index.php
Disallow: /auth/            # авторизация
Disallow: *auth=            # авторизация
Disallow: /personal/        # личный кабинет
Disallow: *register=        # регистрация
Disallow: *forgot_password= # забыли пароль
Disallow: *change_password= # изменить пароль
Disallow: *login=           # логин
Disallow: *logout=          # выход
Disallow: */search/         # поиск
Disallow: *action=          # действия
Disallow: *print=           # печать
Disallow: *?new=Y           # новая страница
Disallow: *?edit=           # редактирование
Disallow: *?preview=        # предпросмотр
Disallow: *backurl=         # трекбеки
Disallow: *back_url=        # трекбеки
Disallow: *back_url_admin=  # трекбеки
Disallow: *captcha          # каптча
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: *?FILTER*=        # здесь и ниже различные популярные параметры фильтров
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=         
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=    
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=  
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL= 
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=        
Disallow: *TYPE=
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Disallow: *from=            # ссылки с метками from
Allow: */upload/            # открываем папку с файлами uploads
Allow: /bitrix/*.js         # здесь и далее открываем для индексации скрипты
Allow: /bitrix/*.css
Allow: /local/*.js
Allow: /local/*.css
Allow: /local/*.jpg
Allow: /local/*.jpeg
Allow: /local/*.png
Allow: /local/*.gif

# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

Требования к файлу

Каким бы ни был способ создания такого файла – все равно придется учитывать базовые требования к написанию директив и их корректировке:

  • вся информация излагается в формате txt;
  • файл обязан располагаться в корневом каталоге;
  • объем не может превышать 500 кБ;
  • для каждой из имеющихся рабочих страниц желательно создавать отдельный файл robots.txt;
  • по запросу сервер должен делать возврат кода 200 OK$
  • URL файла выглядит в формате «домен/ robots.txt»;
  • наименование файла пишется в нижнем регистре.

При нарушении этих условий поисковые роботы не смогут определить файл и индексировать сайт по заданным правилам.

Используемые Директивы

Чтобы роботы могли корректно считывать информацию с robots.txt, требуется при его заполнении использовать стандартные директивы:

  • User-Agent – с этой строки начинается заполнение любого файла формата robots.txt. Она обозначает, к какому именно роботу должно быть обращение;
  • Disallow – тоже одна из часто используемых директив, в которой прописан запрет на ранжирование отдельных разделов либо страниц. Обычно они касаются страниц с личной информацией, служебных, технических разделов, страниц с навигацией внутри сайта;
  • Allow – директива, противоположная по своим значениям предыдущей. Она позволяет роботу делать обход указанных страниц, при ее составлении разрешено использование спецсимволов, например – * или $;
  • Sitemap – здесь содержится сообщение для ботов, указывающее на размещение карты сайта. Она важна ввиду того, что роботы в первую очередь обращаются к файлу sitemap и определяют структуру сайта, внутренние ссылки и разделы;
  • Clean-param – этот тип директивы является запретом для ботов, не позволяя им обходить динамические страницы, дублирующие основной контент ресурса.

При составлении файла обязательно нужно исключить данные, которые мешали бы быстрой индексации или представляли бы риск для личных данных. Для этого роботам устанавливается запрет на включение дублей всех страниц в индекс – это обеспечит поиск по одному URL адресу только разделов с уникальным контентом.

Заключение

Использование данного типа файлов способствует быстрейшей индексации страниц сайта, его продвижению, а также влияет на включение их в индекс. Файл robots.txt – один из важнейших инструментов SEO продвижения и используется на сайтах с любой численностью веб-страниц.

    КАКИЕ УСЛУГИ ВАС ИНТЕРЕСУЮТ?