Аудит «Недопустимый файл 'robots.txt'»
Published on • Updated on
Файл robots.txt
сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Недопустимый файл robots.txt
может вызвать проблемы двух типов:
- Это может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже отображаться в результатах поиска.
- Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.
robots.txt
в Lighthouse
Причины плохих результатов аудита Lighthouse отмечает недопустимые файлы robots.txt
:
![Аудит Lighthouse показывает недопустимый файл robots.txt](https://wd.imgix.net/image/tcFciHGuF3MxnTr1y5ue01OGLBn2/X29ztochZPiUVwPo2rg3.png?auto=format)
Большинство аудитов Lighthouse применяется только к той странице, на которой вы сейчас находитесь. Однако, поскольку robots.txt
определяется на уровне имени хоста, этот аудит применяется ко всему вашему домену (или субдомену).
Разверните аудит «Недопустимый файл robots.txt
» (robots.txt is not valid) в своем отчете, чтобы узнать, что не так с вашим robots.txt
.
К распространенным ошибкам относятся:
No user-agent specified (директива user-agent не задана)
Pattern should either be empty, start with "/" or "*" (правило начинается не с символа / и не с символа *)
Unknown directive (неизвестная директива)
Invalid sitemap URL (некорректный формат URL файла Sitemap)
$ should only be used at the end of the pattern (символ $ можно использовать только в конце правила)
Lighthouse не проверяет правильность расположения файла robots.txt
. Для правильной работы файл должен находиться в корне вашего домена или субдомена.
Each SEO audit is weighted equally in the Lighthouse SEO Score, except for the manual Structured data is valid audit. Learn more in the Lighthouse Scoring Guide.
robots.txt
Как исправить проблемы с robots.txt
не возвращает код состояния HTTP 5XX
Убедитесь, что Если ваш сервер возвращает ошибку сервера (код состояния HTTP 5xx) для robots.txt
, поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что предотвратит индексацию нового контента.
Чтобы проверить код состояния HTTP, откройте robots.txt
в Chrome и проверьте запрос в Chrome DevTools.
robots.txt
не должен превышать 500 КиБ
Размер Поисковые системы могут прекратить обработку robots.txt
на середине, если размер файла превышает 500 КиБ. Это может сбить с толку поисковую систему и привести к некорректному сканированию вашего сайта.
Чтобы robots.txt
не превышал допустимый размер, старайтесь меньше исключать индивидуальные страницы и больше внимания уделяйте более широким шаблонам. Например, если вам нужно заблокировать сканирование файлов PDF, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf
, используя disallow: /*.pdf
.
Исправьте ошибки форматирования
- В
robots.txt
допускаются только пустые строки, комментарии и директивы, соответствующие формату «имя: значение». - Убедитесь, что значения
allow
иdisallow
либо пусты, либо начинаются с/
или*
. - Не используйте
$
в середине значения (например,allow: /file$html
).
user-agent
есть значение
Убедитесь, что для Имена пользовательских агентов сообщают сканерам поисковых систем, каким директивам следует следовать. Вы должны указать значение для каждого экземпляра user-agent
, чтобы поисковые системы знали, нужно ли следовать соответствующему набору директив.
Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из ее опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования.)
Используйте символ *
, чтобы указать все поисковые роботы, не указанные иным способом.
Don't
user-agent:
disallow: /downloads/
Пользовательский агент не определен.
Do
user-agent: *
disallow: /downloads/
user-agent: magicsearchbot
disallow: /uploads/
Определены общий пользовательский агент и пользовательский агент magicsearchbot
.
allow
или disallow
не предшествуют user-agent
Убедитесь, что директивы Имена пользовательских агентов определяют разделы файла robots.txt
. Сканеры поисковых систем используют эти разделы, чтобы определить, каким директивам следовать. Размещение директивы перед именем первого пользовательского агента означает, что никакие сканеры не будут ей следовать.
Don't
# начало файла
disallow: /downloads/
user-agent: magicsearchbot
allow: /
Директиву disallow: /downloads
не прочитает ни один поисковый робот.
Do
# начало файла
user-agent: *
disallow: /downloads/
Всем поисковым системам запрещено сканировать папку /downloads
Сканеры поисковых систем следуют директивам только в разделе с более точно указанным именем пользовательского агента. Например, если у вас есть директивы для user-agent: *
и user-agent: Googlebot-Image
, робот Googlebot Images будет следовать только директивам в разделе user-agent: Googlebot-Image
.
sitemap
Укажите абсолютный URL-адрес для Файлы Sitemap нужны для того, чтобы сообщать поисковым системам о страницах вашего сайта. Файл sitemap обычно включает в себя список URL-адресов на вашем веб-сайте вместе с информацией о том, когда они в последний раз были изменены.
Если вы решили отправить файл sitemap в robots.txt
, убедитесь, что используете абсолютный URL.
Don't
sitemap: /sitemap-file.xml
Do
sitemap: https://example.com/sitemap-file.xml
Ресурсы
Updated on • Improve article