robots.txt não é válido

Published on quinta-feira, 2 de maio de 2019 • Updated on sexta-feira, 29 de maio de 2020

Translated to: English, Español, 한국어, 中文, Pусский, 日本語

O robots.txt informa aos mecanismos de pesquisa quais páginas do seu site eles podem rastrear. Uma robots.txt inválida pode causar dois tipos de problemas:

Ele pode impedir que os mecanismos de pesquisa rastreiem as páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não deseja que sejam mostradas nos resultados da pesquisa.

Como a auditoria `robots.txt`

O Lighthouse sinaliza arquivos robots.txt

Auditoria do Lighthouse mostrando robots.txt inválido

A maioria das auditorias do Lighthouse se aplica apenas à página em que você está atualmente. No entanto, como o robots.txt é definido no nível do nome do host, essa auditoria se aplica a todo o seu domínio (ou subdomínio).

Expandir o robots.txt não é uma auditoria válida em seu relatório para saber o que há de errado com seu robots.txt.

Erros comuns incluem:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

O Lighthouse não verifica se o robots.txt está no local correto. Para funcionar corretamente, o arquivo deve estar na raiz do seu domínio ou subdomínio.

Each SEO audit is weighted equally in the Lighthouse SEO Score, except for the manual Structured data is valid audit. Learn more in the Lighthouse Scoring Guide.

Como corrigir problemas com o `robots.txt`

Certifique-se de que o `robots.txt` não retorne um código de status HTTP 5XX

Se o seu servidor retornar um erro de servidor (um código de status HTTP na casa dos 500) para o robots.txt, os mecanismos de pesquisa não saberão quais páginas devem ser rastreadas. Eles podem parar de rastrear todo o seu site, o que impediria que novos conteúdos sejam indexados.

Para verificar o código de status HTTP, abra robots.txt no Chrome e verifique a solicitação no Chrome DevTools.

Mantenha o `robots.txt` menor que 500 KiB

Os mecanismos de pesquisa podem parar de processar o robots.txt no meio do caminho se o arquivo for maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.

Para manter o robots.txt pequeno, concentre-se menos nas páginas excluídas individualmente e mais nos padrões mais amplos. Por exemplo, se você precisa bloquear o rastreamento de arquivos PDF, não proíba cada arquivo individual. Em vez disso, desabilite todos os URLs que contenham .pdf usando disallow: /*.pdf.

Corrija quaisquer erros de formato

Somente linhas vazias, comentários e diretivas que correspondam ao formato "nome: valor" são permitidos em robots.txt.
Certifique-se de allow valores permitir e disallow estão vazios ou começam com / ou *.
Não use $ no meio de um valor (por exemplo, allow: /file$html).

Certifique-se de que haja um valor para `user-agent`

Nomes de agente de usuário para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. Você deve fornecer um valor para cada instância do user-agent de usuário para que os mecanismos de pesquisa saibam se devem seguir o conjunto de diretivas associado.

Para especificar um rastreador de mecanismo de pesquisa específico, use um nome de agente de usuário de sua lista publicada. (Por exemplo, aqui está a lista de user-agents do Google usados para rastreamento.)

Use * para corresponder a todos os rastreadores de outra forma incomparáveis.

Don't

user-agent:
disallow: /downloads/

Nenhum agente de usuário está definido.

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Um agente de usuário geral e um agente de usuário magicsearchbot

Certifique-se de que não há são `allow` ou `disallow` directivas antes `user-agent`

Os nomes do agente do usuário definem as seções de seu arquivo robots.txt. Os rastreadores do mecanismo de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma diretiva antes do primeiro nome do agente do usuário significa que nenhum rastreador a seguirá.

Don't

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nenhum rastreador de mecanismo de pesquisa lerá a diretiva disallow: /downloads

# start of file
user-agent: *
disallow: /downloads/

Todos os mecanismos de pesquisa não podem rastrear a pasta /downloads

Os rastreadores do mecanismo de pesquisa apenas seguem as diretivas na seção com o nome do agente de usuário mais específico. Por exemplo, se você tiver diretivas para user-agent: * e user-agent: Googlebot-Image, o Googlebot Images seguirá apenas as diretivas na seção user-agent: Googlebot-Image.

Fornece um URL absoluto para o `sitemap`

Os arquivos de mapa de site são uma ótima maneira de permitir que os mecanismos de pesquisa conheçam as páginas do seu site. Um arquivo de mapa de site geralmente inclui uma lista de URLs em seu site, junto com informações sobre quando eles foram alterados pela última vez.

Se você optar por enviar um arquivo de mapa do site em robots.txt, certifique-se de usar um URL absoluto.

Don't

sitemap: /sitemap-file.xml

sitemap: https://example.com/sitemap-file.xml

Recursos

Updated on sexta-feira, 29 de maio de 2020 • Improve article

robots.txt não é válido

# Como a auditoria robots.txt

# Como corrigir problemas com o robots.txt

# Certifique-se de que o robots.txt não retorne um código de status HTTP 5XX

# Mantenha o robots.txt menor que 500 KiB

# Corrija quaisquer erros de formato

# Certifique-se de que haja um valor para user-agent

# Certifique-se de que não há são allow ou disallow directivas antes user-agent

# Fornece um URL absoluto para o sitemap

# Recursos

Como a auditoria `robots.txt`

Como corrigir problemas com o `robots.txt`

Certifique-se de que o `robots.txt` não retorne um código de status HTTP 5XX

Mantenha o `robots.txt` menor que 500 KiB

Corrija quaisquer erros de formato

Certifique-se de que haja um valor para `user-agent`

Certifique-se de que não há são `allow` ou `disallow` directivas antes `user-agent`

Fornece um URL absoluto para o `sitemap`

Recursos