robots.txt não é válido

Published on Updated on

Translated to: English, Español, 한국어, 中文, Pусский, 日本語

O robots.txt informa aos mecanismos de pesquisa quais páginas do seu site eles podem rastrear. Uma robots.txt inválida pode causar dois tipos de problemas:

  • Ele pode impedir que os mecanismos de pesquisa rastreiem as páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
  • Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não deseja que sejam mostradas nos resultados da pesquisa.

Como a auditoria robots.txt

O Lighthouse sinaliza arquivos robots.txt

Auditoria do Lighthouse mostrando robots.txt inválido

A maioria das auditorias do Lighthouse se aplica apenas à página em que você está atualmente. No entanto, como o robots.txt é definido no nível do nome do host, essa auditoria se aplica a todo o seu domínio (ou subdomínio).

Expandir o robots.txt não é uma auditoria válida em seu relatório para saber o que há de errado com seu robots.txt.

Erros comuns incluem:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

O Lighthouse não verifica se o robots.txt está no local correto. Para funcionar corretamente, o arquivo deve estar na raiz do seu domínio ou subdomínio.

Each SEO audit is weighted equally in the Lighthouse SEO Score, except for the manual Structured data is valid audit. Learn more in the Lighthouse Scoring Guide.

Como corrigir problemas com o robots.txt

Certifique-se de que o robots.txt não retorne um código de status HTTP 5XX

Se o seu servidor retornar um erro de servidor (um código de status HTTP na casa dos 500) para o robots.txt, os mecanismos de pesquisa não saberão quais páginas devem ser rastreadas. Eles podem parar de rastrear todo o seu site, o que impediria que novos conteúdos sejam indexados.

Para verificar o código de status HTTP, abra robots.txt no Chrome e verifique a solicitação no Chrome DevTools.

Mantenha o robots.txt menor que 500 KiB

Os mecanismos de pesquisa podem parar de processar o robots.txt no meio do caminho se o arquivo for maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.

Para manter o robots.txt pequeno, concentre-se menos nas páginas excluídas individualmente e mais nos padrões mais amplos. Por exemplo, se você precisa bloquear o rastreamento de arquivos PDF, não proíba cada arquivo individual. Em vez disso, desabilite todos os URLs que contenham .pdf usando disallow: /*.pdf.

Corrija quaisquer erros de formato

  • Somente linhas vazias, comentários e diretivas que correspondam ao formato "nome: valor" são permitidos em robots.txt.
  • Certifique-se de allow valores permitir e disallow estão vazios ou começam com / ou *.
  • Não use $ no meio de um valor (por exemplo, allow: /file$html).

Certifique-se de que haja um valor para user-agent

Nomes de agente de usuário para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. Você deve fornecer um valor para cada instância do user-agent de usuário para que os mecanismos de pesquisa saibam se devem seguir o conjunto de diretivas associado.

Para especificar um rastreador de mecanismo de pesquisa específico, use um nome de agente de usuário de sua lista publicada. (Por exemplo, aqui está a lista de user-agents do Google usados para rastreamento.)

Use * para corresponder a todos os rastreadores de outra forma incomparáveis.

Don't

user-agent:
disallow: /downloads/

Nenhum agente de usuário está definido.

Do

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Um agente de usuário geral e um agente de usuário magicsearchbot

Certifique-se de que não há são allow ou disallow directivas antes user-agent

Os nomes do agente do usuário definem as seções de seu arquivo robots.txt. Os rastreadores do mecanismo de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma diretiva antes do primeiro nome do agente do usuário significa que nenhum rastreador a seguirá.

Don't

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nenhum rastreador de mecanismo de pesquisa lerá a diretiva disallow: /downloads

Do

# start of file
user-agent: *
disallow: /downloads/

Todos os mecanismos de pesquisa não podem rastrear a pasta /downloads

Os rastreadores do mecanismo de pesquisa apenas seguem as diretivas na seção com o nome do agente de usuário mais específico. Por exemplo, se você tiver diretivas para user-agent: * e user-agent: Googlebot-Image, o Googlebot Images seguirá apenas as diretivas na seção user-agent: Googlebot-Image.

Fornece um URL absoluto para o sitemap

Os arquivos de mapa de site são uma ótima maneira de permitir que os mecanismos de pesquisa conheçam as páginas do seu site. Um arquivo de mapa de site geralmente inclui uma lista de URLs em seu site, junto com informações sobre quando eles foram alterados pela última vez.

Se você optar por enviar um arquivo de mapa do site em robots.txt, certifique-se de usar um URL absoluto.

Don't

sitemap: /sitemap-file.xml

Do

sitemap: https://example.com/sitemap-file.xml

Recursos

Updated on Improve article

This site uses cookies to deliver and enhance the quality of its services and to analyze traffic. If you agree, cookies are also used to serve advertising and to personalize the content and advertisements that you see. Learn more about our use of cookies.