robots.txt não é válido
Published on • Updated on
O robots.txt
informa aos mecanismos de pesquisa quais páginas do seu site eles podem rastrear. Uma robots.txt
inválida pode causar dois tipos de problemas:
- Ele pode impedir que os mecanismos de pesquisa rastreiem as páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
- Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não deseja que sejam mostradas nos resultados da pesquisa.
robots.txt
Como a auditoria O Lighthouse sinaliza arquivos robots.txt
![Auditoria do Lighthouse mostrando robots.txt inválido](https://wd.imgix.net/image/tcFciHGuF3MxnTr1y5ue01OGLBn2/X29ztochZPiUVwPo2rg3.png?auto=format)
A maioria das auditorias do Lighthouse se aplica apenas à página em que você está atualmente. No entanto, como o robots.txt
é definido no nível do nome do host, essa auditoria se aplica a todo o seu domínio (ou subdomínio).
Expandir o robots.txt
não é uma auditoria válida em seu relatório para saber o que há de errado com seu robots.txt
.
Erros comuns incluem:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
O Lighthouse não verifica se o robots.txt
está no local correto. Para funcionar corretamente, o arquivo deve estar na raiz do seu domínio ou subdomínio.
Each SEO audit is weighted equally in the Lighthouse SEO Score, except for the manual Structured data is valid audit. Learn more in the Lighthouse Scoring Guide.
robots.txt
Como corrigir problemas com o robots.txt
não retorne um código de status HTTP 5XX
Certifique-se de que o Se o seu servidor retornar um erro de servidor (um código de status HTTP na casa dos 500) para o robots.txt
, os mecanismos de pesquisa não saberão quais páginas devem ser rastreadas. Eles podem parar de rastrear todo o seu site, o que impediria que novos conteúdos sejam indexados.
Para verificar o código de status HTTP, abra robots.txt
no Chrome e verifique a solicitação no Chrome DevTools.
robots.txt
menor que 500 KiB
Mantenha o Os mecanismos de pesquisa podem parar de processar o robots.txt
no meio do caminho se o arquivo for maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.
Para manter o robots.txt
pequeno, concentre-se menos nas páginas excluídas individualmente e mais nos padrões mais amplos. Por exemplo, se você precisa bloquear o rastreamento de arquivos PDF, não proíba cada arquivo individual. Em vez disso, desabilite todos os URLs que contenham .pdf
usando disallow: /*.pdf
.
Corrija quaisquer erros de formato
- Somente linhas vazias, comentários e diretivas que correspondam ao formato "nome: valor" são permitidos em
robots.txt
. - Certifique-se de
allow
valores permitir edisallow
estão vazios ou começam com/
ou*
. - Não use
$
no meio de um valor (por exemplo,allow: /file$html
).
user-agent
Certifique-se de que haja um valor para Nomes de agente de usuário para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. Você deve fornecer um valor para cada instância do user-agent
de usuário para que os mecanismos de pesquisa saibam se devem seguir o conjunto de diretivas associado.
Para especificar um rastreador de mecanismo de pesquisa específico, use um nome de agente de usuário de sua lista publicada. (Por exemplo, aqui está a lista de user-agents do Google usados para rastreamento.)
Use *
para corresponder a todos os rastreadores de outra forma incomparáveis.
Don't
user-agent:
disallow: /downloads/
Nenhum agente de usuário está definido.
Do
user-agent: *
disallow: /downloads/
user-agent: magicsearchbot
disallow: /uploads/
Um agente de usuário geral e um agente de usuário magicsearchbot
allow
ou disallow
directivas antes user-agent
Certifique-se de que não há são Os nomes do agente do usuário definem as seções de seu arquivo robots.txt
. Os rastreadores do mecanismo de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma diretiva antes do primeiro nome do agente do usuário significa que nenhum rastreador a seguirá.
Don't
# start of file
disallow: /downloads/
user-agent: magicsearchbot
allow: /
Nenhum rastreador de mecanismo de pesquisa lerá a diretiva disallow: /downloads
Do
# start of file
user-agent: *
disallow: /downloads/
Todos os mecanismos de pesquisa não podem rastrear a pasta /downloads
Os rastreadores do mecanismo de pesquisa apenas seguem as diretivas na seção com o nome do agente de usuário mais específico. Por exemplo, se você tiver diretivas para user-agent: *
e user-agent: Googlebot-Image
, o Googlebot Images seguirá apenas as diretivas na seção user-agent: Googlebot-Image
.
sitemap
Fornece um URL absoluto para o Os arquivos de mapa de site são uma ótima maneira de permitir que os mecanismos de pesquisa conheçam as páginas do seu site. Um arquivo de mapa de site geralmente inclui uma lista de URLs em seu site, junto com informações sobre quando eles foram alterados pela última vez.
Se você optar por enviar um arquivo de mapa do site em robots.txt
, certifique-se de usar um URL absoluto.
Don't
sitemap: /sitemap-file.xml
Do
sitemap: https://example.com/sitemap-file.xml
Recursos
Updated on • Improve article