Compreensão e funções do Robots.txt em sites

O Protocolo de Exclusão de Robôs (REP) ou Robots.txt é um arquivo que contém regras de rastreamento para mecanismos de pesquisa. Geralmente, a função robots.txt é usada para bloquear páginas que você não deseja que sejam indexadas ou seguidas pelos mecanismos de busca. Permite que o Google e similares rastreiem o site ou não.

Localizado na pasta raiz do seu site. Junto com .htaccess e outras subpastas. Nos últimos anos, o Robots.txt se tornou muito popular entre usuários de sites, tanto WordPress, Blogger, Joomla e outros. Porque esse recurso facilita aos desenvolvedores o gerenciamento da privacidade de seus sites.

Quer saber Definição e função do robots.txt em um site?

Quais mecanismos de pesquisa suportam Robots.txt?

Vejamos a tabela abaixo!

Valor dos robôs Google Yahoo! MSN/Ao vivo/Bing Perguntar
índice Sim Sim Sim Sim
sem índice Sim Sim Sim Sim
nenhum Sim Dúvida Dúvida Sim
seguir Sim Dúvida Dúvida Sim
não siga Sim Sim Sim Sim
noarchive Sim Sim Sim Sim
nosnippet Sim Não Não Não
macarrão Sim Sim Sim Não
noydir Não adianta Sim Não adianta Não adianta

Função de comando Robots.txt

  • índice: Permitir que a página em questão seja vista e indexada nas pesquisas
  • sem índice: Não permite que os motores de busca indexem a página em questão
  • sem índice de imagem: Não permite que imagens sejam indexadas por motores de busca. Isso é usado pelo Instagram
  • seguir: Por padrão, todas as páginas possuem um comando follow. Para que cada página seja seguida por robôs de busca
  • não siga : O oposto de seguir. Bloqueia o acesso dos robôs de pesquisa aos links
  • noarquivo: Não permite que mecanismos de pesquisa forneçam dados de backup da página em questão
  • nocache: Assim como noarchive, apenas especificamente para a seção de cache
  • nosnippet: Não permite que os mecanismos de pesquisa exibam frases fragmentadas da página em questão
  • noodp : Não permite que mecanismos de pesquisa usem descrições de páginas do DMOZ
  • noydir : Pedidos especiais Yahoo! diretório
  • nenhum : este é o comando mais sólido. Isso significa que os robôs de busca estão proibidos de fazer qualquer coisa
  • Não permitido : Comando para não permitir mecanismos de busca

Exemplo de um arquivo Robots.txt correto

Site WordPress Robots.txt
Visor TXT de robôs

Para visualizar o arquivo Robots.txt em um site, basta acessar o URL do site e segui-lo com /robots.txt. Exemplo : Robôs Yoast ou Robôs NeilPatel Mais ou menos, a aparência padrão do arquivo robots.txt é assim:

User-agent: *
Disallow: /ebooks/*.pdf

User-agent: Googlebot-Image
Disallow: /images/
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dos dois códigos acima, eles possuem características diferentes. Especialmente para o código do segundo parágrafo, é o txt padrão do robots gerado pelo WordPress. Para obter detalhes, consulte a explicação abaixo.

  • Agente de usuário: * – Declarar todos os tipos de robôs de mecanismos de pesquisa
  • Não permitir: /ebooks/*.pdf — Proíbe que todos os tipos de robôs acessem todos os URLs
  • e-books e arquivos PDF
  • Agente do usuário: Googlebot-Image — Declara que as imagens do Googlebot não acessam imagens
  • Proibir: /imagens/ — Impedir que o Google Bot Image acesse o URL /images/

Você pode gostar:

Proibir: /wp-admin/

— Proibir o acesso da imagem do bot do Google ao URL /wp-admin/

É necessário escrever um mapa do site em Robots.txt?

Na verdade, em teoria, escrever Sitemap em Robots.txt está correto. Mas não acho que isso seja muito útil agora. O motivo é que ainda somos obrigados a criar uma conta no Google Search Console ou nas Ferramentas do Google para webmasters.

Somente a partir deste painel podemos enviar um mapa completo do site. Leia aqui como enviar um mapa do site para Google, Bing e Yandex. Esta é a razão pela qual muitos sites não inserem mapas de sites no arquivo robots. Espero que seja útil!

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *