Como bloquear endereços IP de bots ruins com .htaccess

Nem todos os visitantes do site são humanos (tráfego humano). Às vezes, os robôs também podem visitar sites. Como User Agent, Crawler, Bots e Link Scrapper. Os robôs são projetados com certos algoritmos para digitalizar e descartar um site. No entanto, não é incomum que o processo de digitalização ou descarte cause sobrecarga nos recursos do servidor.

Como resultado, o servidor do nosso site apresentou um erro, resultando em 502 Bad Gateway, 508 Limites alcançados ou 500 Erro interno do servidor (não disponível). Para superar isso, precisamos aprender como bloquear endereços IP de Bad Bots usando o arquivo .htaccess.

O que são Bad Bots, User Agent Bots, Crawlers e Link Scrappers?

Bad Bots são usados ​​para diversos propósitos diferentes, como varredura, sucateamento, ataques DDoS, controle de contas e muito mais. Os bots também podem distorcer o tráfego obtido dos mecanismos de pesquisa, criar métricas erradas e, às vezes, causar danos ao sistema (sobrecarga).

Site com dezenas a centenas de milhares de visitantes por dia são muito vulneráveis ​​a ataques de badbots.

Os casos mais comuns são crawlers e link scrappers. Onde este rastreador pesquisará continuamente todas as páginas até o final do site. Na verdade, imagens e arquivos também não escapam de serem escaneados pelo Bot Crawler. Para obter mais detalhes, tente observar o seguinte esquema de como funciona o rastreador da web:

Como funciona o rastreador de sites BadBots

Durante o rastreamento, o bot fará scrapper. Esse desmantelamento pode posteriormente sobrecarregar os recursos do site. Ele acessará deliberadamente todos os arquivos para copiar e coletar os dados em seu servidor.

Neste caso, podemos dizer que os Bots são User Agents. Onde os Bots são programados por um grupo de instituições, por exemplo Ahrefs, Semrush, Moz e assim por diante.

Por que você deve bloquear bots ruins?

  1. Causa métricas de análise de tráfego incorretas
  2. Às vezes causa sobrecarga de recursos do servidor
  3. Drena a largura de banda do servidor
  4. Scrapper pode abrir backlinks de sites
  5. A segurança do site se torna muito vulnerável
  6. Propenso a spam e anúncios prejudiciais
  7. Bad Bots não respondem às regras em Robots.txt

Você pode gostar:

Como bloquear endereços IP e bots ruins com o arquivo .htaccess

Para bloquear endereços IP de Bad Bots via .htaccess, você precisa de acesso ao gerenciador de arquivos do site. Se o arquivo .htaccess ainda não estiver disponível, basta criar o arquivo manualmente. Porém, se o arquivo já existir, basta editá-lo e adicionar o código.

  1. Abra CPanel, Plesk Panel, ISP Config ou via arquivo FTP
  2. Em seguida, vá para a pasta raiz do site
  3. Encontre o arquivo .htaccess, abra-o e faça edições
    Bloquear bots ruins por meio do arquivo do site htaccess
  4. Adicione o seguinte código no topo:
    #Remove or add more rules as per your needs.
    BrowserMatchNoCase "Baiduspider" bad_bots
    BrowserMatchNoCase "BLEXBot" bad_bots
    BrowserMatchNoCase "SemrushBot" bad_bots
    BrowserMatchNoCase "AhrefsBot" bad_bots
    BrowserMatchNoCase "DotBot" bad_bots
    BrowserMatchNoCase "MJ12bot" bad_bots
    BrowserMatchNoCase "Rogerbot" bad_bots
    BrowserMatchNoCase "aiHitBot" bad_bots
    BrowserMatchNoCase "spbot" bad_bots
    BrowserMatchNoCase "oBot" bad_bots
    BrowserMatchNoCase "DeuSu" bad_bots
    BrowserMatchNoCase "ia_archiver" bad_bots
    BrowserMatchNoCase "ExaBot" bad_bots
    BrowserMatchNoCase "Sitebot" bad_bots
    BrowserMatchNoCase "Gigabot" bad_bots
    BrowserMatchNoCase "MetaURI" bad_bots
    BrowserMatchNoCase "FlipboardProxy" bad_botsOrder Allow,Deny
    
    Allow from ALL
    Deny from env=bad_bots
    Deny from 5.188.210.0/24
  5. Enquanto isso, para bloquear o endereço IP, digite o seguinte código: Negar de IPADDRESS
  6. Você também pode bloquear o intervalo de endereços IP com Faixa de IP para CIDR
  7. Para obter o nome do User Agent BOT, você pode abrir os Logs do SiteSite de registros do agente do usuário

Porém, nem todos os bots são ruins, meu amigo. Bots de mídia social (Facebook, Twitter, et al.) e bots de mecanismos de pesquisa (Google, Bing, Yandex et al.). Nunca bloqueie User Agents do Google, Bing, mídias sociais e similares. Isso é tudo para o tutorial Como bloquear endereços IP de bots ruins com htaccess. Espero que seja útil!

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *