Raspagem da web é uma técnica para recuperar uma grande quantidade de dados e armazenar em seu sistema. Alguns sites desencorajam Raspagem da web. Esses sites ainda podem ser copiados, mas de forma responsável, para que não haja um efeito prejudicial no site que está sendo copiado. Os rastreadores da Web podem recuperar dados rapidamente e em profundidade, portanto, é importante "cuidar" do site de destino.
A maioria dos sites pode não ter técnicas anti-raspagem porque isso impediria um usuário normal de acessar o site. Porém, existem alguns sites que ainda bloqueiam a remoção porque não desejam que seus dados sejam acessados abertamente.
Este artigo fala sobre como os sites sabem que é uma aranha e não a interação humana em sites e maneiras de superar essas barreiras.
Como os sites podem detectar web scraping?
Existem mecanismos que permitem que os sites detectem bots de mecanismos de pesquisa em ação. Alguns mecanismos são:
- Tráfego incomum ou uma alta taxa de download de um único cliente ou Endereço IP em um tempo limitado.
- Detectar tarefas repetitivas em um site que não foram feitas por humanos. Um humano não executará as mesmas tarefas o tempo todo.
- Usando honeypots para detecção, que geralmente são invisíveis para um usuário normal.
Lista de 9 maneiras comprovadas de contornar as técnicas anti-raspagem em 2024
Para superar a detecção e contornar as técnicas anti-raspagem, siga estas práticas:
1) Siga os arquivos robots.txt
Os proprietários de um site têm o direito de decidir se o seu site será rastreado / raspado ou não. Alguns sites não permitem que os bots façam a varredura e permitem que outros sites façam a varredura de seus sites. Os web spiders devem se ater ao arquivo robots.txt para um site durante a coleta. Este arquivo possui um conjunto de regras que você deve respeitar; sobre a frequência com que você pode raspar e quais páginas você pode raspar.
O arquivo Robots.txt pode ser encontrado no URL do site.
Se contiver linhas como as mostradas abaixo, significa que o site não gostou e deseja ser copiado.
User-agent: *
Disallow: /
Como a maioria dos sites deseja ser listada no Google, o maior raspador de sites, os proprietários permitem que os rastreadores acessem os sites.
2) Rabiscos lentos ajudam
Se você estiver usando bots, eles buscam e coletam dados muito rápido, tão rápido quanto fazer solicitações em 30 segundos; o que é incomum para um humano. Portanto, é fácil para um site detectar que um raspador está funcionando. Raspagem rápida significa que um site recebe muitas solicitações e deixa de responder.
Para fazer sua aranha parecer real, tente imitar o comportamento humano.
Por exemplo, adicione algumas chamadas de suspensão programáticas aleatórias entre as solicitações ou coloque alguns atrasos após o rastreamento de um determinado número de páginas. Basicamente, o site que você está copiando deve ser bem tratado e não sobrecarregá-lo.
Existem mecanismos de autothrottle que podem ser usados para controlar automaticamente a velocidade de rastreamento se você estiver carregando muito o site. O ambiente do site também muda com o tempo. Portanto, ajuste o bot para uma velocidade de rastreamento ideal após a execução de algumas trilhas.
3) Alterar o padrão de rabisco
Os humanos tendem a trazer uma variação na tarefa e não repetidamente. Eles mostram ações aleatórias durante a raspagem. Os bots, por outro lado, têm o mesmo padrão de rastreamento porque são programados para isso. Eles não mudam o padrão, a menos que sejam programados para isso.
Sites têm anti rastejamento mecanismos que podem detectar facilmente se um bot está envolvido na raspagem ou se um humano está fazendo isso. Portanto, incorpore alguns cliques aleatórios no programa ou movimentos do mouse que façam a aranha parecer um ser humano. Fazer mudanças no padrão de rastreamento é um método eficiente técnica anti-raspagem.
4) Alternar IPs e proxies
Usar o mesmo endereço IP para enviar várias solicitações irá bloquear seu endereço IP. Seu endereço IP pode ser visto durante a varredura. Um site saberá facilmente o que você está fazendo. Para evitar isso, use vários endereços IP. UMA pedido de um servidor proxy é difícil de ser detectado. Use aleatório Endereços IP para cada solicitação de um pool de IPs.
Existem várias maneiras de alterar seu IP de saída. VPNs, proxies compartilhados ou TOR são as melhores formas possíveis. Além disso, existem fornecedores comerciais que fornecem serviços de rotação automática de IP. Essa técnica também distribui a carga por vários pontos de saída.
Como essa também é uma técnica bem conhecida dos sites, eles bloquearam alguns intervalos de IP usados massivamente, como o AWS.
5) Rotação do agente do usuário
Um agente de usuário é uma ferramenta que informa ao servidor qual navegador da Web está sendo usado. Se você não configurou um agente de usuário, os sites não permitirão que você visualize seu conteúdo. Para conhecer o seu agente de usuário, você pode simplesmente digitar “qual é o meu agente de usuário na barra de pesquisa do Google”.
Você também pode verificar sua string de usuário em WhatsMyUserAgent.
Cada solicitação que vem de um navegador contém um cabeçalho de agente do usuário que leva à detecção de um bot. Portanto, fazer o agente do usuário parecer real e escapar da detecção é falsificar o agente do usuário.
Para falsificar um agente de usuário:
Crie uma lista de agentes de usuário e para cada solicitação, escolha um agente de usuário aleatório para que você não seja bloqueado. Defina seu agente de usuário para um navegador da web comum em vez do agente de usuário padrão.
Defina seu agente de usuário para um navegador da web comum em vez de usar o agente de usuário padrão (como wget / versão ou urllib / versão). Você poderia até finja ser o Google Bot: Googlebot / 2.1 se quiser se divertir!
6) Cuidado com os sites que mudam os layouts
Alguns sites têm um layout dinâmico e estão sempre mudando, tornando-o complicado ou complicado. Por exemplo, as primeiras 20 páginas terão um formato específico e o restante poderá ter uma alteração no layout.
Para extrair dados de tais sites, use XPaths ou seletores CSS para mineração de dados. Se você não estiver usando isso, verifique a diferença no layout e adicione uma condição em seu código que raspe essas páginas de maneira diferente.
7) Use um navegador sem cabeça
Os sites exibem conteúdo diferente dependendo do navegador usado. Por exemplo, nos resultados de pesquisa do Google, se o navegador tiver recursos avançados, pode apresentar conteúdo “rico”, o que significa que o conteúdo será dinâmico e estilizado e uma forte dependência de Javascript e CSS.
O problema com isso é que ao fazer qualquer tipo de mineração de dados, o conteúdo é renderizado pelo código JS e não pela resposta HTML bruta que o servidor entrega.
Nesse caso, o bloqueio pode ser evitado usando um navegador sem cabeça. O navegador Headless significa que eles não são visuais em um desktop. Portanto, não há interface gráfica. Isso significa que não há interface gráfica. Em vez de interagir com um elemento, você pode automatizar tudo com uma interface de linha de comando. Isso pode ajudá-lo a não ser detectado enquanto Raspagem da web.
8) Proteja-se das armadilhas do honeypot
Os sites tomam o máximo cuidado para evitar hackers. Eles configuram honeypots para atrair hacks e detectar se há alguma tentativa de hacking no site. Geralmente é um aplicativo que imita o comportamento de um sistema real. Por exemplo, alguns sites instalam links de honeypot que são invisíveis para usuários normais, mas podem ser acessados por raspadores de teia só.
Para evitar cair nessa armadilha, certifique-se de que o link que você está abrindo tenha a visibilidade adequada e uma tag nofollow. Ao seguir links, sempre tome cuidado para que o link tenha a visibilidade adequada sem a tag nofollow. Alguns links de honeypots para detectar spiders terão a exibição de estilo CSS: nenhum ou terão uma cor disfarçada para se misturar com a cor de fundo da página.
Essa detecção obviamente não é fácil e requer uma quantidade significativa de trabalho de programação para ser realizada de maneira adequada, como resultado, essa técnica não é amplamente usada em nenhum dos lados - o lado do servidor ou o lado do bot ou do raspador.
9) Raspar por trás do login
Existem alguns sites que não permitem permissão de login. Por exemplo, Facebook e Realmente.
As páginas protegidas por login requerem mais algumas informações ou cookies com cada solicitação de acesso à página. Isso dá a um site de destino a chance de ver as solicitações provenientes do servidores proxy e, portanto, bloquear sua conta.
Portanto, é aconselhável evitar scraps em sites que possuem um login, pois você será bloqueado facilmente. Para raspar esses sites, você pode imitar navegadores humanos quando a autenticação for necessária para que possa obter os dados direcionados.
Como lidar com a detecção de Web Scraping?
Ao construir uma aranha, passe algum tempo investigando o que anti-raspagem mecanismo é o usuário do site e, em seguida, programe seu spider de acordo. Isso levará a um melhor resultado dos dados e criará uma aranha robusta no longo prazo.
Como você descobre se um site bloqueou você?
Procure os seguintes alarmes em um site durante o rastreamento. Se você vir qualquer um deles, eles são indicadores de que você foi banido ou bloqueado.
- Páginas CAPTCHA
- Atrasos incomuns na entrega de conteúdo
- Resposta frequente com erros HTTP 404, 301 ou 503
Além disso, se esses códigos HTTP aparecerem, considere-se bloqueado.
- 301 movido temporariamente
- 401 não autorizado
- Proibida 403
- 404 não encontrado
- 408 Tempo limite da solicitação
- 429 Pedidos demais
- Serviço 503 Indisponível
Leia os melhores blogs @ COMO ABRIR SITES BLOQUEADOS POR PROXY?
Links Rápidos:
-
[Atualizado] Lista dos 11 melhores servidores proxy privados baratos 2024 (US $ 0.19 cada)
-
(Atualizado) Lista dos melhores proxies SOCKS começa em @ 4.99 $ | Teste de 3 dias 2024
-
[ATUALIZADO] Melhor guia definitivo para configurar o servidor proxy privado com facilidade em 2024
-
[Mais recente] Compre o melhor proxy para locação em 2024: inicia a $ 0.50 / mês. (Pressa)
Conclusão: maneiras comprovadas de BTécnicas anti-raspagem ypass
Para ignorar técnicas anti-raspagem, a regra básica permanece constante, ou seja, seja legal com o site de destino e use um servidor proxy. Não o sobrecarregue com solicitações que seu servidor não pode atender. Construa um mecanismo / indexador estável e robusto para rastrear e coletar dados com eficiência, em vez de ser bloqueado. Esses pontos irão ajudá-lo a construir sua própria solução para anti-raspagem.
Você é um cientista de dados, comerciante ou editor que usa várias técnicas para contornar sites anti-scraping para obter os dados relevantes? Conte-nos sobre sua experiência com os bots?