9 bewezen manieren om antischraaptechnieken te omzeilen [2024]

web schrapen is een techniek om een grote hoeveelheid gegevens op te halen en op te slaan in uw systeem. Sommige websites raden af web schrapen. Dergelijke websites kunnen nog steeds worden geschraapt, maar op een verantwoorde manier zodat het geen nadelig effect heeft op de website die wordt geschraapt. Webcrawlers kunnen gegevens snel en diepgaand ophalen, daarom is het belangrijk om 'zorg' te dragen voor de doelwebsite.

De meeste websites hebben mogelijk geen technieken tegen schrapen omdat dat een normale gebruiker zou belemmeren om toegang te krijgen tot de website. Er zijn echter enkele sites die scraping nog steeds blokkeren omdat ze niet willen dat hun gegevens openlijk worden geopend.

Dit artikel gaat over hoe websites weten dat het een spin is en geen menselijke interactie op websites en manieren om die belemmeringen te overwinnen.

Hoe kunnen websites webscraping detecteren?

Er zijn mechanismen waarmee websites zoekmachinebots in actie kunnen detecteren. Enkele mechanismen zijn:

Ongebruikelijk verkeer of een hoge downloadsnelheid van een enkele client of IP-adres in een beperkte tijd.
Herhalende taken op een website detecteren die niet door een mens zijn gedaan. Een mens zal niet altijd dezelfde taken uitvoeren.
Honeypots gebruiken voor detectie die meestal onzichtbaar zijn voor een normale gebruiker.

Inhoudsopgave

Lijst met 9 bewezen manieren om anti-schraaptechnieken te omzeilen in 2024

Volg deze procedures om detectie te omzeilen en antischraaptechnieken te omzeilen:

1) Houd u aan robots.txt-bestanden

Eigenaren van een website hebben het recht om te beslissen of hun website mag worden gecrawld / gescraapt of niet. Sommige websites staan bots niet toe om te schrapen en staan andere websites toe om hun websites te schrapen. Webspiders moeten tijdens het scrapen bij het bestand robot.txt voor een website blijven. Dit bestand heeft een aantal regels die u moet respecteren; hoe vaak u kunt schrapen en welke pagina's u kunt schrapen.

Robots.txt-bestand is te vinden op de website-URL.

Als het regels bevat zoals hieronder weergegeven, betekent dit dat de site het niet leuk vindt en wil worden geschraapt.

User-agent: *

Niet toestaan: /

Aangezien de meeste websites willen worden vermeld op Google, de grootste schraper van websites, staan eigenaren crawlers wel toe om toegang te krijgen tot de websites.

2) Langzaam krabbelen helpt

Als u bots gebruikt, halen en schrapen ze gegevens zeer snel op, net zo snel als het plaatsen van verzoeken binnen 30 seconden; wat ongebruikelijk is voor een mens. Het is dus gemakkelijk voor een website om te detecteren dat er een scraper aan het werk is. Snel scrapen betekent dat een website te veel verzoeken ontvangt en de website niet meer reageert.

Probeer menselijk gedrag na te bootsen om je spin er echt uit te laten zien.

Bij voorbeeld, voeg wat willekeurige programmatische slaapoproepen toe tussen verzoeken of stel wat vertragingen in na het crawlen van een bepaald aantal pagina's. Kortom, de website die u aan het schrapen bent, moet goed worden behandeld en er niet veel op worden belast.

Er zijn autothrottle-mechanismen die kunnen worden gebruikt om de crawlsnelheid automatisch te vertragen als u de website te veel laadt. De website-omgeving verandert ook in de loop van de tijd. Stel de bot dus in op een optimale kruipsnelheid na een paar runs.

3) Wijzig het krabbelpatroon

Mensen hebben de neiging om een variatie in de taak aan te brengen en het niet herhaaldelijk te doen. Ze laten willekeurige acties zien tijdens het schrapen. Bots daarentegen hebben hetzelfde kruippatroon omdat ze hiervoor zijn geprogrammeerd. Ze veranderen het patroon niet tenzij ze hiervoor zijn geprogrammeerd.

Websites hebben anti kruipen mechanismen die gemakkelijk kunnen detecteren dat een bot betrokken is bij het scrapen of dat een mens dat doet. Verwerk daarom enkele willekeurige klikken in het programma of muisbewegingen waardoor de spin eruitziet als een mens. Het aanbrengen van wijzigingen in het kruippatroon is een efficiënt anti-schraaptechniek.

Bekijk nu snelle kalkproxy's

4) Roteer IP's en proxy's

Het gebruik van hetzelfde IP-adres om meerdere verzoeken te verzenden blokkeer uw IP-adres. Je IP-adres is te zien tijdens het scrapen. Een website weet gemakkelijk wat u doet. Gebruik meerdere IP-adressen om dit te voorkomen. EEN verzoek van een proxyserver is moeilijk te detecteren. Gebruik willekeurig IP adressen voor elk verzoek van een pool van IP's.

Er zijn veel manieren om uw uitgaande IP-adres te wijzigen. VPN's, gedeelde proxy's of TOR zijn de best mogelijke manieren. Er zijn ook commerciële providers die diensten verlenen voor automatische IP-rotatie. Deze techniek verdeelt de belasting ook over verschillende exitpunten.

Omdat dit ook een bekende techniek is voor de websites, hebben ze een aantal massaal gebruikte IP-bereiken geblokkeerd, zoals AWS.

[Laatste] Beste residentiële IP-proxy's voor Craigslist-scraping 2024 @ $ 0.05

5) Rotatie van user-agent

Een user-agent is een tool die een server vertelt welke webbrowser wordt gebruikt. Als u geen user-agent heeft ingesteld, staan websites u niet toe hun inhoud te bekijken. Om uw user-agent te kennen, typt u eenvoudig "wat is mijn user-agent in de Google-zoekbalk".

U kunt ook uw gebruikersreeks controleren op WhatsMyUserAgent.

Elk verzoek dat vanuit een browser komt, bevat een user-agent-header die leidt tot de detectie van een bot. Dus om de user-agent echt te laten lijken en aan de detectie te ontsnappen, moet je de user-agent vervalsen.

Om een user-agent te vervalsen:

Maak een lijst met user-agents en neem voor elk verzoek een willekeurige user-agent op, zodat u niet wordt geblokkeerd. Stel uw user-agent in op een algemene webbrowser in plaats van de standaard user-agent.

Stel uw user-agent in op een gewone webbrowser in plaats van de standaard user-agent te gebruiken (zoals wget / version of urllib / version). Je zou zelfs kunnen doen alsof u de Google Bot bent: Googlebot / 2.1 als je plezier wilt hebben!

6) Pas op voor websites die van lay-out veranderen

Sommige websites hebben een dynamische lay-out en blijven deze veranderen, waardoor het lastig wordt of schrapers. De eerste 20 pagina's hebben bijvoorbeeld een bepaald formaat en de rest kan een wijziging in de lay-out hebben.

Gebruik XPaths of CSS selectors voor om gegevens van dergelijke websites te schrapen datamining. Als u deze niet gebruikt, controleer dan het verschil in lay-out en voeg een voorwaarde toe aan uw code die die pagina's anders schraapt.

7) Gebruik een headless browser

Websites geven verschillende inhoud weer, afhankelijk van de browser die wordt gebruikt. Als de browser bijvoorbeeld over geavanceerde mogelijkheden beschikt, kan deze in de zoekresultaten van Google 'rijke' inhoud weergeven, wat betekent dat de inhoud dynamisch en vormgegeven zal zijn en in hoge mate afhankelijk is van Javascript en CSS.

Het probleem hiermee is dat bij elke vorm van datamining, wordt de inhoud weergegeven door de JS-code en niet door de onbewerkte HTML-respons die de server levert.

In dat geval kan blokkering worden voorkomen met een headless browser. De Headless-browser betekent dat ze niet zichtbaar zijn op een desktop. Er is dus geen grafische interface. Dit betekent dat er geen grafische interface is. In plaats van interactie met een element, kunt u alles automatiseren met een opdrachtregelinterface. Dit kan je helpen om onopgemerkt te blijven web schrapen.

Bekijk nu snelle kalkproxy's

8) Bescherm uzelf tegen honingpotvallen

Websites besteden de grootst mogelijke zorg om hacking te voorkomen. Ze zetten honeypots op om hacks te lokken en te detecteren of er hackpogingen op de website zijn. Het is meestal een applicatie die het gedrag van een echt systeem imiteert. Sommige websites installeren bijvoorbeeld honeypot-links die onzichtbaar zijn voor normale gebruikers, maar toegankelijk zijn voor webschrapers alleen.

Om te voorkomen dat u in deze val komt, moet u ervoor zorgen dat de link die u opent goed zichtbaar is en een nofollow-tag heeft. Zorg er bij het volgen van links altijd voor dat de link goed zichtbaar is zonder nofollow-tag. Sommige honeypot-links om spiders te detecteren hebben de weergave in CSS-stijl: geen of zal een vermomde kleur hebben om op te gaan in de achtergrondkleur van de pagina.

Deze detectie is duidelijk niet gemakkelijk en vereist een aanzienlijke hoeveelheid programmeerwerk om het goed te doen, met als resultaat dat deze techniek aan beide kanten niet algemeen wordt gebruikt - aan de serverkant of de bot- of scraperkant.

9) Schraap achter login

Er zijn een paar websites die geen inlogmachtiging toestaan. Bijvoorbeeld Facebook en Indeed.

Met login beveiligde pagina's hebben wat meer informatie of cookies nodig bij elk verzoek om toegang tot de pagina. Dit geeft een doelwebsite de kans om verzoeken te zien die afkomstig zijn van het proxy servers en blokkeer dus uw account.

Daarom is het raadzaam om geen websites te scrapen die een login hebben, omdat u gemakkelijk wordt geblokkeerd. Om dergelijke websites te schrapen, kunt u menselijke browsers imiteren wanneer authenticatie vereist is, zodat u de gerichte gegevens kunt krijgen.

Hoe de detectie van webschrapen aanpakken?

Als je een spin bouwt, moet je wat tijd besteden om te onderzoeken wat anti-schrapen mechanisme is de websitegebruiker en programmeer uw spider dienovereenkomstig. Dit zal leiden tot een betere uitkomst van gegevens en op de lange termijn een robuuste spin bouwen.

Hoe kom je erachter of een website je heeft geblokkeerd?

Let tijdens het crawlen op de volgende alarmen op een website. Als je er een ziet, zijn het aanwijzingen dat je bent verbannen of geblokkeerd.

- CAPTCHA-pagina's

- Ongewone vertragingen in de levering van inhoud

- Frequente reactie met HTTP 404-, 301- of 503-fouten

Beschouw uzelf als geblokkeerd als deze HTTP-codes verschijnen.

- 301 tijdelijk verplaatst

- 401 ongeautoriseerd

- 403 Verboden

- 404 niet gevonden

- 408 Time-out voor verzoek

- 429 Te veel verzoeken

- 503 Service niet beschikbaar

Lees de beste blogs @ HOE GEBLOKKEERDE WEBSITES OPENEN DOOR VOLMACHT?

Bekijk nu snelle kalkproxy's

Quick Links:

Conclusie: bewezen manieren om Bypass Antischraaptechnieken

Naar omzeil anti-schraaptechnieken, de basisregel blijft constant, dwz wees aardig voor de doelwebsite en gebruik een proxyserver. Overlaad het niet met verzoeken die de server niet aankan. Bouw een stabiel en robuust mechanisme / spider om efficiënt te crawlen en gegevens te verzamelen in plaats van geblokkeerd te raken. Deze punten helpen u bij het bouwen van uw eigen oplossing voor anti-schrapen.

Bent u een datawetenschapper, marketeer of uitgever die veel technieken gebruikt om anti-scrapingsites te omzeilen om de relevante data te verkrijgen? Vertel ons over uw ervaring met de bots?