9 Subok na Paraan para I-bypass ang Mga Anti Scraping Techniques 2024

Pag-scrap ng web ay isang pamamaraan para kumuha ng malaking halaga ng data at mag-imbak sa iyong system. Ang ilang mga website ay nawalan ng loob web scraping. Ang mga naturang website ay maaari pa ring i-scrap, ngunit responsable para hindi ito magkaroon ng masamang epekto sa website na nasimot. Ang mga web crawler ay maaaring makakuha ng data nang mabilis at malalim, kaya't mahalagang 'ingatan' ang target na website.

 Karamihan sa mga website ay maaaring wala mga pamamaraan ng anti-scraping dahil ito ay makahahadlang sa isang normal na user na ma-access ang website. Bagaman, may ilang mga site na humaharang pa rin sa pag-scrape dahil ayaw nilang hayagang ma-access ang kanilang data.

Pinag-uusapan ng artikulong ito kung paano nalalaman ng mga website na ito ay isang gagamba at hindi pakikipag-ugnayan ng tao sa mga website at mga paraan upang malampasan ang mga hadlang na iyon.

Paano matutukoy ng mga website ang pag-scrape ng web?

May mga mekanismo na nagbibigay-daan sa mga website na makita ang mga search engine bot na kumikilos. Ang ilang mga mekanismo ay:

  1.       Hindi pangkaraniwang trapiko o mataas na rate ng pag-download mula sa isang kliyente o IP address sa limitadong panahon.
  2.       Pag-detect ng mga paulit-ulit na gawain sa isang website na hindi ginawa ng isang tao. Ang isang tao ay hindi gagawa ng parehong mga gawain sa lahat ng oras.
  3.       Paggamit ng mga honeypot para sa pagtuklas na kadalasang hindi nakikita ng isang normal na gumagamit.

Listahan ng 9 Subok na Paraan para I-bypass ang Anti Scraping Technique Sa 2024

Upang malampasan ang pagtuklas, at i-bypass ang mga diskarte sa anti-scraping, sundin ang mga kasanayang ito:

1) Sumunod sa mga robots.txt file

Ang mga may-ari ng isang website ay may karapatang magpasya kung ang kanilang website ay papayagang ma-crawl/ma-scrape o hindi. Ang ilang mga website ay hindi pinapayagan ang mga bot na mag-scrape at payagan ang ibang mga website na i-scrape ang kanilang mga website. Dapat dumikit ang mga web spider sa robot.txt file para sa isang website habang nag-i-scrap. Ang file na ito ay may hanay ng mga panuntunan na dapat mong igalang; tungkol sa kung gaano kadalas ka makakayod at kung aling mga pahina ang maaari mong kiskisan. 

I-bypass ang anti scraping technique- web

Ang robots.txt file ay matatagpuan sa URL ng website.

Kung naglalaman ito ng mga linya tulad ng mga ipinapakita sa ibaba, nangangahulugan ito na hindi gusto ng site at gustong ma-scrap.

User-agent: *

Huwag payagan:/ 

Dahil gusto ng karamihan sa mga website na mailista sa Google, ang pinakamalaking scraper ng mga website, pinapayagan ng mga may-ari ang mga crawler na ma-access ang mga website. 

2) Nakakatulong ang mabagal na pag-scrawl

Kung gumagamit ka ng mga bot, kinukuha at kiskis nila ang data nang napakabilis, kasing bilis ng paglalagay ng mga kahilingan sa loob ng 30 segundo; na hindi karaniwan para sa isang tao. Kaya madaling matukoy ng isang website na gumagana ang isang scraper. Ang mabilis na pag-scrape ay nangangahulugan ng isang website na tumatanggap ng masyadong maraming kahilingan at ginagawang hindi tumutugon ang website.

Upang maging totoo ang iyong gagamba, subukang gayahin ang ugali ng tao. 

Halimbawa, magdagdag ng ilang random na programmatic sleep call sa pagitan ng mga kahilingan o maglagay ng ilang mga pagkaantala pagkatapos mag-crawl sa isang partikular na bilang ng mga pahina. Karaniwan, ang website na iyong kinukuskos ay dapat tratuhin nang maganda at hindi maglagay ng maraming load dito.

Mayroong mga mekanismo ng autothrottle na maaaring magamit upang awtomatikong i-throttle ang bilis ng pag-crawl kung masyado kang naglo-load ng website. Ang kapaligiran ng website ay nagbabago rin sa paglipas ng panahon. Kaya ayusin ang bot sa pinakamabuting bilis ng pag-crawl pagkatapos tumakbo ng ilang trail.

3) Baguhin ang scrawling pattern

Ang mga tao ay may posibilidad na magdala ng pagkakaiba-iba sa gawain at hindi ito ginagawa nang paulit-ulit. Nagpapakita sila ng mga random na aksyon habang nag-i-scrap. Ang mga bot, sa kabilang banda, ay may parehong pattern sa pag-crawl dahil sila ay naka-program na gawin ito. Hindi nila binabago ang pattern maliban kung naka-program na gawin ito.

Ang mga website ay may anti crawling mga mekanismo na madaling matukoy na ang isang bot ay kasangkot sa pag-scrape o isang tao ang gumagawa nito. Samakatuwid, isama ang ilang random na pag-click sa programa o paggalaw ng mouse na ginagawang parang tao ang spider. Ang paggawa ng mga pagbabago sa pattern ng pag-crawl ay isang mahusay anti-scraping technique. 

4) I-rotate ang mga IP at Proxies

Ang paggamit ng parehong IP address upang magpadala ng maraming kahilingan ay harangan ang iyong IP address. Ang iyong IP address ay makikita habang nag-i-scrap. Ang isang website ay madaling malaman kung ano ang iyong ginagawa. Upang maiwasan ito, gumamit ng maraming IP address. A kahilingan mula sa isang proxy server mahirap ma-detect. Gumamit ng random IP address para sa bawat kahilingan mula sa isang pool ng mga IP.

Anti Scraping Gamit ang IP Address

Mayroong maraming mga paraan upang baguhin ang iyong papalabas na IP. Ang mga VPN, ibinahaging proxy o TOR ay ang pinakamahusay na posibleng paraan. Gayundin, may mga komersyal na provider na nagbibigay ng mga serbisyo para sa awtomatikong pag-ikot ng IP. Ang diskarteng ito ay namamahagi din ng load sa iba't ibang mga exit point.

Dahil isa rin itong kilalang pamamaraan sa mga website, hinarangan nila ang ilang malawakang ginagamit na mga saklaw ng IP tulad ng AWS.

5) Pag-ikot ng User Agent

Ang user agent ay isang tool na nagsasabi sa isang server kung aling web browser ang ginagamit. Kung hindi ka pa nag-set up ng user agent, hindi ka papayagan ng mga website na tingnan ang kanilang content. Upang malaman ang iyong ahente ng gumagamit, maaari mong i-type lamang ang "ano ang aking ahente ng gumagamit sa search bar ng Google".

Maaari mo ring tingnan ang iyong user-string sa WhatsMyUserAgent.

Ang bawat kahilingan na nagmumula sa isang browser ay naglalaman ng isang user agent header na humahantong sa pagtukoy ng isang bot. Kaya't upang gawing totoo ang ahente ng gumagamit at makatakas sa pagtuklas ay ang pekeng ahente ng gumagamit.

Upang madaya ang isang ahente ng gumagamit:

Gumawa ng listahan ng mga user agent at para sa bawat kahilingan, pumili ng random user-agent para hindi ka ma-block. Itakda ang iyong user agent sa isang karaniwang web browser sa halip na ang default na user agent.

Itakda ang iyong user-agent sa isang karaniwang web browser sa halip na gamitin ang default na user-agent (tulad ng wget/version o urllib/version). Maaari mo ring magpanggap na Google Bot: Googlebot/2.1 kung gusto mong magsaya!

6) Mag-ingat sa mga website na nagbabago ng mga layout

May dynamic na layout ang ilang website at patuloy itong binabago, ginagawa itong nakakalito o mga scraper. Halimbawa, ang unang 20 pahina ay magkakaroon ng partikular na format at ang iba pa sa mga ito ay maaaring magkaroon ng pagbabago sa layout.

Upang mag-scrape ng data mula sa mga naturang website, gumamit ng XPaths o CSS selectors para sa data mining. Kung hindi mo ginagamit ang mga ito, suriin ang pagkakaiba sa layout at magdagdag ng kundisyon sa iyong code na nag-iiba sa mga pahinang iyon.

7) Gumamit ng walang ulo na browser

Ang mga website ay nagpapakita ng iba't ibang nilalaman depende sa browser na ginagamit. Halimbawa sa mga resulta ng paghahanap sa Google, kung ang browser ay may mga advanced na kakayahan, maaari itong magpakita ng "mayaman" na nilalaman na nangangahulugan na ang nilalaman ay magiging dynamic at istilo at isang mabigat na pag-asa sa Javascript at CSS.

Ang problema dito ay kapag gumagawa ng anumang uri ng data mining, ang nilalaman ay nai-render ng JS code at hindi ang raw HTML na tugon na inihahatid ng server.

Sa ganoong kaso, mapipigilan ang pagharang gamit ang isang walang ulo na browser. Ang Headless browser ay nangangahulugan na hindi sila nakikita sa isang desktop. Kaya walang graphical na interface. Nangangahulugan ito na walang graphical na interface. Sa halip na makipag-ugnayan sa isang elemento, maaari mong i-automate ang lahat gamit ang isang command-line interface. Makakatulong ito sa iyo na manatiling hindi natukoy habang web scraping.

8) Protektahan ang iyong sarili mula sa mga bitag ng honeypot

Ang mga website ay lubos na nag-iingat upang maiwasan ang pag-hack. Nag-set up sila ng mga honeypot upang mang-akit ng mga hack at makita kung mayroong anumang mga pagtatangka sa pag-hack sa website. Ito ay karaniwang isang application na ginagaya ang pag-uugali ng isang tunay na sistema. Halimbawa, ang ilang mga website ay nag-i-install ng mga link ng honeypot na hindi nakikita ng mga normal na gumagamit ngunit maaaring ma-access ng mga web scraper lamang.

Upang maiwasang makapasok sa bitag na ito, tiyaking ang link na iyong binubuksan ay may wastong visibility at isang nofollow tag. Kapag sumusunod sa mga link, laging mag-ingat na ang link ay may wastong visibility na walang nofollow tag. Ang ilang mga link ng honeypot upang makakita ng mga spider ay magkakaroon ng CSS style display:wala o magiging kulay disguised upang ihalo sa kulay ng background ng page.

Ang pagtuklas na ito ay malinaw na hindi madali at nangangailangan ng malaking dami ng gawaing programming upang magawa nang maayos, bilang resulta, ang pamamaraan na ito ay hindi malawakang ginagamit sa magkabilang panig - ang server-side o ang bot o scraper side.

9) Scrape sa Likod ng Login

Mayroong ilang mga website na hindi pinapayagan ang pahintulot sa pag-login. Halimbawa Facebook at Indeed.

Ang mga pahinang protektado sa pag-login ay nangangailangan ng ilang karagdagang impormasyon o cookies sa bawat kahilingan upang ma-access ang pahina. Nagbibigay ito ng pagkakataon sa isang target na website na makita ang mga kahilingan na nagmumula sa proxy server at samakatuwid ay i-block ang iyong account.

Samakatuwid, pinapayuhan na iwasan ang pag-scrape ng mga website na may login dahil madali kang maha-block. Upang ma-scrape ang mga naturang website, maaari mong gayahin ang mga browser ng tao kapag kinakailangan ang pagpapatunay upang makuha mo ang naka-target na data.

Paano tugunan ang pagtuklas ng Web Scraping?

Kapag gumagawa ng gagamba, gumugol ng ilang oras upang siyasatin kung ano anti-scraping mekanismo ay ang gumagamit ng website at pagkatapos ay i-program ang iyong spider nang naaayon. Ito ay hahantong sa isang mas mahusay na resulta ng data at bumuo ng isang matatag na spider sa katagalan. 

Paano mo malalaman kung na-block ka ng isang website?

Hanapin ang mga sumusunod na alarma sa isang website habang gumagapang. Kung nakikita mo ang alinman sa mga ito, ang mga ito ay mga tagapagpahiwatig na ikaw ay pinagbawalan o na-block.

-          Mga pahina ng CAPTCHA

-          Mga hindi pangkaraniwang pagkaantala sa paghahatid ng nilalaman

-          Madalas na pagtugon sa HTTP 404, 301 o 503 na mga error

Gayundin, kung lumitaw ang mga HTTP code na ito, ituring ang iyong sarili bilang naka-block.

-          301 Pansamantalang Inilipat

-          401 Di-awtorisadong

-          403 Forbidden

-          404 Hindi Natagpuan

-          408 Humiling ng Oras

-          429 Masyadong Maraming Kahilingan  

-          Hindi magagamit ang 503 Service

Basahin ang Pinakamagandang blog @ PAANO MAGBUKAS NG MGA BLOCKED NA WEBSITE NG PROXY?

Quick Links:

Konklusyon: Mga Subok na Paraan Upang Bypass Anti-scraping Techniques

Upang laktawan ang mga diskarte sa anti-scraping, ang pangunahing tuntunin ay nananatiling pare-pareho, ibig sabihin, maging mabait sa target na website at gumamit ng a proxy server. Huwag i-overload ito ng mga kahilingan na hindi kayang hawakan ng server nito. Bumuo ng isang matatag at matatag na mekanismo/ gagamba para gumapang at mangolekta ng data nang mahusay sa halip na ma-block. Ang mga puntong ito ay tutulong sa iyo na bumuo ng iyong sariling solusyon patungo sa anti-scraping.

Ikaw ba ay isang data scientist, marketer o isang publisher, na gumagamit ng maraming mga diskarte upang i-bypass ang mga anti-scraping site para sa pagkuha ng nauugnay na data? Sabihin sa amin ang tungkol sa iyong karanasan sa mga bot?

 

 

Jitendra Vaswani
Ang may-akda na ito ay napatunayan sa BloggersIdeas.com

Si Jitendra Vaswani ay isang Digital Marketing Practitioner at kilalang international keynote speaker na yumakap sa digital nomad lifestyle habang naglalakbay siya sa buong mundo. Nagtatag siya ng dalawang matagumpay na website, BloggersIdeas.com & Digital Marketing Agency na DigiExe kung saan ang kanyang mga kwento ng tagumpay ay lumawak sa pag-akda ng "Inside A Hustler's Brain : In Pursuit of Financial Freedom" (20,000 kopya ang naibenta sa buong mundo) at nag-ambag sa "International Best Selling Author of Growth Hacking Book 2". Dinisenyo ni Jitendra ang mga workshop para sa mahigit 10000+ na propesyonal sa Digital marketing sa buong kontinente; na may mga intensyon sa huli na naka-angkla sa paglikha ng isang naaapektuhang pagkakaiba sa pamamagitan ng pagtulong sa mga tao na bumuo ng kanilang pangarap na negosyo online. Si Jitendra Vaswani ay isang high-powered investor na may kahanga-hangang portfolio na kinabibilangan Imahestation. Upang matuto nang higit pa tungkol sa kanyang mga pamumuhunan, Hanapin siya sa LinkedIn, kaba, & Facebook.

Pagbubunyag ng kaakibat: Sa ganap na transparency – ang ilan sa mga link sa aming website ay mga affiliate na link, kung gagamitin mo ang mga ito para bumili, kikita kami ng komisyon nang walang karagdagang gastos para sa iyo (wala kahit ano pa man!).

Mag-iwan ng komento