Ruttam tal-web hija teknika biex tirkupra ammont kbir ta 'data u taħżen fis-sistema tiegħek. Xi websajts jiskoraġġixxu brix tal-web. Tali websajts xorta jistgħu jiġu mibruxa, iżda b'mod responsabbli sabiex ma jkollhomx effett detrimentali fuq il-websajt li qed tiġi mibruxa. Web crawlers jistgħu jirkupraw data malajr u fil-fond, għalhekk huwa importanti li "tieħu ħsieb" tal-websajt fil-mira.
Ħafna mill-websajts jista 'ma jkollhomx tekniki kontra l-brix għaliex dan ixekkel utent normali biex jaċċessa l-websajt. Għalkemm, hemm xi siti li għadhom jimblokkaw il-brix minħabba li ma jridux li d-dejta tagħhom tkun aċċessata b'mod miftuħ.
Dan l-artikolu jitkellem dwar kif il-websajts jafu li hija brimba u mhux interazzjoni umana fuq websajts u modi kif tegħleb dawk l-ostakli.
Kif jistgħu l-websajts jiskopru l-brix tal-web?
Hemm mekkaniżmi li jippermettu lill-websajts jiskopru bots tal-magni tat-tiftix fl-azzjoni. Xi mekkaniżmi huma:
- Traffiku mhux tas-soltu jew rata għolja ta' tniżżil minn klijent wieħed jew indirizz IP fi żmien limitat.
- Tiskopri kompiti ripetittivi fuq websajt mhux magħmula minn bniedem. Bniedem mhux se jwettaq l-istess ħidmiet il-ħin kollu.
- L-użu ta 'honeypots għall-iskoperta li normalment huma inviżibbli għal utent normali.
Lista ta '9 Modi Ppruvati biex Tevita Tekniki Kontra l-Brax Fl-2024
Biex tegħleb is-sejbien, u tevita t-tekniki kontra l-brix, segwi dawn il-prattiki:
1) Aderixxi mal-fajls robots.txt
Is-sidien ta' websajt għandhom id-dritt li jiddeċiedu jekk il-websajt tagħhom jitħalliex titkaxkar/scrawled jew le. Xi websajts ma jippermettux li l-bots jinbarax u jippermettu websajts oħra li jinbarax il-websajts tagħhom. Brimb tal-web għandu jeħel mal-fajl robot.txt għal websajt waqt li jinbarax. Dan il-fajl għandu sett ta' regoli li għandek tirrispetta; dwar kemm ta’ spiss tista’ tinbarax u liema paġni tista’ tobrox.
Il-fajl Robots.txt jista' jinstab fuq il-URL tal-websajt.
Jekk ikun fih linji bħal dawk murija hawn taħt, dan ifisser li s-sit ma jħobbx u jrid jiġi mibrux.
User-aġent: *
Ma tħallix:/
Peress li l-biċċa l-kbira tal-websajts iridu jiġu elenkati fuq Google, l-akbar barraxa ta 'websajts, is-sidien jippermettu li t-tkaxkir ikollhom aċċess għall-websajts.
2) Scrawl bil-mod jgħin
Jekk qed tuża bots, huma jġibu u jinbarax id-dejta malajr ħafna, malajr daqs li jagħmlu talbiet fi żmien 30 sekonda; li mhux tas-soltu għal bniedem. Għalhekk huwa faċli għal websajt li tiskopri li barraxa qed taħdem. Brix mgħaġġel ifisser websajt li tirċievi wisq talbiet u tagħmel il-websajt ma tirrispondix.
Biex il-brimba tiegħek tidher reali, ipprova timita l-imġieba tal-bniedem.
Per eżempju, żid xi sejħiet ta' sleep programmatiċi każwali bejn it-talbiet jew poġġi xi dewmien wara li tkaxkar numru partikolari ta' paġni. Bażikament, il-websajt li qed tobrox għandha tiġi ttrattata sabiħa u ma tpoġġix ħafna tagħbija fuqha.
Hemm mekkaniżmi autothrottle li jistgħu jintużaw biex awtomatikament iċċekkjaw il-veloċità tat-tkaxkir jekk qed tagħbija wisq il-websajt. L-ambjent tal-websajt jinbidel ukoll maż-żmien. Allura aġġusta l-bot għal veloċità tat-tkaxkir ottimali wara ftit traċċi.
3) Ibdel il-mudell scrawling
Il-bnedmin għandhom it-tendenza li jġibu varjazzjoni fil-kompitu u ma jagħmluhx b'mod ripetittiv. Huma juru azzjonijiet każwali waqt il-brix. Il-bots, min-naħa l-oħra, għandhom l-istess mudell tat-tkaxkir għaliex huma pprogrammati biex jagħmlu dan. Huma ma jbiddlux il-mudell sakemm ma jkunux ipprogrammati biex jagħmlu dan.
Websajts għandhom kontra tkaxkir mekkaniżmi li jistgħu jiskopru faċilment li bot huwa involut fil-brix jew bniedem qed jagħmel dan. Għalhekk, inkorpora xi klikks każwali fil-programm jew movimenti tal-maws li jagħmlu l-brimba tidher qisha bniedem. Li tagħmel bidliet fil-mudell tat-tkaxkir huwa effiċjenti teknika kontra l-brix.
4) Dawwar IPs u Prokuri
Uża l-istess indirizz IP biex tibgħat talbiet multipli se imblokka l-indirizz IP tiegħek. L-indirizz IP tiegħek jista 'jidher waqt il-brix. Websajt faċilment tkun taf x'qed tagħmel. Biex tevita dan, uża indirizzi IP multipli. A talba minn proxy server huwa diffiċli li jiġi skopert. Uża każwali Indirizzi IP għal kull talba minn ġabra ta’ IPs.
Hemm ħafna modi kif tbiddel l-IP ħierġa tiegħek. VPNs, prokuri kondiviżi jew TOR huma l-aħjar modi possibbli. Ukoll, hemm fornituri kummerċjali li jipprovdu servizzi għal rotazzjoni awtomatika tal-IP. Din it-teknika tqassam ukoll it-tagħbija fuq diversi punti ta 'ħruġ.
Peress li din hija teknika magħrufa sew għall-websajts ukoll, huma mblukkaw xi firxiet tal-IP użati bil-kbir bħal AWS.
5) Rotazzjoni tal-Aġent tal-Utent
Aġent tal-utent huwa għodda li tgħid lil server liema web browser qed jintuża. Jekk ma waqqaftx aġent tal-utent, il-websajts ma jippermettulekx tara l-kontenut tagħhom. Biex tkun taf l-aġent tal-utent tiegħek, tista 'sempliċement ittajpja "x'inhu l-aġent tal-utent tiegħi fil-bar tat-tfittxija ta' Google".
Tista' wkoll tiċċekkja l-user-string tiegħek fuq WhatsMyUserAgent.
Kull talba li tiġi minn browser fiha header tal-utent tal-aġent li jwassal għall-iskoperta ta 'bot. Allura biex l-aġent tal-utent jidher reali u jaħrab is-sejbien huwa li foloz l-aġent tal-utent.
Biex tiffoka aġent tal-utent:
Oħloq lista ta 'aġenti ta' l-utenti u għal kull talba, aqbad aġent ta 'utent każwali sabiex ma tiġix imblukkat. Issettja l-aġent tal-utent tiegħek għal web browser komuni minflok l-aġent tal-utent default.
Issettja l-utent-aġent tiegħek għal web browser komuni minflok tuża l-utent-aġent default (bħal wget/version jew urllib/version). Tista 'saħansitra nippretendu li huma l-Bot tal-Google: Googlebot/2.1 jekk trid tieħu ftit gost!
6) Oqgħod attent għal websajts li jbiddlu t-tqassim
Xi websajts għandhom tqassim dinamiku u jibqgħu jibdlu, u jagħmluha delikata jew scrapers. Pereżempju, l-ewwel 20 paġna se jkollhom format partikolari u l-bqija jistgħu jkollhom bidla fit-tqassim.
Biex tinbarax dejta minn websajts bħal dawn, uża XPaths jew seletturi CSS għal data mining. Jekk m'intix qed tuża dawn, iċċekkja d-differenza fit-tqassim u żid kundizzjoni fil-kodiċi tiegħek li tobrox dawk il-paġni b'mod differenti.
7) Uża browser bla ras
Il-websajts juru kontenut differenti skont il-browser li qed jintuża. Pereżempju fir-riżultati tat-tfittxija ta 'Google, jekk il-browser għandu kapaċitajiet avvanzati, jista' jippreżenta kontenut "rikk" li jfisser li l-kontenut se jkun dinamiku u stil u dipendenza qawwija fuq Javascript u CSS.
Il-problema ma 'dan hija li meta tagħmel xi tip ta' data mining, il-kontenut huwa mogħti mill-kodiċi JS u mhux ir-rispons HTML mhux maħdum li jagħti s-server.
F'każ bħal dan, l-imblukkar jista' jiġi evitat bl-użu ta' browser bla ras. Il-browser bla ras ifisser li mhumiex viżwali fuq desktop. Allura m'hemm l-ebda interface grafiku. Dan ifisser li m'hemm l-ebda interface grafiku. Minflok ma jinteraġixxu ma 'element, tista' awtomat kollox b'interface tal-linja tal-kmand. Dan jista 'jgħinek biex tibqa' ma jinstabx waqt li tkun brix tal-web.
8) Ipproteġi lilek innifsek minn nases honeypot
Il-websajts jieħdu l-akbar attenzjoni biex jipprevjenu l-hacking. Huma waqqfu honeypots biex jattiraw hacks u jiskopru jekk hemmx tentattivi ta 'hacking fuq il-websajt. Normalment hija applikazzjoni li timita l-imġieba ta 'sistema reali. Pereżempju, xi websajts jinstallaw links tal-honeypot li huma inviżibbli għall-utenti normali iżda li jistgħu jiġu aċċessati minn barraxa tal-web biss.
Biex tevita li tidħol f'din in-nassa, kun żgur li l-link li qed tiftaħ ikollu viżibilità xierqa u tag nofollow. Meta ssegwi links dejjem ħu ħsieb li l-link ikollu viżibilità xierqa mingħajr ebda tag nofollow. Xi links tal-honeypot biex jindividwaw il-brimb se jkollhom il-wiri tal-istil CSS: xejn jew se jkunu bil-kulur moħbi biex jitħalltu mal-kulur tal-isfond tal-paġna.
Din l-iskoperta ovvjament mhix faċli u teħtieġ ammont sinifikanti ta 'xogħol ta' programmazzjoni biex titwettaq kif suppost, bħala riżultat, din it-teknika mhix użata ħafna fuq l-ebda naħa - in-naħa tas-server jew in-naħa tal-bot jew tal-barraxa.
9) Obrox Wara Login
Hemm ftit websajts li ma jippermettux il-permess tal-login. Per eżempju Facebook u Indeed.
Il-paġni protetti tal-login jeħtieġu aktar informazzjoni jew cookies ma' kull talba biex taċċessa l-paġna. Dan jagħti ċans lil websajt fil-mira biex tara talbiet ġejjin mill- proxy servers u għalhekk imblokka l-kont tiegħek.
Għalhekk, huwa rakkomandat li tevita li tobrox websajts li għandhom login peress li tkun imblukkat faċilment. Biex tinbarax websajts bħal dawn, tista 'timita browsers umani meta tkun meħtieġa l-awtentikazzjoni sabiex tkun tista' tikseb id-dejta mmirata.
Kif tindirizza l-iskoperta tal-Web Scraping?
Meta tibni brimba, qattgħu ftit ħin biex tinvestiga xiex kontra l-brix mekkaniżmu huwa l-utent tal-websajt u mbagħad ipprogramma l-brimba tiegħek kif xieraq. Dan se jwassal għal riżultat aħjar tad-dejta u jibni brimba robusta fit-tul.
Kif issir taf jekk websajt imblokkakx?
Fittex l-allarmi li ġejjin fuq websajt waqt li titkaxkar. Jekk tara xi wieħed minnhom, huma indikaturi li inti tkun ipprojbit jew imblukkat.
- Paġni CAPTCHA
- Dewmien mhux tas-soltu fil-kunsinna tal-kontenut
- Rispons frekwenti bi żbalji HTTP 404, 301 jew 503
Ukoll, jekk dawn il-kodiċijiet HTTP jidhru, ikkunsidra lilek innifsek bħala mblukkata.
- 301 Imċaqlaq Temporanjament
- 401 mhux awtorizzat
- 403 Projbit
- 404 Mhux Found
- 408 Request Timeout
- 429 Wisq Talbiet
- Servizz 503 mhux disponibbli
Aqra l-aħjar blogs @ KIF TIFTAĦ SITI WEB BLOCKATI BIL-PROXUR?
Links Quick:
-
[Aġġornata] Lista ta' 11-il Aħjar Proxy Servers Privati Irħas 2024 ($0.19 Kull wieħed)
-
(Aġġornata) Lista Ta 'l-Aħjar kalzetti Prokuri Tibda Minn @4.99$ | Prova ta' 3 Ijiem 2024
-
[AĠĠORNATA] L-Aħjar Gwida Definittiva Biex Tissettja Faċilment Server Proxy Privat 2024
-
[L-Aħħar] Ixtri l-Aqwa Prokura Għall-Kiri 2024: Jibda @$0.50/Mo. (Agħġla)
Konklużjoni: Modi Ppruvati Biex Bypass Tekniki kontra l-brix
Lil bypass tekniki kontra l-brix, ir-regola bażika tibqa' kostanti, jiġifieri kun sabiħ mal-websajt fil-mira u uża a proxy server. M'għandekx tagħbija żejda b'talbiet li s-server tiegħu ma jistax jimmaniġġja. Ibni mekkaniżmu/brimba stabbli u robusta biex titkaxkar u tiġbor id-dejta b'mod effiċjenti aktar milli tiġi mblukkata. Dawn il-punti jgħinuk tibni s-soluzzjoni tiegħek stess lejn kontra l-brix.
Int xjenzat tad-dejta, negozjant jew pubblikatur, li juża ħafna tekniki biex tevita s-siti kontra l-brix biex tikseb id-dejta rilevanti? Għidilna dwar l-esperjenza tiegħek mal-bots?