F'dan l-artikolu, se nqabbel Web Crawling Vs Web Scraping 2024
Web crawling, magħruf ukoll bħala indiċjar, huwa proċess li jutilizza bots, magħrufa wkoll bħala crawlers, biex jindikaw il-kontenut fuq websajt. It-tkaxkir huwa terminu li jirreferi għal dak li jwettqu l-magni tat-tiftix
. Dan kollu dwar li tara u indiċjar ta' paġna fl-intier tagħha. Meta bot jitkaxkar websajt, jaqsam kull paġna u link, sa l-aħħar linja tal-websajt, ifittex KULL informazzjoni.
Web crawlers huma l-aktar impjegati minn magni tat-tiftix ewlenin bħal Google, Bing u Yahoo, kif ukoll organizzazzjonijiet tal-istatistika u aggregaturi tal-web massivi. It-tkaxkir tal-web jiġbor dejta ġenerali, iżda l-brix tal-web jiffoka fuq frammenti partikolari tas-sett tad-dejta.
Il-brix tal-web kultant imsejjaħ estrazzjoni tad-dejta tal-web huwa simili għat-tkaxkir tal-web peress li jiskopri u jsib id-dejta mixtieqa fuq il-paġni tal-web. Id-distinzjoni kritika hija li bil-brix onlajn, nafu l-identifikatur preċiż tas-sett tad-dejta, pereżempju, struttura ta 'element HTML għal paġni tal-web li qed jiġu ffissati u li minnha trid tiġi rkuprata d-dejta.
Web scraping huwa proċess li awtomatizza l-estrazzjoni ta 'ċerti settijiet ta' dejta permezz tal-użu ta 'bots, ħafna drabi magħrufa bħala scrapers.' Ladarba d-dejta xierqa tkun inġabret, tista 'tiġi utilizzata għal tqabbil, verifika u analiżi skont it-talbiet u l-għanijiet ta' organizzazzjoni partikolari.
X'inhu Web Crawling?
Web crawler, spiss magħruf bħala spider jew spiderbot u xi kultant imqassar bħala crawler, huwa bot tal-Internet li jfittex il-World Wide Web b'mod sistematiku, ġeneralment immexxi minn magni tat-tiftix għall-iskop tal-indiċjar tal-Web (web spidering).
Magni tat-tiftix tal-web u ċerti websajts oħra jagħmlu użu minn softwer tal-web crawling jew spidering biex iżommu l-kontenut tal-web tagħhom stess jew indiċi tal-kontenut tal-web ta' websajts oħra. Web crawlers jiffrankaw il-paġni għall-ipproċessar minn magna tat-tiftix, li tindika l-paġni għal navigazzjoni eħfef tal-utent.
It-tkaxkir inaqqsu r-riżorsi tas-sistemi miżjura u ħafna drabi jżuru siti mhux mistiedna. Meta jiġu miżjura kollezzjonijiet kbar ta’ paġni, iqumu tħassib dwar l-iskedar, it-tagħbija, u l-“politetezza”.
Hemm mekkaniżmi fis-seħħ għal siti pubbliċi li ma jixtiequx jitkaxkru biex jikkomunikaw dan lill-aġent tat-tkaxkir. Pereżempju, id-dħul ta' fajl robots.txt jagħti struzzjonijiet lill-bots biex jindikaw biss ċerti sezzjonijiet ta' websajt jew xejn.
L-ammont ta 'paġni tal-Internet huwa enormi; anke l-aktar crawlers qawwija ma joħolqux indiċi eżawrjenti. Bħala konsegwenza, il-magni tat-tiftix tħabtu fis-snin bikrija tal-World Wide Web, qabel l-2000, biex jipprovdu riżultati ta’ tfittxija sinifikanti.
Illum, is-sejbiet pertinenti huma prattikament istantanji. It-tkaxkir għandhom il-kapaċità li jivvalidaw l-hyperlinks u l-kodiċi HTML. Barra minn hekk, huma adattati għall-brix tal-web u l-ipprogrammar immexxi mid-dejta.
X'inhu Web Scraping?
Ruttam tal-web, Magħruf ukoll bħala ħsad tal-web jew estrazzjoni tad-dejta tal-web, huwa tip ta 'brix tad-dejta li jintuża biex tiġbor informazzjoni minn websajts. Is-softwer tal-brix tal-web jista 'jaċċessa direttament il-World Wide Web permezz ta' HTTP jew web browser.
Il-brix onlajn huwa l-proċess tal-kisba u l-estrazzjoni ta 'informazzjoni minn paġna tal-web. Il-ġbir huwa l-proċess tat-tniżżil ta' paġna (li browser jagħmel meta utent jara paġna). Għalhekk, it-tkaxkir tal-web huwa komponent kritiku tal-brix tal-web, peress li jippermetti l-estrazzjoni ta 'paġni għal aktar ipproċessar. Ladarba rkuprat, l-estrazzjoni tista 'tibda.
Il-kontenut ta' paġna jista' jiġi analizzat, imfittex, u ifformattjat mill-ġdid, kif ukoll id-dejta tagħha trasferita għal spreadsheet jew importata f'database. Web scrapers ħafna drabi estratt dejta minn websajt sabiex jutilizzaha għal skop ieħor.
Pereżempju, tista' ssib u tikkopja l-ismijiet u n-numri tat-telefon, in-negozji u l-URLs tagħhom, jew l-indirizzi tal-posta elettronika f'lista (brix ta' kuntatt).
Il-paġni tal-web huma maħluqa bl-użu ta' lingwi ta' markup ibbażati fuq it-test (HTML u XHTML) u tipikament jinkludu pletora ta' materjal ta' għajnuna f'format ta' test. Madankollu, il-maġġoranza tas-siti onlajn huma maħsuba għal utenti umani, mhux għal użu awtomatizzat.
Bħala konsegwenza, inħolqu għodod u softwer speċifiċi għall-brix ta 'paġni tal-web. Brix onlajn hija teknika aktar reċenti li tinvolvi l-monitoraġġ tal-flussi tad-dejta minn servers tal-web.
Pereżempju, JSON spiss jintuża bħala mezz għall-iskambju tad-dejta bejn il-klijent u l-webserver.
Ċerti websajts jużaw miżuri kontra l-brix tal-web, bħall-identifikazzjoni u d-diżattivazzjoni tal-bots milli jitkaxkru (jaraw) il-paġni tagħhom. Bħala riżultat, is-sistemi tal-web-scraping jiddependu fuq parsing DOM, viżjoni bil-kompjuter, u metodi ta 'pproċessar tal-lingwa naturali biex jimitaw is-surfing tal-bniedem sabiex jiġbru kontenut tal-paġna tal-web għal analiżi offline.
Benefiċċji Maġġuri tal-Web Crawling
Hawn huma l-benefiċċji tat-tkaxkir tal-web:
1. Analiżi u kurazzjoni tal-kontenut:
Vantaġġ sinifikanti ieħor tat-tkaxkir tal-websajt huwa l-analiżi u l-kura tal-kontenut. Billi jsegwu l-attività tal-utent, il-web crawlers jistgħu jintużaw biex jiksbu għarfien aħjar tal-imġiba tal-utent. Billi jinbarax dejta differenti, il-web crawlers iżommu kont tal-imġieba tal-utenti. Ngħinuk biex tifhem l-azzjonijiet tagħhom.
2. Ipprezzar u Disponibbiltà tal-Fornituri:
Jekk il-linja tan-negozju tiegħek teħtieġ li tixtri minn diversi fornituri. Huwa aktar probabbli li se żżur regolarment il-websajts tal-fornituri tiegħek biex tqabbel u tikkuntrasta d-disponibbiltà, il-prezz, u fatturi oħra.
Web Crawler jippermettilek takkwista u tqabbel malajr din l-informazzjoni mingħajr ma jkollok bżonn iżżur il-websajts individwali tagħhom. Dan mhux biss se jtaffi t-tensjoni tiegħek u jiffranka l-ħin. Barra minn hekk, se tiżgura li ma titlifx xi roħs aqwa.
3. Elenku fil-mira:
Web crawlers jgħinuk toħloq lista ta' mira ta' negozji jew kuntatti individwali għal diversi għanijiet. It-tkaxkir jippermettilek tikseb numri tat-telefon, indirizzi u indirizzi tal-email. Barra minn hekk, jista 'jiġbor lista ta' websajts immirati li jipprovdu listi tan-negozju rilevanti.
4. Prezzijiet kompetittivi:
Jista' jkun li qed tesperjenza problemi biex tiddetermina l-prezz għall-oġġetti jew is-servizzi tiegħek għal kwalunkwe raġuni. Huwa konsiderevolment aktar ta 'sfida meta jkollok problemi biex tipprezza ħafna affarijiet.
Madankollu, billi tuża Web Crawler, tista 'sempliċement issib il-prezz tar-rivali tiegħek. Li tippermettilek tistabbilixxi prezzijiet kompetittivi għall-klijenti tiegħek.
5. Jgħinek fil-Ksib ta' Informazzjoni Dwar Dak li Qed Jingħad Dwarek u l-Kompetituri Tiegħek fuq il-Midja Soċjali
Qatt tistaqsi x'isem il-kumpanija tiegħek qed jiġi diskuss fuq il-midja soċjali? Li jkollok din l-informazzjoni disponibbli fil-pront huwa wieħed mill-vantaġġi tal-web crawlers. Web crawlers jistgħu jgħinuk tikseb informazzjoni dwar dak li qed jingħad dwarek fuq il-midja soċjali.
Dan mhux kollox. Jippermettilek iżżomm kont tal-kummenti tal-klijenti magħmula fuq websajts oħra. Web crawlers jistgħu jgħinu biex iżommu preżenza fuq forums tal-industrija, websajts tal-aħbarijiet, u kanali tal-midja soċjali. Jgħinek biex tiddetermina dak li qed jiġi ddikjarat dwar id-ditta u l-kompetizzjoni tiegħek.
6. Ġenerazzjoni ta 'Leads:
Id-diskussjoni tal-vantaġġi tal-web crawlers ma tkunx kompluta mingħajr ma tissemma l-ħolqien taċ-ċomb. Jekk topera ditta li tiddependi fuq data mill-websajts tar-rivali tiegħek biex jaqilgħu aktar flus.
Imbagħad għandek tqis Web Crawlers. Jippermettilek tikseb din l-informazzjoni aktar malajr. Bħala riżultat, id-dħul tiegħek se jiżdied.
Assumi li għandek ditta li tispeċjalizza fit-tqegħid tax-xogħol. Int trid waqt li n-negozji jkunu qed jimpjegaw biex tibqa' vijabbli. Barra minn hekk, trid tikkuntattja lil dawn in-negozji u tgħinhom jimlew impjiegi miftuħa b'nies kwalifikati.
Biex tagħmel dan, trid issegwi leads minn varjetà ta 'postijiet tal-midja soċjali, inkluż LinkedIn,
Quora, Twitter, u bordijiet pubbliċi oħra tal-impjiegi. Barra minn hekk, trid issib xi postijiet tax-xogħol ġodda u forsi informazzjoni dwar organizzazzjonijiet b'pożizzjonijiet miftuħa. Tista 'sempliċement tagħmel dan billi tuża Web crawler.
7. Iż-żamma tax-xejriet kurrenti tal-industrija:
Iż-żamma tal-għarfien attwali tat-tendenzi tas-suq hija kritika għall-iżvilupp tal-valuri u l-affidabbiltà. Barra minn hekk, juri lill-pubbliku li n-negozju tiegħek huwa potenzjali. Il-mexxejja tan-negozju jirrealizzaw in-natura kritika li jibqgħu kurrenti mal-avvanzi tal-industrija.
Agħmel il-ħin biex iżżomm edukat irrispettivament mis-sitwazzjoni tad-ditta tiegħek. B'aċċess għal ammont kbir ta 'dejta minn varjetà ta' sorsi. Web crawlers jgħinuk tissorvelja t-tendenzi tal-industrija.
8. Żomm għajnejk fuq il-Kompetizzjoni:
Dan jista' jkun ta' benefiċċju sinifikanti, partikolarment għal dawk li jiffaċċjaw kompetizzjoni iebsa fil-qasam tagħhom. Sun Tzu, il-kmandant Ċiniż, u strateġista militari, darba qal, "Jekk tifhem lill-avversarji tiegħek u lilek innifsek, qatt mhu se tkun imsawwat."
Biex tirnexxi fl-industrija tiegħek, trid tagħmel analiżi kompetittiva. Trid titgħallem x'jaħdem għalihom. L-istrutturi tal-prezzijiet tagħhom, it-tekniki tal-kummerċjalizzazzjoni, eċċ.
Web Crawlers jgħinuk faċilment taħsad dejta minn diversi websajts tar-rivali. Dan jippermetti li inti u lill-ħaddiema tiegħek tilliberaw ħin għal dmirijiet aktar produttivi. Il-fatt li d-dejta tiġi estratta awtomatikament jagħtik il-vantaġġ li jkollok aċċess għal ammonti kbar ta 'dejta.
Benefiċċji Maġġuri tal-Użu tal-Web Scraping
Hawn huma l-benefiċċji tal-brix tal-Web:
1. Ġestjoni effettiva tad-Data:
L-użu ta' softwer u applikazzjonijiet awtomatizzati biex issalva d-dejta jiffranka l-ħin tan-negozju jew tal-persunal tiegħek biex tikkopja u tippejstja d-dejta. Bħala riżultat, individwi jistgħu jiddedikaw aktar ħin għal sforzi artistiċi, pereżempju.
Minflok dan il-proċess diffiċli, il-brix tal-web jippermettilek tagħżel li takkwista dejta minn bosta websajts u mbagħad taqbadha b'mod korrett billi tuża l-għodod xierqa. Barra minn hekk, il-ħażna tad-dejta bl-użu ta’ softwer u programmi awtomatizzati tipproteġi s-sigurtà tal-informazzjoni tiegħek.
2. Eżattezza tad-Data:
Is-servizzi tal-web scraping mhumiex biss veloċi iżda wkoll preċiżi. L-iżball uman ħafna drabi jkun kwistjoni waqt l-eżekuzzjoni ta 'xogħol manwalment, li jista' jirriżulta f'diffikultajiet aktar sinifikanti aktar tard. Bħala konsegwenza, estrazzjoni xierqa tad-dejta hija kruċjali għal kwalunkwe tip ta' informazzjoni.
Kif nafu lkoll, l-iżball uman ħafna drabi huwa fattur meta tesegwixxi xogħol manwalment, li jista 'jirriżulta f'diffikultajiet aktar sinifikanti aktar tard. Madankollu, meta niġu għall-brix tal-web, dan mhux possibbli. Jew iseħħ f'ammonti modesti ħafna li jiġu rimedjati faċilment.
3. Veloċità:
Barra minn hekk, huwa importanti li wieħed jinnota l-veloċità li biha s-servizzi tal-web scraping iwettqu l-kompiti. Ikkunsidra l-possibbiltà li tlesti xogħol ta 'brix li normalment jieħu ġimgħat fi kwistjoni ta' sigħat. Madankollu, dan huwa soġġett għall-kumplessità tal-proġetti, ir-riżorsi u t-teknoloġiji użati.
4. Manutenzjoni Baxxa:
Fejn tidħol il-manutenzjoni, l-ispiża ħafna drabi tiġi injorata meta jiġu implimentati servizzi ġodda. Fortunatament, il-metodi ta 'brix onlajn huma ta' manutenzjoni baxxa. Bħala riżultat, fit-tul, is-servizzi, u l-baġits se jibqgħu relattivament stabbli fil-manutenzjoni.
5. Sempliċi biex Timplimenta:
Meta servizz ta 'brix ta' websajt jibda jiġbor dejta, għandek tkun ċert li d-dejta tkun ġejja minn diversi websajts, mhux wieħed biss. Huwa fattibbli li takkumula ammont kbir ta 'dejta bi spiża minima biex tgħinek tiġbed l-aktar valur minnha.
6. Kost-Effettiv:
L-estrazzjoni manwali tad-dejta hija biċċa xogħol għalja li teħtieġ ekwipaġġ kbir u baġit mdaqqsa. Madankollu, il-brix onlajn u diversi għodod diġitali oħra indirizzaw din il-kwistjoni.
Il-ħafna servizzi disponibbli fis-suq jagħmlu dan filwaqt li jkunu kost-effettivi u faċli għall-baġit. Madankollu, hija dipendenti għal kollox fuq il-volum tad-dejta meħtieġa, l-effettività tal-għodod ta 'estrazzjoni meħtieġa, u l-għanijiet tiegħek.
Biex timminimizza l-ispejjeż, API tal-brix tal-web hija waħda mill-metodi ta 'scraping tal-web l-aktar użati ta' spiss (f'dan il-każ, ħejjejt sezzjoni speċjali li fiha nitkellem aktar dwarhom b'fokus fuq il-vantaġġi u l-iżvantaġġi).
7. Awtomazzjoni:
Il-vantaġġ primarju ta ' brix onlajn huwa l-iżvilupp ta 'teknoloġiji li naqqsu l-estrazzjoni tad-dejta minn bosta websajts għal ftit klikks.
Qabel din it-teknika, l-estrazzjoni tad-dejta kienet possibbli, iżda kienet proċedura bl-uġigħ u li tieħu ħafna ħin. Ikkunsidra lil xi ħadd li huwa meħtieġ li jikkupja u jwaħħal test, ritratti, jew data oħra kuljum - x'kompitu jieħu ħafna ħin!
Fortunatament, it-teknoloġiji tal-brix onlajn għamlu l-estrazzjoni tad-dejta f'numri kbar faċli u veloċi.
Quick Links
- Reviżjoni Ninja Blaster
- Kif Twaqqaf il-Websajt tan-Negozju Tiegħek Bil-Hosting Kondiviż
- Reviżjoni Pop Bejgħ
FAQs Fuq Web Crawling Vs Web Scraping
🙋Kif huma differenti l-web scraping u l-web crawling?
Web Crawler ħafna drabi jaqsam il-websajt kollha, aktar milli sempliċement ġabra ta 'paġni. Min-naħa l-oħra, il-web scraping jiffoka fuq ġabra partikolari ta 'dejta fuq websajt. Fil-qosor, Web Scraping huwa konsiderevolment aktar immirat u kkonċentrat minn Web Crawling, li se jfittex u jirkupra d-dejta kollha fuq websajt.
🤔 X'inhu l-iskop tat-tkaxkir tal-web?
Web crawler, jew spider, huwa tip ta 'bot użat minn magni tat-tiftix bħal Google u Bing. L-għan tagħhom huwa li jindikaw il-kontenut tal-websajts li jinsabu madwar l-Internet biex dawn jidhru fir-riżultati tal-magni tat-tiftix.
❓X'inhu eżempju ta' web crawler?
Pereżempju, it-tkaxkir primarju ta' Google, Googlebot, jagħmel kemm crawling mobbli kif ukoll desktop. Madankollu, hemm diversi aktar Google bots, inklużi Googlebot Images, Videos, Googlebot News, u AdsBot. Hawn huma ftit crawlers oħra tal-web li tista' tiltaqa' magħhom: DuckDuckBot hija applikazzjoni oħra għal DuckDuckGo.
👉Il-web scraping tal-API huwa permissibbli?
Permezz tal-użu ta 'għodod tal-brix tal-web, tista' taħsad dejta minn kwalunkwe websajt. Min-naħa l-oħra, l-APIs jipprovdu aċċess immedjat għad-dejta li trid. Il-brix tal-web jippermettilek li tikseb data f'dawn il-każijiet sakemm tkun ippubblikata fuq websajt.
😮Kemm huwa diffiċli li tobrox il-web?
Jekk qed tfassal aġenti tal-brix tal-web għal numru kbir ta 'websajts distinti, x'aktarx tiskopri li madwar 50% tal-websajts huma verament sempliċi, 30% huma moderatament kumplessi, u 20% huma pjuttost diffiċli. L-estrazzjoni ta' data utli se tkun essenzjalment impossibbli għal proporzjon żgħir.
👍Il-brix ta' Google huwa legali?
Għalkemm Google ma tipproċedix scrapers, timpjega varjetà ta 'tekniki difensivi li jagħmlu l-brix tar-riżultati tagħhom diffiċli, anke meta l-programm tal-brix ikun ġenwinament jimita web browser standard.
Konklużjoni: Web Crawling Vs Web Scraping 2024
Biss l-aktar individwu bil-mażan ma jitkellem dwaru Data Big, iżda għandu fehim rudimentali ta’ x’inhu u kif jaħdem. Nibdew bl-aktar bażika - nomenklatura. Big data huwa terminu li jirreferi għal ġabra ta 'għodod, metodoloġiji, u metodi għall-ipproċessar ta' data strutturata u mhux strutturata biex tutilizzaha għal attivitajiet u għanijiet speċifikati.
Wara żmien, l-aktar komodità prezzjuża fuq il-pjaneta hija l-informazzjoni.
Clifford Lynch, l-editur ta 'Nature, ħoloq il-frażi "big data" fl-2008 f'ħarġa speċjali ddedikata għaż-żieda mgħaġġla tal-volumi ta' informazzjoni globali. Għalkemm, ovvjament, il-big data kienet diġà teżisti. Skont l-esperti, il-biċċa l-kbira tal-flussi tad-dejta 'l fuq minn 100 GB kuljum huma kklassifikati bħala big data.
Illum, din il-frażi sempliċi taħbi biss żewġ kelmiet: ħażna u ipproċessar tad-dejta.
Il-Big Data huwa fenomenu soċjoekonomiku fid-dinja kontemporanja marbut mal-ħolqien ta' kapaċitajiet ta' teknoloġija ġdida għall-ipproċessar ta' ammonti kbar ta' data.
Eżempju klassiku ta’ big data huwa l-informazzjoni ġġenerata minn bosta setups xjentifiċi fiżiċi, bħall-Grand Hadron Collider, li kontinwament jiġġenera ammonti enormi ta’ data. L-installazzjoni toħloq volumi massivi ta 'dejta kontinwament, u x-xjenzati jindirizzaw diversi kwistjonijiet flimkien mal-assistenza tagħhom.
L-emerġenza tal-big data fl-ispazju pubbliku seħħet minħabba li din id-data kellha impatt prattikament fuq kulħadd, mhux biss fuq il-komunità xjentifika, fejn kwistjonijiet bħal dawn kienu ġew solvuti għal żmien twil.
It-terminu "Big Data" daħal fl-arena pubblika tat-teknoloġija meta ddiskuta figura partikolari ħafna - il-popolazzjoni tal-pjaneta. 7 biljun huma miġbura permezz ta 'pjattaformi tal-midja soċjali u programmi oħra li jiġbru n-nies.
YouTube u Facebook għandhom biljuni ta 'utenti u jwettqu bosta proċessi fl-istess ħin. F'dan l-eżempju, il-fluss tad-dejta huwa riżultat tal-attività tal-utent.
Pereżempju, materjal mill-istess servizz ta' hosting ta' YouTube jintbagħat fin-netwerk kollu. L-ipproċessar jinkludi mhux biss l-interpretazzjoni iżda wkoll il-kapaċità li tiġi pproċessata b’mod xieraq kull waħda minn dawn l-attivitajiet, jiġifieri, li titqiegħed fil-post xieraq u li jiġi żgurat li din id-dejta tkun aċċessibbli malajr għal kull utent peress li n-netwerks soċjali ma jittollerawx l-aspettattivi.
B'tant informazzjoni disponibbli, l-isfida hija li ssib u tifhem l-informazzjoni meħtieġa. Dan ix-xogħol jidher impossibbli, iżda huwa pjuttost sempliċi li jsir bl-użu tat-teknoloġiji tat-tkaxkir tal-web u tal-brix tal-web.
Id-dejta tat-tkaxkir tal-web u tal-brix tal-web huma meħtieġa għall-analiżi tal-big data, it-tagħlim tal-magni, indiċjar tal-magna tat-tiftix, u oqsma oħra ta 'operazzjonijiet ta' data kurrenti. Il-frażijiet web crawling u web scraping kultant jintużaw b'mod interkambjabbli, u għalkemm huma marbuta mill-qrib, iż-żewġ proċessi huma distinti.
Web crawler, "spider", huwa bot awtonomu li jesplora metodikament l-Internet għall-indiċjar u l-iskoperta tal-kontenut, wara konnessjonijiet interni fuq paġni tal-web.
Il-kelma "crawler" tirreferi għall-kapaċità ta' programm li jaqsam is-siti onlajn b'mod awtonomu, xi kultant anke mingħajr għan jew għan finali ddikjarat b'mod ċar, jinvestiga x'joffri sit jew netwerk b'mod indefinit.
Magni tat-tiftix bħal Google, Bing, u oħrajn jimpjegaw b'mod attiv web crawlers biex estratt kontenut għal URL, iċċekkja għal links oħra f'din il-paġna, u jiksbu l-URLs għal dawn il-konnessjonijiet addizzjonali.
Min-naħa l-oħra, il-web scraping huwa l-proċess li tinkiseb data partikolari. B'kuntrast mat-tkaxkir onlajn, barraxa tal-web ifittex dejta partikolari fuq websajts jew paġni speċifiċi.
It-tkaxkir tal-web essenzjalment jikkopja dak li diġà hemm, iżda l-brix tal-web jiġbor dejta partikolari għall-analiżi jew biex jiġġenera xi ħaġa ġdida. Madankollu, biex tesegwixxi l-brix onlajn, l-ewwel trid twettaq web crawling biex tikseb l-informazzjoni meħtieġa. It-tkaxkir tad-dejta jinvolvi scraping, bħall-ħażna tal-kliem kjavi, ritratti u URLs tal-paġna web.
It-tkaxkir tal-web huwa dak li jagħmlu Google, Yahoo u Bing, fost oħrajn, meta jfittxu informazzjoni. Il-brix tal-web huwa l-aktar użat biex tiġbor data minn websajts speċjalizzati, bħal data tas-suq tal-ishma, twassal kummerċjali, u brix tal-prodott tal-fornitur.