Web crawlers, is-sidekicks ftit magħrufa tal-magni tat-tiftix li jipprovdu d-daħla għal informazzjoni faċilment aċċessibbli, huma essenzjali għall-ġbir tal-kontenut tal-internet. Ukoll, huma kruċjali għall-pjan tiegħek ta 'search engine optimization (SEO).
Issa l-ħaġa li wieħed jinnota hawnhekk hija li Il-magni tat-tiftix ma jafux magically liema websajts jeżistu fuq l-Internet. Biex websajt partikolari jkollha l-eżistenza tagħha fuq il-magni tat-tiftix, jeħtieġ li tkun indiċjata, u dan huwa fejn jidħlu fis-seħħ "Web Crawlers".
Qabel ma jwasslu l-paġni xierqa għal kliem ewlieni u frażijiet, jew it-termini li jużaw l-utenti biex isibu paġna ta’ benefiċċju, dawn l-algoritmi jridu jitkaxkruhom u jindikawhom.
Fi kliem ieħor, il-magni tat-tiftix jesploraw l-Internet għal paġni bl-għajnuna ta 'programmi tat-tkaxkir tal-web, imbagħad jaħżnu l-informazzjoni dwar dawk il-paġni għall-użu fi tfittxijiet futuri.
X'inhu Web Crawling?
Web crawling huwa l-proċess ta 'użu ta' softwer jew skript awtomatizzat biex dejta tal-indiċi fuq paġni tal-web. Dawn l-iskripts jew programmi awtomatizzati kultant jissejħu web crawlers, brimb, spider bots, jew sempliċiment crawlers.
X'inhu Web Crawler?
Robot tas-softwer magħruf bħala web crawler ifittex l-internet u jniżżel l-informazzjoni li jiskopri.
Magni tat-tiftix bħal Google, Bing, Baidu, u DuckDuckGo imexxu l-maġġoranza tat-tkaxkir tas-sit.
Il-magni tat-tiftix jibnu l-indiċi tal-magna tat-tiftix tagħhom billi japplikaw l-algoritmi tat-tiftix tagħhom għad-dejta miġbura. Fittex magni jistgħu jwasslu links pertinenti lill-utenti skont il-mistoqsijiet tat-tiftix tagħhom grazzi għall-indiċi.
Dawn huma web crawlers li jservu skopijiet lil hinn mill-magni tat-tiftix, bħal The Way Back Machine tal-Internet Archive, li toffri snapshots ta 'paġni web f'punti speċifiċi fil-passat.
Fi kliem sempliċi;
Web crawler bot huwa simili għal xi ħadd li jagħżel il-volumi kollha f'librerija mhux organizzata biex joħloq katalgu tal-karti, li jippermetti lil kull min iżur li jikseb l-informazzjoni li jeħtieġ malajr u faċilment.
L-organizzatur se jaqra t-titlu ta’ kull ktieb, sommarju, u xi wħud intern test biex jiddetermina s-suġġett tiegħu sabiex jgħin fil-kategorizzazzjoni u l-għażla tal-kotba tal-librerija skond is-suġġett.
Kif jaħdem Web Crawler?
Crawlers tal-internet, bħall-Googlebot ta' Google, għandhom lista ta' websajts li jridu jżuru kuljum. Huwa msejjaħ baġit tat-tkaxkir. Id-domanda għall-indiċjar tal-paġni hija riflessa fil-baġit. Il-baġit tat-tkaxkir huwa primarjament affettwat minn żewġ fatturi:
- Popolarità
- Staleness
L-URLs tal-Internet popolari huma tipikament skennjati aktar spiss biex iżommuhom kurrenti fl-indiċi. Web crawlers jagħmlu wkoll sforz biex iżommu l-URLs friski fl-indiċi.
Web crawler l-ewwel iniżżel u jaqra l-fajl robots.txt meta jgħaqqad ma' websajt. Il-protokoll ta' esklużjoni tar-robots (REP), sett ta' standards onlajn li jirregolaw kif ir-robots jesploraw il-web, jaċċessaw u indiċi materjal, u jservu dak il-kontenut lill-utenti, jinkludi l-fajl robots.txt.
Liema aġenti tal-utent jistgħu u ma jistgħux jaċċessaw fuq websajt jistgħu jiġu definiti mis-sidien tal-websajt. Id-direttivi dwar id-dewmien tat-tkaxkir f'Robots.txt jistgħu jintużaw biex inaqqsu r-rata li biha crawler jagħmel talbiet lil websajt.
Sabiex it-tkaxkir isib kull paġna u d-data li fiha ġie aġġornat l-aħħar, robots.txt jinkludi wkoll is-sitemaps marbuta ma’ websajt partikolari. Paġna mhux se titkaxkar din id-darba jekk ma nbidlitx mill-ħin preċedenti.
Web crawler jgħabbi l- HTML, kodiċi ta' parti terza, JavaScript, u CSS meta eventwalment isib websajt li trid titkaxkar. Il-magna tat-tiftix taħżen din id-dejta fid-database tagħha, li mbagħad tintuża biex tindika u tikklassifika l-paġna.
Il-links kollha fuq il-paġna jitniżżlu wkoll. Links miżjuda ma' lista biex jiġu crawled aktar tard huma dawk li għadhom mhumiex inklużi fl-indiċi tal-magna tat-tiftix.
Tista 'wkoll taqra
- Best Expression Engine Cloud Hosting
- 8 Elementi Ewlenin Ta 'Marketing Diġitali
- Il-Gwida Ultimate Biex Bing Webmaster Għodod Għal SEO
Għaliex il-web crawlers jissejħu 'brimb'?
Il-World Wide Web, jew għallinqas il-parti minnha li l-maġġoranza tan-nies jaċċessaw, huwa isem ieħor għall-Internet, u huwa fejn l-aktar Indirizzi tal-websajt tikseb il-prefiss “www” tagħhom.
Ir-robots tal-magni tat-tiftix jissejħu komunement bħala "brimb" għaliex itellgħu l-Internet bl-istess mod li jagħmlu l-brimb attwali fuq ix-xbieki tal-brimb.
X'inhi d-differenza bejn il-web crawling u l-web scraping?
Meta bot iniżżel il-kontenut tal-websajt mingħajr awtorizzazzjoni, ta' spiss bl-intenzjoni li jużah għal skopijiet ta' ħżiena, din il-prattika hija magħrufa bħala web scraping, data scraping, jew brix tal-kontenut.
Fil-biċċa l-kbira tal-każijiet, il-brix tal-web huwa ferm aktar iffukat mit-tkaxkir tal-web. Filwaqt li t-tkaxkir tal-web isegwu kontinwament links u paġni tat-tkaxkir, il-web scrapers jistgħu jkunu interessati biss f'ċerti paġni jew oqsma.
Web crawlers, speċjalment dawk minn magni tat-tiftix ewlenin, se jaderixxu mal-fajl robots.txt u jillimitaw it-talbiet tagħhom sabiex jevitaw li jgħabbu żżejjed is-server tal-web, b'differenza mill-web scraper bots li jistgħu jinjoraw it-tagħbija li jqiegħdu fuq is-servers tal-web.
Jistgħu web crawlers jaffettwaw is-SEO?
Iva! Imma kif?
Ejja nkissru dan pass pass. Billi tikklikkja fuq u barra mill-links fuq il-paġni, il-magni tat-tiftix "jikkru" jew "jżuru" websajts.
Iżda, tista 'titlob tkaxkir ta' websajt minn magni tat-tiftix billi tissottometti l-URL tiegħek fuq Google Search Console jekk għandek websajt ġdida mingħajr links li jorbtu l-paġni tagħha ma 'oħrajn.
SEO, jew search engine optimization, hija l-prattika li titħejja informazzjoni għall-indiċjar tat-tiftix sabiex websajt tidher ogħla fir-riżultati tal-magni tat-tiftix.
Websajt ma jistax jiġi indiċjat u mhux se jidher fir-riżultati tat-tfittxija jekk spider bots ma jitkaxkrux.
Minħabba dan, huwa kruċjali li l-web crawler bots ma jiġux imblukkati jekk sid ta 'websajt jixtieq jirċievi traffiku organiku mir-riżultati tat-tfittxija.
Quick Links
- Yahoo Web Hosting Pjanijiet
- Kif Tibda Website Dropshipping Suċċess
- L-aqwa 36 Mistoqsija tal-Intervista SEO
- Surfer SEO Vs. Page Optimizer Pro
Eżempji tal-Web Crawler
Kull magna ta 'riċerka magħrufa għandha web crawler, u l-kbar għandhom bosta crawlers, kull wieħed b'fokus partikolari. Pereżempju, it-tkaxkir primarju ta' Google, Googlebot, jieħu ħsieb kemm it-tkaxkir tad-desktop kif ukoll tal-mowbajl.
Iżda hemm ukoll numru ta’ oħrajn Google bots, bħal Googlebot News, Googlebot Photos, Googlebot Videos, u AdsBot. Dawn huma ftit web crawlers addizzjonali li tista' tiltaqa' magħhom:
- DuckDuckBot għal DuckDuckGo
- Yandex Bot għal Yandex
- Baiduspider għal Baidu
- Yahoo! Slurp għal Yahoo!
- Amazon bot għall-Amazon
- Bingbot għal Bing
Bots speċjalizzati oħra jeżistu wkoll, bħal MSNBot-Media u BingPreview. MSNBot, li qabel kien it-tkaxkir primarju tiegħu iżda minn dakinhar ġie mbuttat għall-ġenb għat-tkaxkir ta 'rutina, issa huwa responsabbli biss għal kompiti żgħar tat-tkaxkir tal-websajt.
Web Crawler- Konklużjoni
Allura issa nittamaw li għandek fehim ċar tal-web crawlers, u x'inhuma? Kif jaħdmu dawn? Il-konnessjoni tagħhom mal-brix tal-web u ħafna aktar.
Quick Links