वेब क्रॉलर, खोज इंजन के अल्पज्ञात सहयोगी जो आसानी से सुलभ जानकारी तक प्रवेश प्रदान करते हैं, इंटरनेट सामग्री एकत्र करने के लिए आवश्यक हैं। साथ ही, वे आपके खोज इंजन अनुकूलन (एसईओ) योजना के लिए भी महत्वपूर्ण हैं।
अब यहां ध्यान देने वाली बात ये है खोज इंजन जादुई रूप से नहीं जानते कि इंटरनेट पर कौन सी वेबसाइटें मौजूद हैं. किसी विशेष वेबसाइट को खोज इंजन पर अपना अस्तित्व बनाए रखने के लिए, इसे अनुक्रमित करने की आवश्यकता होती है, और यहीं पर "वेब क्रॉलर" काम में आते हैं।
कीवर्ड और वाक्यांशों के लिए उपयुक्त पेज वितरित करने से पहले, या उपयोगकर्ताओं द्वारा लाभकारी पेज खोजने के लिए उपयोग किए जाने वाले शब्दों को वितरित करने से पहले, इन एल्गोरिदम को उन्हें क्रॉल और अनुक्रमित करना होगा।
दूसरे शब्दों में, खोज इंजन वेब क्रॉलर प्रोग्राम की सहायता से पृष्ठों के लिए इंटरनेट का पता लगाते हैं, फिर भविष्य की खोजों में उपयोग के लिए उन पृष्ठों के बारे में जानकारी संग्रहीत करते हैं।
वेब क्रॉलिंग क्या है?
वेब क्रॉलिंग सॉफ़्टवेयर या स्वचालित स्क्रिप्ट का उपयोग करने की प्रक्रिया है सूचकांक डेटा वेब पेजों पर. इन स्वचालित स्क्रिप्ट या प्रोग्राम को कभी-कभी वेब क्रॉलर, स्पाइडर, स्पाइडर बॉट या केवल क्रॉलर के रूप में संदर्भित किया जाता है।
वेब क्रॉलर क्या है?
एक सॉफ़्टवेयर रोबोट जिसे वेब क्रॉलर के रूप में जाना जाता है, इंटरनेट पर खोज करता है और जो जानकारी खोजता है उसे डाउनलोड करता है।
Google, Bing, Baidu और DuckDuckGo जैसे खोज इंजन अधिकांश साइट क्रॉलर चलाते हैं।
खोज इंजन अपने खोज एल्गोरिदम को एकत्रित डेटा पर लागू करके अपना खोज इंजन सूचकांक बनाते हैं। खोज इंजन इंडेक्स की बदौलत उपयोगकर्ताओं को उनकी खोज क्वेरी के आधार पर प्रासंगिक लिंक प्रदान कर सकते हैं।
ये वेब क्रॉलर हैं जो खोज इंजन से परे उद्देश्यों को पूरा करते हैं, जैसे कि इंटरनेट आर्काइव की द वे बैक मशीन, जो अतीत में विशिष्ट बिंदुओं पर वेबपेजों के स्नैपशॉट प्रदान करती है।
सरल शब्दों में;
एक वेब क्रॉलर बॉट किसी ऐसे व्यक्ति के समान है जो कार्ड कैटलॉग बनाने के लिए एक असंगठित लाइब्रेरी में सभी संस्करणों को सॉर्ट करता है, जिससे वहां आने वाले किसी भी व्यक्ति को आवश्यक जानकारी जल्दी और आसानी से प्राप्त करने की अनुमति मिलती है।
आयोजक प्रत्येक पुस्तक का शीर्षक, सारांश और कुछ पढ़ेगा आंतरिक पुस्तकालय की पुस्तकों को विषय के आधार पर वर्गीकृत और क्रमबद्ध करने में सहायता के लिए अपना विषय निर्धारित करने के लिए पाठ।
वेब क्रॉलर कैसे काम करता है?
Google के Googlebot जैसे इंटरनेट के क्रॉलर के पास उन वेबसाइटों की एक सूची होती है जिन पर वे प्रतिदिन जाना चाहते हैं। इसे क्रॉल बजट कहा जाता है. अनुक्रमण पृष्ठों की मांग बजट में परिलक्षित होती है। क्रॉल बजट मुख्य रूप से दो कारकों से प्रभावित होता है:
- लोकप्रियता
- बासांपन
लोकप्रिय इंटरनेट यूआरएल को आमतौर पर इंडेक्स में चालू रखने के लिए अधिक बार स्कैन किया जाता है। वेब क्रॉलर यूआरएल को इंडेक्स में ताज़ा रखने का भी प्रयास करते हैं।
एक वेब क्रॉलर किसी वेबसाइट से कनेक्ट होने पर सबसे पहले robots.txt फ़ाइल को डाउनलोड करता है और पढ़ता है। रोबोट बहिष्करण प्रोटोकॉल (आरईपी), ऑनलाइन मानकों का एक सेट है जो नियंत्रित करता है कि रोबोट वेब का पता कैसे लगाते हैं, सामग्री तक कैसे पहुंचते हैं और अनुक्रमित करते हैं, और उपयोगकर्ताओं को वह सामग्री कैसे प्रदान करते हैं, इसमें robots.txt फ़ाइल शामिल है।
उपयोगकर्ता एजेंट किसी वेबसाइट पर क्या एक्सेस कर सकते हैं और क्या नहीं, यह वेबसाइट मालिकों द्वारा परिभाषित किया जा सकता है। robots.txt में क्रॉल-विलंब निर्देशों का उपयोग उस दर को धीमा करने के लिए किया जा सकता है जिस पर क्रॉलर किसी वेबसाइट पर अनुरोध करता है।
क्रॉलर को प्रत्येक पृष्ठ और उसे अंतिम बार अपडेट किए जाने की तारीख ढूंढने के लिए, robots.txt में किसी विशेष वेबसाइट से जुड़े साइटमैप भी शामिल होते हैं। यदि कोई पृष्ठ पिछली बार से नहीं बदला है तो इस बार उसे क्रॉल नहीं किया जाएगा।
एक वेब क्रॉलर सभी को लोड करता है एचटीएमएल, तृतीय-पक्ष कोड, जावास्क्रिप्ट, और सीएसएस जब अंततः एक ऐसी वेबसाइट पाता है जिसे क्रॉल करना पड़ता है। सर्च इंजन इस डेटा को अपने डेटाबेस में संग्रहीत करता है, जिसका उपयोग पेज को अनुक्रमित और रैंक करने के लिए किया जाता है।
पेज के सभी लिंक भी डाउनलोड किए गए हैं। बाद में क्रॉल किए जाने वाली सूची में जोड़े गए लिंक वे हैं जो अभी तक खोज इंजन के सूचकांक में शामिल नहीं हैं।
आप भी पढ़ सकते हैं
- सर्वश्रेष्ठ एक्सप्रेशन इंजन क्लाउड होस्टिंग
- डिजिटल मार्केटिंग के 8 प्रमुख तत्व
- एसईओ के लिए बिंग वेबमास्टर टूल्स के लिए अंतिम गाइड
वेब क्रॉलर को 'स्पाइडर' क्यों कहा जाता है?
वर्ल्ड वाइड वेब, या कम से कम इसका वह हिस्सा जिस तक अधिकांश लोग पहुँचते हैं, इंटरनेट का दूसरा नाम है, और यह वह जगह है जहाँ अधिकांश लोग वेबसाइट के पते उनका "www" उपसर्ग प्राप्त करें।
खोज इंजन रोबोटों को आमतौर पर "मकड़ियों" के रूप में जाना जाता है क्योंकि वे इंटरनेट पर उसी तरह से खोज करते हैं जैसे वास्तविक मकड़ियाँ मकड़ी के जाले पर करती हैं।
वेब क्रॉलिंग और वेब स्क्रैपिंग के बीच क्या अंतर है?
जब कोई बॉट बिना प्राधिकरण के वेबसाइट सामग्री को बार-बार नापाक उद्देश्यों के लिए उपयोग करने के इरादे से डाउनलोड करता है, तो इस अभ्यास को वेब स्क्रैपिंग, डेटा स्क्रैपिंग, या के रूप में जाना जाता है। सामग्री स्क्रैपिंग.
ज्यादातर मामलों में, वेब स्क्रैपिंग वेब क्रॉलिंग की तुलना में कहीं अधिक केंद्रित है। जबकि वेब क्रॉलर लगातार लिंक का अनुसरण करते हैं और पेजों को क्रॉल करते हैं, वेब स्क्रैपर्स केवल कुछ पेजों या डोमेन में रुचि ले सकते हैं।
वेब क्रॉलर, विशेष रूप से प्रमुख खोज इंजन वाले, robots.txt फ़ाइल का पालन करेंगे और वेब सर्वर पर ओवरलोडिंग से बचने के लिए अपने अनुरोधों को सीमित करेंगे, वेब स्क्रैपर बॉट के विपरीत जो वेब सर्वर पर रखे गए लोड की उपेक्षा कर सकते हैं।
क्या वेब क्रॉलर SEO को प्रभावित कर सकते हैं?
हाँ! आख़िर कैसे?
आइए इसे चरण-दर-चरण तोड़ें। पृष्ठों पर लिंक को चालू और बंद करके, खोज इंजन वेबसाइटों को "क्रॉल" या "विज़िट" करते हैं।
लेकिन, यदि आपके पास एक नई वेबसाइट है, जिसके पेज दूसरों से जुड़े हुए नहीं हैं, तो आप Google सर्च कंसोल पर अपना यूआरएल सबमिट करके सर्च इंजन से वेबसाइट क्रॉल का अनुरोध कर सकते हैं।
एसईओ, या खोज इंजन अनुकूलन, खोज अनुक्रमण के लिए जानकारी तैयार करने का अभ्यास है ताकि एक वेबसाइट खोज इंजन परिणामों में उच्चतर दिखाई दे।
यदि स्पाइडर बॉट इसे क्रॉल नहीं करते हैं तो किसी वेबसाइट को अनुक्रमित नहीं किया जा सकता है और वह खोज परिणामों में दिखाई नहीं देगी।
इसके कारण, यह महत्वपूर्ण है कि यदि कोई वेबसाइट स्वामी खोज परिणामों से ऑर्गेनिक ट्रैफ़िक प्राप्त करना चाहता है तो वेब क्रॉलर बॉट को अवरुद्ध न किया जाए।
त्वरित लिंक्स
- याहू वेब होस्टिंग योजनाएँ
- एक सफल ड्रॉपशीपिंग वेबसाइट कैसे शुरू करें
- शीर्ष 36 एसईओ साक्षात्कार प्रश्न
- सर्फर एसईओ बनाम. पेज ऑप्टिमाइज़र प्रो
वेब क्रॉलर उदाहरण
प्रत्येक प्रसिद्ध खोज इंजन में एक वेब क्रॉलर होता है, और बड़े खोज इंजनों में कई क्रॉलर होते हैं, जिनमें से प्रत्येक का एक विशेष फोकस होता है। उदाहरण के लिए, Google का प्राथमिक क्रॉलर, Googlebot, डेस्कटॉप और मोबाइल क्रॉलिंग दोनों को संभालता है।
लेकिन कई अन्य भी हैं गूगल बॉट, जैसे Googlebot समाचार, Googlebot फ़ोटो, Googlebot वीडियो और AdsBot। ये कुछ अतिरिक्त वेब क्रॉलर हैं जिनसे आपका सामना हो सकता है:
- डकडकगो के लिए डकडकबॉट
- यांडेक्स के लिए यांडेक्स बॉट
- Baidu के लिए Baiduspider
- याहू! याहू के लिए स्लर्प!
- अमेज़न के लिए अमेज़न बॉट
- बिंग के लिए बिंगबॉट
अन्य विशिष्ट बॉट भी मौजूद हैं, जैसे MSNBot-Media और BingPreview। MSNBot, जो इसका प्राथमिक क्रॉलर हुआ करता था लेकिन तब से इसे नियमित क्रॉलिंग के लिए किनारे कर दिया गया है, अब केवल छोटे वेबसाइट क्रॉल कार्यों के लिए जिम्मेदार है।
वेब क्रॉलर- निष्कर्ष
तो अब हम आशा करते हैं कि आपको वेब क्रॉलर्स की स्पष्ट समझ हो गई होगी और वे क्या हैं? ये कैसे काम करते हैं? वेब स्क्रैपिंग और बहुत कुछ के साथ उनका संबंध।
त्वरित लिंक्स