एंटी स्क्रैपिंग तकनीकों को बायपास करने के 9 सिद्ध तरीके [2024 ]

वेब स्क्रेपिंग आपके सिस्टम में बड़ी मात्रा में डेटा पुनर्प्राप्त करने और संग्रहीत करने की एक तकनीक है। कुछ वेबसाइटें हतोत्साहित करती हैं वेब स्क्रेपिंग. ऐसी वेबसाइटों को अभी भी स्क्रैप किया जा सकता है, लेकिन जिम्मेदारी से ताकि स्क्रैप की जा रही वेबसाइट पर इसका हानिकारक प्रभाव न पड़े। वेब क्रॉलर डेटा को जल्दी और गहराई से पुनः प्राप्त कर सकते हैं, इसलिए लक्ष्य वेबसाइट का 'ध्यान रखना' महत्वपूर्ण है।

अधिकांश वेबसाइटों में नहीं हो सकता है एंटी-स्क्रैपिंग तकनीक क्योंकि इससे सामान्य उपयोगकर्ता को वेबसाइट तक पहुंचने में बाधा आएगी। हालाँकि, कुछ साइटें हैं जो अभी भी स्क्रैपिंग को रोकती हैं क्योंकि वे नहीं चाहतीं कि उनका डेटा खुलेआम एक्सेस किया जाए।

यह आलेख इस बारे में चर्चा करता है कि वेबसाइटों को कैसे पता चलता है कि वेबसाइटों पर मानव संपर्क नहीं बल्कि मकड़ी है और उन बाधाओं को दूर करने के तरीके।

वेबसाइटें वेब स्क्रैपिंग का पता कैसे लगा सकती हैं?

ऐसे तंत्र हैं जो वेबसाइटों को क्रियाशील खोज इंजन बॉट का पता लगाने की अनुमति देते हैं। कुछ तंत्र हैं:

असामान्य ट्रैफ़िक या एकल क्लाइंट से उच्च डाउनलोड दर आईपी पते सीमित समय में।
किसी वेबसाइट पर किसी इंसान द्वारा नहीं किए गए दोहराए गए कार्यों का पता लगाना। एक इंसान हर समय एक जैसे कार्य नहीं करेगा।
पता लगाने के लिए हनीपोट्स का उपयोग करना जो आमतौर पर सामान्य उपयोगकर्ता के लिए अदृश्य होते हैं।

विषय - सूची

9 में एंटी स्क्रैपिंग तकनीकों को बायपास करने के 2024 सिद्ध तरीकों की सूची

पहचान पर काबू पाने और एंटी-स्क्रैपिंग तकनीकों को बायपास करने के लिए, इन प्रथाओं का पालन करें:

1) robots.txt फ़ाइलों का पालन करें

किसी वेबसाइट के मालिकों को यह तय करने का अधिकार है कि उनकी वेबसाइट को क्रॉल/स्क्रैप करने की अनुमति दी जाएगी या नहीं। कुछ वेबसाइटें बॉट्स को स्क्रैप करने की अनुमति नहीं देती हैं और अन्य वेबसाइटों को उनकी वेबसाइटों को स्क्रैप करने की अनुमति देती हैं। स्क्रैपिंग करते समय वेब स्पाइडर को किसी वेबसाइट के लिए robot.txt फ़ाइल से चिपकना चाहिए। इस फ़ाइल में नियमों का एक सेट है जिसका आपको सम्मान करना चाहिए; आप कितनी बार स्क्रैप कर सकते हैं और कौन से पेज स्क्रैप कर सकते हैं।

robots.txt फ़ाइल वेबसाइट URL पर पाई जा सकती है।

यदि इसमें नीचे दिखाई गई पंक्तियों जैसी पंक्तियाँ हैं, तो इसका मतलब है कि साइट पसंद नहीं करती है और उसे स्क्रैप करना चाहती है।

उपयोगकर्ता-एजेंट: *

अस्वीकृत:/

चूंकि अधिकांश वेबसाइटें Google पर सूचीबद्ध होना चाहती हैं, जो वेबसाइटों का सबसे बड़ा स्क्रैपर है, मालिक क्रॉलर्स को वेबसाइटों तक पहुंचने की अनुमति देते हैं।

2) धीमी स्क्रॉलिंग से मदद मिलती है

यदि आप बॉट का उपयोग कर रहे हैं, तो वे बहुत तेजी से डेटा लाते हैं और स्क्रैप करते हैं, उतनी ही तेजी से 30 सेकंड के भीतर अनुरोध करते हैं; जो इंसान के लिए असामान्य है. इसलिए किसी वेबसाइट के लिए यह पता लगाना आसान है कि कोई स्क्रैपर काम पर है। तेजी से स्क्रैपिंग का मतलब है कि एक वेबसाइट को बहुत अधिक अनुरोध प्राप्त हो रहे हैं और वेबसाइट अनुत्तरदायी हो रही है।

अपनी मकड़ी को वास्तविक दिखाने के लिए, मानव व्यवहार की नकल करने का प्रयास करें।

उदाहरण के लिये, अनुरोधों के बीच कुछ यादृच्छिक प्रोग्रामेटिक स्लीप कॉल जोड़ें या किसी विशेष संख्या में पृष्ठों को क्रॉल करने के बाद कुछ देरी करें। मूलतः, जिस वेबसाइट को आप स्क्रैप कर रहे हैं उसके साथ अच्छा व्यवहार किया जाना चाहिए और उस पर अधिक लोड नहीं डाला जाना चाहिए।

यदि आप वेबसाइट को बहुत अधिक लोड कर रहे हैं तो ऐसे ऑटोथ्रोटल तंत्र हैं जिनका उपयोग क्रॉलिंग गति को स्वचालित रूप से कम करने के लिए किया जा सकता है। समय के साथ वेबसाइट का वातावरण भी बदलता रहता है। इसलिए कुछ ट्रेल्स चलने के बाद बॉट को इष्टतम क्रॉलिंग गति में समायोजित करें।

3) स्क्रॉलिंग पैटर्न बदलें

मनुष्य कार्य में विविधता लाते हैं न कि उसे बार-बार करते हैं। वे स्क्रैप करते समय यादृच्छिक क्रियाएँ दिखाते हैं। दूसरी ओर, बॉट्स में रेंगने का पैटर्न समान होता है क्योंकि उन्हें ऐसा करने के लिए प्रोग्राम किया जाता है। वे तब तक पैटर्न नहीं बदलते जब तक उन्हें ऐसा करने के लिए प्रोग्राम न किया गया हो।

वेबसाइटें हैं रेंगने रोधी ऐसे तंत्र जो आसानी से पता लगा सकते हैं कि कोई बॉट स्क्रैपिंग में शामिल है या कोई इंसान ऐसा कर रहा है। इसलिए, प्रोग्राम में कुछ यादृच्छिक क्लिक या माउस मूवमेंट शामिल करें जिससे मकड़ी इंसान की तरह दिखे। क्रॉलिंग पैटर्न में बदलाव करना एक कुशल कार्य है एंटी-स्क्रैपिंग तकनीक.

अभी हाई स्पीड लाइम प्रॉक्सी देखें

4) आईपी और प्रॉक्सी घुमाएँ

एकाधिक अनुरोध भेजने के लिए एक ही आईपी पते का उपयोग करना होगा अपना आईपी पता ब्लॉक करें. स्क्रैप करते समय आपका आईपी एड्रेस देखा जा सकता है। एक वेबसाइट आसानी से जान जाएगी कि आप क्या कर रहे हैं। इसे रोकने के लिए, एकाधिक आईपी पते का उपयोग करें। ए प्रॉक्सी सर्वर से अनुरोध पता लगाना कठिन है. यादृच्छिक का प्रयोग करें आईपी पतों आईपी के पूल से प्रत्येक अनुरोध के लिए।

आपके आउटगोइंग आईपी को बदलने के कई तरीके हैं। वीपीएन, साझा प्रॉक्सी या टीओआर सर्वोत्तम संभव तरीके हैं। इसके अलावा, स्वचालित आईपी रोटेशन के लिए सेवाएं प्रदान करने वाले वाणिज्यिक प्रदाता भी हैं। यह तकनीक विभिन्न निकास बिंदुओं पर भार भी वितरित करती है।

चूँकि यह वेबसाइटों के लिए भी एक प्रसिद्ध तकनीक है, उन्होंने AWS जैसी कुछ बड़े पैमाने पर उपयोग की जाने वाली IP श्रेणियों को अवरुद्ध कर दिया है।

[नवीनतम] क्रेगलिस्ट स्क्रैपिंग 2024 के लिए सर्वश्रेष्ठ आवासीय आईपी प्रॉक्सी @$0.05

5) उपयोगकर्ता एजेंट रोटेशन

उपयोगकर्ता एजेंट एक उपकरण है जो सर्वर को बताता है कि किस वेब ब्राउज़र का उपयोग किया जा रहा है। यदि आपने कोई उपयोगकर्ता एजेंट स्थापित नहीं किया है, तो वेबसाइटें आपको उनकी सामग्री देखने की अनुमति नहीं देंगी। अपने उपयोगकर्ता एजेंट को जानने के लिए, आप बस Google खोज बार में "मेरा उपयोगकर्ता एजेंट क्या है" टाइप कर सकते हैं।

आप अपनी उपयोगकर्ता-स्ट्रिंग को यहां भी जांच सकते हैं WhatsMyUserAgent.

ब्राउज़र से आने वाले प्रत्येक अनुरोध में एक उपयोगकर्ता एजेंट हेडर होता है जो बॉट का पता लगाने की ओर ले जाता है। इसलिए उपयोगकर्ता एजेंट को वास्तविक दिखाना और पहचान से बचना उपयोगकर्ता एजेंट को नकली बनाना है।

किसी उपयोगकर्ता एजेंट को धोखा देने के लिए:

उपयोगकर्ता एजेंटों की एक सूची बनाएं और प्रत्येक अनुरोध के लिए, एक यादृच्छिक उपयोगकर्ता-एजेंट चुनें ताकि आप अवरुद्ध न हों। अपने उपयोगकर्ता एजेंट को डिफ़ॉल्ट उपयोगकर्ता एजेंट के बजाय एक सामान्य वेब ब्राउज़र पर सेट करें।

अपने उपयोगकर्ता-एजेंट को डिफ़ॉल्ट उपयोगकर्ता-एजेंट (जैसे wget/संस्करण या urllib/संस्करण) का उपयोग करने के बजाय एक सामान्य वेब ब्राउज़र पर सेट करें। आप भी कर सकते हैं Google बॉट होने का दिखावा करें: Googlebot/2.1 अगर आप कुछ मजा लेना चाहते हैं!

6) लेआउट बदलने वाली वेबसाइटों से सावधान रहें

कुछ वेबसाइटों का लेआउट गतिशील होता है और वे इसे बदलती रहती हैं, जिससे यह पेचीदा या स्क्रैपर बन जाता है। उदाहरण के लिए, पहले 20 पेजों का एक विशेष प्रारूप होगा और बाकी के लेआउट में बदलाव हो सकता है।

ऐसी वेबसाइटों से डेटा निकालने के लिए XPaths या CSS चयनकर्ताओं का उपयोग करें आँकड़ा खनन. यदि आप इनका उपयोग नहीं कर रहे हैं, तो लेआउट में अंतर की जांच करें और अपने कोड में एक शर्त जोड़ें जो उन पृष्ठों को अलग तरह से स्क्रैप करे।

7) हेडलेस ब्राउज़र का उपयोग करें

उपयोग किए जा रहे ब्राउज़र के आधार पर वेबसाइटें अलग-अलग सामग्री प्रदर्शित करती हैं। उदाहरण के लिए, Google खोज परिणामों में, यदि ब्राउज़र में उन्नत क्षमताएं हैं, तो यह "समृद्ध" सामग्री प्रस्तुत कर सकता है जिसका अर्थ है कि सामग्री गतिशील और स्टाइल वाली होगी और जावास्क्रिप्ट और सीएसएस पर भारी निर्भरता होगी।

इसमें समस्या यह है कि किसी भी प्रकार का कार्य करते समय आँकड़ा खनन, सामग्री जेएस कोड द्वारा प्रस्तुत की जाती है न कि सर्वर द्वारा वितरित मूल HTML प्रतिक्रिया द्वारा।

ऐसे मामले में, हेडलेस ब्राउज़र का उपयोग करके ब्लॉकिंग को रोका जा सकता है। हेडलेस ब्राउज़र का मतलब है कि वे डेस्कटॉप पर दृश्यमान नहीं हैं। इसलिए कोई ग्राफ़िकल इंटरफ़ेस नहीं है. इसका मतलब है कि कोई ग्राफिकल इंटरफ़ेस नहीं है। किसी तत्व के साथ इंटरैक्ट करने के बजाय, आप कमांड-लाइन इंटरफ़ेस के साथ सब कुछ स्वचालित कर सकते हैं। इससे आपको अज्ञात रहने में मदद मिल सकती है वेब स्क्रेपिंग।

अभी हाई स्पीड लाइम प्रॉक्सी देखें

8) अपने आप को हनीपॉट ट्रैप से बचाएं

हैकिंग से बचने के लिए वेबसाइटें अत्यधिक सावधानी बरतती हैं। वे हैक को लुभाने के लिए हनीपोट स्थापित करते हैं और पता लगाते हैं कि वेबसाइट पर हैकिंग के कोई प्रयास हैं या नहीं। यह आमतौर पर एक एप्लिकेशन है जो वास्तविक सिस्टम के व्यवहार का अनुकरण करता है। उदाहरण के लिए, कुछ वेबसाइटें हनीपोट लिंक इंस्टॉल करती हैं जो सामान्य उपयोगकर्ताओं के लिए अदृश्य होते हैं लेकिन उन तक पहुंचा जा सकता है वेब स्क्रेपर्स केवल.

इस जाल में फंसने से बचने के लिए, सुनिश्चित करें कि जो लिंक आप खोल रहे हैं उसमें उचित दृश्यता और नोफ़ॉलो टैग हो। लिंक का अनुसरण करते समय हमेशा इस बात का ध्यान रखें कि लिंक की उचित दृश्यता हो और कोई नोफ़ॉलो टैग न हो। मकड़ियों का पता लगाने के लिए कुछ हनीपोट लिंक में सीएसएस शैली का डिस्प्ले होगा: कोई नहीं या पृष्ठ के पृष्ठभूमि रंग के साथ मिश्रण करने के लिए रंग प्रच्छन्न होगा।

यह पता लगाना स्पष्ट रूप से आसान नहीं है और इसे ठीक से पूरा करने के लिए महत्वपूर्ण मात्रा में प्रोग्रामिंग कार्य की आवश्यकता होती है, परिणामस्वरूप, इस तकनीक का व्यापक रूप से दोनों तरफ - सर्वर-साइड या बॉट या स्क्रैपर साइड पर उपयोग नहीं किया जाता है।

9) लॉगिन के पीछे स्क्रैप करें

कुछ वेबसाइटें ऐसी हैं जो लॉगिन की अनुमति नहीं देती हैं। उदाहरण के लिए फेसबुक और वास्तव में।

लॉगिन संरक्षित पृष्ठों को पृष्ठ तक पहुंचने के लिए प्रत्येक अनुरोध के साथ कुछ और जानकारी या कुकीज़ की आवश्यकता होती है। इससे लक्षित वेबसाइट को आने वाले अनुरोधों को देखने का मौका मिलता है प्रॉक्सी सर्वर और इसलिए अपना खाता ब्लॉक करें।

इसलिए, यह सलाह दी जाती है कि उन वेबसाइटों को स्क्रैप करने से बचें जिनमें लॉगिन है क्योंकि आपको आसानी से ब्लॉक कर दिया जाएगा। ऐसी वेबसाइटों को खंगालने के लिए, प्रमाणीकरण की आवश्यकता होने पर आप मानव ब्राउज़र की नकल कर सकते हैं ताकि आप लक्षित डेटा प्राप्त कर सकें।

वेब स्क्रैपिंग डिटेक्शन का समाधान कैसे करें?

मकड़ी का निर्माण करते समय, यह जांचने में कुछ समय व्यतीत करें कि क्या विरोधी scraping मैकेनिज्म वेबसाइट उपयोगकर्ता है और फिर उसके अनुसार अपने स्पाइडर को प्रोग्राम करता है। इससे डेटा का बेहतर परिणाम निकलेगा और लंबे समय में एक मजबूत मकड़ी का निर्माण होगा।

आपको कैसे पता चलेगा कि किसी वेबसाइट ने आपको ब्लॉक कर दिया है?

क्रॉल करते समय किसी वेबसाइट पर निम्नलिखित अलार्म देखें। यदि आप उनमें से कोई भी देखते हैं, तो वे आपके प्रतिबंधित या अवरुद्ध होने के संकेतक हैं।

- कैप्चा पेज

- असामान्य सामग्री वितरण में देरी

- HTTP 404, 301 या 503 त्रुटियों के साथ बार-बार प्रतिक्रिया

इसके अलावा, यदि ये HTTP कोड दिखाई देते हैं, तो अपने आप को अवरुद्ध समझें।

- 301 अस्थायी रूप से स्थानांतरित किया गया

- 401 अनधिकृत

- निषिद्ध 403

- नहीं मिला 404

- 408 निवेदन समय समाप्त

- 429 बहुत अधिक अनुरोध

- 503 सेवा अनुपलब्ध

सर्वोत्तम ब्लॉग पढ़ें@ प्रॉक्सी द्वारा अवरुद्ध वेबसाइटें कैसे खोलें?

अभी हाई स्पीड लाइम प्रॉक्सी देखें

त्वरित सम्पक:

निष्कर्ष: बी के सिद्ध तरीकेवाईपास एंटी-स्क्रैपिंग तकनीक

सेवा मेरे एंटी-स्क्रैपिंग तकनीकों को बायपास करें, मूल नियम स्थिर रहता है, यानी लक्ष्य वेबसाइट के साथ अच्छा व्यवहार करें और ए का उपयोग करें प्रॉक्सी सर्वर. इसे ऐसे अनुरोधों से न भरें जिन्हें इसका सर्वर संभाल नहीं सकता। अवरुद्ध होने के बजाय डेटा को कुशलतापूर्वक क्रॉल करने और एकत्र करने के लिए एक स्थिर और मजबूत तंत्र/स्पाइडर बनाएं। ये बिंदु आपको अपना स्वयं का समाधान बनाने में मदद करेंगे विरोधी स्क्रैपिंग.

क्या आप एक डेटा वैज्ञानिक, विपणक या प्रकाशक हैं, जो प्रासंगिक डेटा प्राप्त करने के लिए एंटी-स्क्रैपिंग साइटों को बायपास करने के लिए कई तकनीकों का उपयोग करते हैं? बॉट्स के साथ अपने अनुभव के बारे में बताएं?