Kazıma Önleme Tekniklerini Atlamanın 9 Kanıtlanmış Yolu 2024

Web kazıma büyük miktarda veri almak ve sisteminizde depolamak için kullanılan bir tekniktir. Bazı web siteleri cesaretini kırıyor web kazıma. Bu tür web siteleri yine de kazınabilir, ancak sorumlu bir şekilde, kazınmakta olan web sitesi üzerinde zararlı bir etkisi olmaması için. Web tarayıcıları verileri hızlı ve derinlemesine alabilir, bu nedenle hedef web sitesine 'bakmak' önemlidir.

 Çoğu web sitesinde olmayabilir kazıma önleyici teknikler çünkü bu normal bir kullanıcının web sitesine erişmesini engeller. Yine de, verilerinin açık bir şekilde erişilmesini istemedikleri için kazımayı engelleyen bazı siteler var.

Bu makale, web sitelerinin, web sitelerinde insan etkileşimi değil bir örümcek olduğunu nasıl bildiğinden ve bu engelleri aşmanın yollarından bahseder.

Web siteleri web kazımasını nasıl algılayabilir?

Web sitelerinin arama motoru botlarını çalışırken algılamasına izin veren mekanizmalar vardır. Bazı mekanizmalar şunlardır:

  1.       Tek bir istemciden olağan dışı trafik veya yüksek indirme hızı veya IP adresi sınırlı bir süre içinde.
  2.       Bir web sitesinde bir insan tarafından yapılmayan tekrarlayan görevleri algılama. Bir insan her zaman aynı görevleri yerine getirmez.
  3.       Genellikle normal bir kullanıcı tarafından görülemeyen algılama için bal küplerinin kullanılması.

9'de Kazıma Önleme Tekniklerini Atlamanın Kanıtlanmış 2024 Yolunun Listesi

Algılamanın üstesinden gelmek ve kazıma önleme tekniklerini atlamak için şu uygulamaları izleyin:

1) robots.txt dosyalarına bağlı kalın

Bir web sitesinin sahipleri, web sitelerinin taranmasına/kazınmasına izin verilip verilmeyeceğine karar verme hakkına sahiptir. Bazı web siteleri, botların sıyırmasına izin vermez ve diğer web sitelerinin web sitelerini sıyırmasına izin verir. Web örümcekleri, kazıma yaparken bir web sitesi için robot.txt dosyasına yapışmalıdır. Bu dosyada uymanız gereken bir dizi kural vardır; ne sıklıkta kazıyabileceğinizi ve hangi sayfaları kazıyabileceğinizi. 

Anti kazıma tekniğini atlayın - web

Robots.txt dosyası web sitesi URL'sinde bulunabilir.

Aşağıdaki gibi satırlar içeriyorsa site beğenmez ve kazınmak ister.

User-agent: *

izin verme:/ 

Çoğu web sitesi, web sitelerinin en büyük kazıyıcısı olan Google'da listelenmek istediğinden, sahipleri tarayıcıların web sitelerine erişmesine izin verir. 

2) Yavaş tarama yardımcı olur

Bot kullanıyorsanız, verileri 30 saniye içinde istek yerleştirmek kadar hızlı bir şekilde alır ve sıyırırlar; ki bu bir insan için olağandışıdır. Bu nedenle, bir web sitesinin bir kazıyıcının iş başında olduğunu algılaması kolaydır. Hızlı kazıma, bir web sitesinin çok fazla istek alması ve web sitesini yanıt vermemesi anlamına gelir.

Örümceğinizin gerçek görünmesini sağlamak için insan davranışını taklit etmeye çalışın. 

Örneğin, istekler arasına bazı rasgele programlı uyku çağrıları ekleyin veya belirli sayıda sayfayı taradıktan sonra bazı gecikmeler koyun. Temel olarak, kazıdığınız web sitesine iyi davranılmalı ve üzerine fazla yük yüklenmemelidir.

Web sitesini çok fazla yüklüyorsanız, tarama hızını otomatik olarak kısmak için kullanılabilecek otomatik kısma mekanizmaları vardır. Web sitesi ortamı da zamanla değişir. Bu nedenle, birkaç parkur koştuktan sonra botu optimum tarama hızına ayarlayın.

3) Çizilme düzenini değiştir

İnsanlar, görevde bir değişiklik getirme eğilimindedir ve bunu tekrar tekrar yapmazlar. Kazıma sırasında rastgele hareketler gösterirler. Öte yandan, botlar aynı tarama düzenine sahiptir çünkü buna programlanmıştır. Bunun için programlanmadıkça deseni değiştirmezler.

Web siteleri anti tarama Bir robotun kazıma işlemine dahil olduğunu veya bunu bir insanın yaptığını kolayca tespit edebilen mekanizmalar. Bu nedenle, programa bazı rastgele tıklamaları veya örümceğin bir insan gibi görünmesini sağlayan fare hareketlerini ekleyin. Tarama düzeninde değişiklik yapmak verimli bir anti-kazıma tekniği. 

4) IP'leri ve Proxy'leri Döndür

Birden çok istek göndermek için aynı IP adresini kullanmak IP adresinizi engelleyin. IP adresiniz kazıma sırasında görülebilir. Bir web sitesi ne yaptığınızı kolayca bilecektir. Bunu önlemek için birden çok IP adresi kullanın. A bir proxy sunucusundan istek tespit edilmesi zordur. rastgele kullan IP adresleri bir IP havuzundan gelen her istek için.

IP Adresi Kullanarak Kazıma Önleme

Giden IP'nizi değiştirmenin birçok yolu vardır. VPN'ler, paylaşılan proxy'ler veya TOR, mümkün olan en iyi yoldur. Ayrıca, otomatik IP rotasyonu için hizmet sağlayan ticari sağlayıcılar da vardır. Bu teknik ayrıca yükü çeşitli çıkış noktalarına dağıtır.

Bu, web siteleri tarafından da iyi bilinen bir teknik olduğundan, AWS gibi çok sayıda kullanılan bazı IP aralıklarını engellediler.

5) Kullanıcı Aracısı rotasyonu

Kullanıcı aracısı, bir sunucuya hangi web tarayıcısının kullanıldığını söyleyen bir araçtır. Bir kullanıcı aracısı kurmadıysanız, web siteleri içeriklerini görüntülemenize izin vermez. Kullanıcı aracınızı tanımak için Google arama çubuğuna "kullanıcı aracım nedir" yazmanız yeterlidir.

Ayrıca, kullanıcı dizinizi adresinden de kontrol edebilirsiniz. WhatsMyUserAgent.

Bir tarayıcıdan gelen her istek, bir botun algılanmasına yol açan bir kullanıcı aracısı başlığı içerir. Bu nedenle, kullanıcı aracısının gerçek görünmesini sağlamak ve algılamadan kaçmak, kullanıcı aracısını taklit etmektir.

Bir kullanıcı aracısını taklit etmek için:

Kullanıcı aracılarının bir listesini oluşturun ve her istek için, engellenmemeniz için rastgele bir kullanıcı aracısı seçin. Kullanıcı aracınızı, varsayılan kullanıcı aracısı yerine ortak bir web tarayıcısına ayarlayın.

Varsayılan kullanıcı aracısını (wget/version veya urllib/version gibi) kullanmak yerine kullanıcı aracınızı ortak bir web tarayıcısına ayarlayın. hatta yapabilirsin Google Bot gibi davran: Biraz eğlenmek istiyorsanız Googlebot/2.1!

6) Düzenleri değiştiren web sitelerine dikkat edin

Bazı web sitelerinin dinamik bir düzeni vardır ve onu değiştirmeye devam ederek, onu zor veya kazıyıcı hale getirir. Örneğin, ilk 20 sayfa belirli bir formata sahip olacak ve geri kalanların düzeninde değişiklik olabilir.

Bu tür web sitelerinden verileri sıyırmak için XPath'leri veya CSS seçicilerini kullanın. veri madenciliği. Bunları kullanmıyorsanız, düzendeki farkı kontrol edin ve kodunuza bu sayfaları farklı şekilde sıyıran bir koşul ekleyin.

7) Başsız bir tarayıcı kullanın

Web siteleri, kullanılan tarayıcıya bağlı olarak farklı içerik görüntüler. Örneğin, Google arama sonuçlarında, tarayıcının gelişmiş yetenekleri varsa, "zengin" içerik sunabilir, bu da içeriğin dinamik ve stil sahibi olacağı ve Javascript ve CSS'ye büyük ölçüde bağımlı olacağı anlamına gelir.

Bununla ilgili sorun, herhangi bir şey yaparken veri madenciliği, içerik, sunucunun sunduğu ham HTML yanıtı değil, JS kodu tarafından oluşturulur.

Böyle bir durumda, başsız bir tarayıcı kullanılarak engelleme önlenebilir. Headless tarayıcı, masaüstünde görsel olmadıkları anlamına gelir. Yani grafiksel bir arayüz yok. Bu, grafik arayüzü olmadığı anlamına gelir. Bir öğeyle etkileşim kurmak yerine, her şeyi bir komut satırı arabirimiyle otomatikleştirebilirsiniz. Bu, çalışırken fark edilmeden kalmanıza yardımcı olabilir. web kazıma.

8) Kendinizi bal küpü tuzaklarından koruyun

Web siteleri, bilgisayar korsanlığını önlemek için azami özen gösterir. Hack'leri cezbetmek ve web sitesinde herhangi bir hack girişimi olup olmadığını tespit etmek için bal küpleri kurarlar. Genellikle gerçek bir sistemin davranışını taklit eden bir uygulamadır. Örneğin, bazı web siteleri normal kullanıcılar tarafından görülemeyen ancak kullanıcılar tarafından erişilebilen bal küpü bağlantıları kurar. ağ kazıyıcıları bir tek.

Bu tuzağa düşmemek için açtığınız bağlantının uygun görünürlüğe ve nofollow etiketine sahip olduğundan emin olun. Bağlantıları takip ederken her zaman bağlantının nofollow etiketi ile uygun görünürlüğe sahip olmasına dikkat edin. Örümcekleri algılamak için bazı bal küpü bağlantılarında CSS stili görüntülenir: yok veya sayfanın arka plan rengiyle uyum sağlamak için renk kılığına girilir.

Bu tespit açıkça kolay değildir ve düzgün bir şekilde gerçekleştirmek için önemli miktarda programlama çalışması gerektirir, sonuç olarak bu teknik her iki tarafta da yaygın olarak kullanılmaz – sunucu tarafı veya bot veya kazıyıcı tarafı.

9) Giriş Yapın

Giriş iznine izin vermeyen birkaç web sitesi var. Örneğin Facebook ve Gerçekten.

Giriş korumalı sayfalar, sayfaya erişim için her istekte biraz daha fazla bilgi veya tanımlama bilgisi gerektirir. Bu, hedef web sitesine şu siteden gelen istekleri görme şansı verir. proxy sunucular ve bu nedenle hesabınızı bloke edin.

Bu nedenle, kolayca engelleneceğiniz için giriş yapan web sitelerini kazımaktan kaçınmanız önerilir. Bu tür web sitelerini sıyırmak için, hedeflenen verileri alabilmeniz için kimlik doğrulama gerektiğinde insan tarayıcılarını taklit edebilirsiniz.

Web Kazıma algılaması nasıl ele alınır?

Bir örümcek inşa ederken, ne olduğunu araştırmak için biraz zaman ayırın. kazıma önleyici mekanizma web sitesi kullanıcısıdır ve ardından örümceğinizi buna göre programlayın. Bu, daha iyi bir veri sonucuna yol açacak ve uzun vadede sağlam bir örümcek oluşturacaktır. 

Bir web sitesinin sizi engellediğini nasıl anlarsınız?

Tarama sırasında bir web sitesinde aşağıdaki alarmları arayın. Bunlardan herhangi birini görürseniz, banlandığınızın veya engellendiğinizin göstergesidir.

-          CAPTCHA sayfaları

-          Olağandışı içerik teslim gecikmeleri

-          HTTP 404, 301 veya 503 hatalarıyla sık yanıt

Ayrıca, bu HTTP kodları görünürse, kendinizi engellenmiş olarak kabul edin.

-          301 Geçici Olarak Taşındı

-          401 Yetkisiz

-          Yasak 403

-          404 Bulunamadı

-          408 İstek Zaman Aşımı

-          429 Çok Fazla İstek  

-          503 Hizmet Kullanılamıyor

En iyi blogları okuyun @ ENGELLİ WEB SİTELERİ PROXY İLE NASIL AÇILIR?

Hızlı Linkler:

Sonuç: B'nin Kanıtlanmış Yollarıypass Kazıma Önleme Teknikleri

için kazıma önleme tekniklerini atlayın, temel kural sabit kalır, yani hedef web sitesine iyi davranın ve proxy sunucusu. Sunucusunun işleyemeyeceği isteklerle aşırı yüklemeyin. Engellenmek yerine verileri taramak ve verimli bir şekilde toplamak için kararlı ve sağlam bir mekanizma/örümcek oluşturun. Bu noktalar, kendi çözümünüzü oluşturmanıza yardımcı olacaktır. anti-kazıma.

İlgili verileri elde etmek için kazıma önleyici siteleri atlamak için birçok teknik kullanan bir veri bilimcisi, pazarlamacı veya yayıncı mısınız? Botlarla ilgili deneyiminizden bahseder misiniz?

 

 

Jitendra Vaswani
Bu yazar BloggersIdeas.com'da doğrulandı

Jitendra Vaswani, dünyayı dolaşırken dijital göçebe yaşam tarzını benimsemiş bir Dijital Pazarlama Uygulayıcısı ve ünlü uluslararası açılış konuşmacısıdır. İki başarılı web sitesi kurdu, BlogcularIdeas.com & Dijital Pazarlama Ajansı DigiExe başarı öyküleri "Inside A Hustler's Brain: In Pursuit of Financial Freedom" (dünya çapında 20,000 kopya satıldı) yazmaya ve "Uluslararası En Çok Satan Growth Hacking Yazarı 2" kitabına katkıda bulunmaya kadar genişledi. Jitendra, kıtalar genelinde Dijital pazarlama alanında 10000'den fazla profesyonel için atölyeler tasarladı; insanların hayallerindeki işi çevrimiçi olarak kurmalarına yardımcı olarak etkili bir fark yaratmaya yönelik nihai amaçlarla. Jitendra Vaswani, aşağıdakileri içeren etkileyici bir portföye sahip, güçlü bir yatırımcıdır: Görüntü istasyonu. Yatırımları hakkında daha fazla bilgi edinmek için onu şu adreste bulun: Linkedin, Twitter, & Facebook.

Satış ortağı açıklaması: Tam şeffaflıkla - web sitemizdeki bağlantılardan bazıları bağlı kuruluş bağlantılarıdır, bunları bir satın alma işlemi yapmak için kullanırsanız, sizin için hiçbir ek ücret ödemeden komisyon kazanacağız (hiçbir şekilde!).

Leave a Comment