Web kazıma büyük miktarda veri almak ve sisteminizde depolamak için kullanılan bir tekniktir. Bazı web siteleri cesaretini kırıyor web kazıma. Bu tür web siteleri yine de kazınabilir, ancak sorumlu bir şekilde, kazınmakta olan web sitesi üzerinde zararlı bir etkisi olmaması için. Web tarayıcıları verileri hızlı ve derinlemesine alabilir, bu nedenle hedef web sitesine 'bakmak' önemlidir.
Çoğu web sitesinde olmayabilir kazıma önleyici teknikler çünkü bu normal bir kullanıcının web sitesine erişmesini engeller. Yine de, verilerinin açık bir şekilde erişilmesini istemedikleri için kazımayı engelleyen bazı siteler var.
Bu makale, web sitelerinin, web sitelerinde insan etkileşimi değil bir örümcek olduğunu nasıl bildiğinden ve bu engelleri aşmanın yollarından bahseder.
Web siteleri web kazımasını nasıl algılayabilir?
Web sitelerinin arama motoru botlarını çalışırken algılamasına izin veren mekanizmalar vardır. Bazı mekanizmalar şunlardır:
- Tek bir istemciden olağan dışı trafik veya yüksek indirme hızı veya IP adresi sınırlı bir süre içinde.
- Bir web sitesinde bir insan tarafından yapılmayan tekrarlayan görevleri algılama. Bir insan her zaman aynı görevleri yerine getirmez.
- Genellikle normal bir kullanıcı tarafından görülemeyen algılama için bal küplerinin kullanılması.
9'de Kazıma Önleme Tekniklerini Atlamanın Kanıtlanmış 2024 Yolunun Listesi
Algılamanın üstesinden gelmek ve kazıma önleme tekniklerini atlamak için şu uygulamaları izleyin:
1) robots.txt dosyalarına bağlı kalın
Bir web sitesinin sahipleri, web sitelerinin taranmasına/kazınmasına izin verilip verilmeyeceğine karar verme hakkına sahiptir. Bazı web siteleri, botların sıyırmasına izin vermez ve diğer web sitelerinin web sitelerini sıyırmasına izin verir. Web örümcekleri, kazıma yaparken bir web sitesi için robot.txt dosyasına yapışmalıdır. Bu dosyada uymanız gereken bir dizi kural vardır; ne sıklıkta kazıyabileceğinizi ve hangi sayfaları kazıyabileceğinizi.
Robots.txt dosyası web sitesi URL'sinde bulunabilir.
Aşağıdaki gibi satırlar içeriyorsa site beğenmez ve kazınmak ister.
User-agent: *
izin verme:/
Çoğu web sitesi, web sitelerinin en büyük kazıyıcısı olan Google'da listelenmek istediğinden, sahipleri tarayıcıların web sitelerine erişmesine izin verir.
2) Yavaş tarama yardımcı olur
Bot kullanıyorsanız, verileri 30 saniye içinde istek yerleştirmek kadar hızlı bir şekilde alır ve sıyırırlar; ki bu bir insan için olağandışıdır. Bu nedenle, bir web sitesinin bir kazıyıcının iş başında olduğunu algılaması kolaydır. Hızlı kazıma, bir web sitesinin çok fazla istek alması ve web sitesini yanıt vermemesi anlamına gelir.
Örümceğinizin gerçek görünmesini sağlamak için insan davranışını taklit etmeye çalışın.
Örneğin, istekler arasına bazı rasgele programlı uyku çağrıları ekleyin veya belirli sayıda sayfayı taradıktan sonra bazı gecikmeler koyun. Temel olarak, kazıdığınız web sitesine iyi davranılmalı ve üzerine fazla yük yüklenmemelidir.
Web sitesini çok fazla yüklüyorsanız, tarama hızını otomatik olarak kısmak için kullanılabilecek otomatik kısma mekanizmaları vardır. Web sitesi ortamı da zamanla değişir. Bu nedenle, birkaç parkur koştuktan sonra botu optimum tarama hızına ayarlayın.
3) Çizilme düzenini değiştir
İnsanlar, görevde bir değişiklik getirme eğilimindedir ve bunu tekrar tekrar yapmazlar. Kazıma sırasında rastgele hareketler gösterirler. Öte yandan, botlar aynı tarama düzenine sahiptir çünkü buna programlanmıştır. Bunun için programlanmadıkça deseni değiştirmezler.
Web siteleri anti tarama Bir robotun kazıma işlemine dahil olduğunu veya bunu bir insanın yaptığını kolayca tespit edebilen mekanizmalar. Bu nedenle, programa bazı rastgele tıklamaları veya örümceğin bir insan gibi görünmesini sağlayan fare hareketlerini ekleyin. Tarama düzeninde değişiklik yapmak verimli bir anti-kazıma tekniği.
4) IP'leri ve Proxy'leri Döndür
Birden çok istek göndermek için aynı IP adresini kullanmak IP adresinizi engelleyin. IP adresiniz kazıma sırasında görülebilir. Bir web sitesi ne yaptığınızı kolayca bilecektir. Bunu önlemek için birden çok IP adresi kullanın. A bir proxy sunucusundan istek tespit edilmesi zordur. rastgele kullan IP adresleri bir IP havuzundan gelen her istek için.
Giden IP'nizi değiştirmenin birçok yolu vardır. VPN'ler, paylaşılan proxy'ler veya TOR, mümkün olan en iyi yoldur. Ayrıca, otomatik IP rotasyonu için hizmet sağlayan ticari sağlayıcılar da vardır. Bu teknik ayrıca yükü çeşitli çıkış noktalarına dağıtır.
Bu, web siteleri tarafından da iyi bilinen bir teknik olduğundan, AWS gibi çok sayıda kullanılan bazı IP aralıklarını engellediler.
5) Kullanıcı Aracısı rotasyonu
Kullanıcı aracısı, bir sunucuya hangi web tarayıcısının kullanıldığını söyleyen bir araçtır. Bir kullanıcı aracısı kurmadıysanız, web siteleri içeriklerini görüntülemenize izin vermez. Kullanıcı aracınızı tanımak için Google arama çubuğuna "kullanıcı aracım nedir" yazmanız yeterlidir.
Ayrıca, kullanıcı dizinizi adresinden de kontrol edebilirsiniz. WhatsMyUserAgent.
Bir tarayıcıdan gelen her istek, bir botun algılanmasına yol açan bir kullanıcı aracısı başlığı içerir. Bu nedenle, kullanıcı aracısının gerçek görünmesini sağlamak ve algılamadan kaçmak, kullanıcı aracısını taklit etmektir.
Bir kullanıcı aracısını taklit etmek için:
Kullanıcı aracılarının bir listesini oluşturun ve her istek için, engellenmemeniz için rastgele bir kullanıcı aracısı seçin. Kullanıcı aracınızı, varsayılan kullanıcı aracısı yerine ortak bir web tarayıcısına ayarlayın.
Varsayılan kullanıcı aracısını (wget/version veya urllib/version gibi) kullanmak yerine kullanıcı aracınızı ortak bir web tarayıcısına ayarlayın. hatta yapabilirsin Google Bot gibi davran: Biraz eğlenmek istiyorsanız Googlebot/2.1!
6) Düzenleri değiştiren web sitelerine dikkat edin
Bazı web sitelerinin dinamik bir düzeni vardır ve onu değiştirmeye devam ederek, onu zor veya kazıyıcı hale getirir. Örneğin, ilk 20 sayfa belirli bir formata sahip olacak ve geri kalanların düzeninde değişiklik olabilir.
Bu tür web sitelerinden verileri sıyırmak için XPath'leri veya CSS seçicilerini kullanın. veri madenciliği. Bunları kullanmıyorsanız, düzendeki farkı kontrol edin ve kodunuza bu sayfaları farklı şekilde sıyıran bir koşul ekleyin.
7) Başsız bir tarayıcı kullanın
Web siteleri, kullanılan tarayıcıya bağlı olarak farklı içerik görüntüler. Örneğin, Google arama sonuçlarında, tarayıcının gelişmiş yetenekleri varsa, "zengin" içerik sunabilir, bu da içeriğin dinamik ve stil sahibi olacağı ve Javascript ve CSS'ye büyük ölçüde bağımlı olacağı anlamına gelir.
Bununla ilgili sorun, herhangi bir şey yaparken veri madenciliği, içerik, sunucunun sunduğu ham HTML yanıtı değil, JS kodu tarafından oluşturulur.
Böyle bir durumda, başsız bir tarayıcı kullanılarak engelleme önlenebilir. Headless tarayıcı, masaüstünde görsel olmadıkları anlamına gelir. Yani grafiksel bir arayüz yok. Bu, grafik arayüzü olmadığı anlamına gelir. Bir öğeyle etkileşim kurmak yerine, her şeyi bir komut satırı arabirimiyle otomatikleştirebilirsiniz. Bu, çalışırken fark edilmeden kalmanıza yardımcı olabilir. web kazıma.
8) Kendinizi bal küpü tuzaklarından koruyun
Web siteleri, bilgisayar korsanlığını önlemek için azami özen gösterir. Hack'leri cezbetmek ve web sitesinde herhangi bir hack girişimi olup olmadığını tespit etmek için bal küpleri kurarlar. Genellikle gerçek bir sistemin davranışını taklit eden bir uygulamadır. Örneğin, bazı web siteleri normal kullanıcılar tarafından görülemeyen ancak kullanıcılar tarafından erişilebilen bal küpü bağlantıları kurar. ağ kazıyıcıları bir tek.
Bu tuzağa düşmemek için açtığınız bağlantının uygun görünürlüğe ve nofollow etiketine sahip olduğundan emin olun. Bağlantıları takip ederken her zaman bağlantının nofollow etiketi ile uygun görünürlüğe sahip olmasına dikkat edin. Örümcekleri algılamak için bazı bal küpü bağlantılarında CSS stili görüntülenir: yok veya sayfanın arka plan rengiyle uyum sağlamak için renk kılığına girilir.
Bu tespit açıkça kolay değildir ve düzgün bir şekilde gerçekleştirmek için önemli miktarda programlama çalışması gerektirir, sonuç olarak bu teknik her iki tarafta da yaygın olarak kullanılmaz – sunucu tarafı veya bot veya kazıyıcı tarafı.
9) Giriş Yapın
Giriş iznine izin vermeyen birkaç web sitesi var. Örneğin Facebook ve Gerçekten.
Giriş korumalı sayfalar, sayfaya erişim için her istekte biraz daha fazla bilgi veya tanımlama bilgisi gerektirir. Bu, hedef web sitesine şu siteden gelen istekleri görme şansı verir. proxy sunucular ve bu nedenle hesabınızı bloke edin.
Bu nedenle, kolayca engelleneceğiniz için giriş yapan web sitelerini kazımaktan kaçınmanız önerilir. Bu tür web sitelerini sıyırmak için, hedeflenen verileri alabilmeniz için kimlik doğrulama gerektiğinde insan tarayıcılarını taklit edebilirsiniz.
Web Kazıma algılaması nasıl ele alınır?
Bir örümcek inşa ederken, ne olduğunu araştırmak için biraz zaman ayırın. kazıma önleyici mekanizma web sitesi kullanıcısıdır ve ardından örümceğinizi buna göre programlayın. Bu, daha iyi bir veri sonucuna yol açacak ve uzun vadede sağlam bir örümcek oluşturacaktır.
Bir web sitesinin sizi engellediğini nasıl anlarsınız?
Tarama sırasında bir web sitesinde aşağıdaki alarmları arayın. Bunlardan herhangi birini görürseniz, banlandığınızın veya engellendiğinizin göstergesidir.
- CAPTCHA sayfaları
- Olağandışı içerik teslim gecikmeleri
- HTTP 404, 301 veya 503 hatalarıyla sık yanıt
Ayrıca, bu HTTP kodları görünürse, kendinizi engellenmiş olarak kabul edin.
- 301 Geçici Olarak Taşındı
- 401 Yetkisiz
- Yasak 403
- 404 Bulunamadı
- 408 İstek Zaman Aşımı
- 429 Çok Fazla İstek
- 503 Hizmet Kullanılamıyor
En iyi blogları okuyun @ ENGELLİ WEB SİTELERİ PROXY İLE NASIL AÇILIR?
Hızlı Linkler:
-
[Güncellendi] 11 En İyi Ucuz Özel Proxy Sunucusu Listesi (Her biri 2024 ABD Doları)
-
(Güncellendi) En İyi SOCKS Proxy'lerinin Listesi @4.99$'dan Başlıyor | 3 Günlük Deneme 2024
-
[GÜNCELLENDİ] Özel Proxy Sunucusunu Kolayca Kurmak İçin En İyi Kesin Kılavuz 2024
-
[Son] Kiralama İçin En İyi Proxy Satın Alın 2024: Ayda 0.50 ABD Dolarından Başlar. ( Acele etmek)
Sonuç: B'nin Kanıtlanmış Yollarıypass Kazıma Önleme Teknikleri
için kazıma önleme tekniklerini atlayın, temel kural sabit kalır, yani hedef web sitesine iyi davranın ve proxy sunucusu. Sunucusunun işleyemeyeceği isteklerle aşırı yüklemeyin. Engellenmek yerine verileri taramak ve verimli bir şekilde toplamak için kararlı ve sağlam bir mekanizma/örümcek oluşturun. Bu noktalar, kendi çözümünüzü oluşturmanıza yardımcı olacaktır. anti-kazıma.
İlgili verileri elde etmek için kazıma önleyici siteleri atlamak için birçok teknik kullanan bir veri bilimcisi, pazarlamacı veya yayıncı mısınız? Botlarla ilgili deneyiminizden bahseder misiniz?