9 cách đã được chứng minh để vượt qua các kỹ thuật chống phế liệu [2024]

rút trích nội dung trang web là một kỹ thuật để lấy một lượng lớn dữ liệu và lưu trữ trong hệ thống của bạn. Một số trang web không khuyến khích rút trích nội dung trang web. Những trang web như vậy vẫn có thể bị loại bỏ, nhưng có trách nhiệm để nó không gây ảnh hưởng bất lợi đến trang web bị loại bỏ. Trình thu thập dữ liệu web có thể truy xuất dữ liệu nhanh chóng và chuyên sâu, do đó, điều quan trọng là phải 'chăm sóc' trang web mục tiêu.

Hầu hết các trang web có thể không có kỹ thuật chống cạo bởi vì điều đó sẽ cản trở người dùng bình thường truy cập vào trang web. Mặc dù vậy, có một số trang web vẫn chặn việc thu thập dữ liệu vì họ không muốn dữ liệu của họ bị truy cập một cách công khai.

Bài viết này nói về cách các trang web biết rằng nó là một con nhện chứ không phải sự tương tác của con người trên các trang web và cách để vượt qua những rào cản đó.

Làm cách nào để các trang web có thể phát hiện việc cạo trang web?

Có các cơ chế cho phép các trang web phát hiện các bot của công cụ tìm kiếm đang hoạt động. Một số cơ chế là:

Lưu lượng truy cập bất thường hoặc tỷ lệ tải xuống cao từ một ứng dụng khách hoặc Địa chỉ IP trong một thời gian giới hạn.
Phát hiện các tác vụ lặp đi lặp lại trên trang web không phải do con người thực hiện. Một con người sẽ không thực hiện các nhiệm vụ giống nhau mọi lúc.
Sử dụng honeypots để phát hiện mà người dùng bình thường thường không nhìn thấy được.

Mục lục

Danh sách 9 cách đã được chứng minh để vượt qua các kỹ thuật chống phế liệu vào năm 2024

Để vượt qua sự phát hiện và bỏ qua các kỹ thuật chống cạo, hãy làm theo các phương pháp sau:

1) Tuân thủ các tệp robots.txt

Chủ sở hữu của một trang web có quyền quyết định liệu trang web của họ có được phép thu thập thông tin / cóp nhặt hay không. Một số trang web không cho phép bot cạo và cho phép các trang web khác cạo trang web của họ. Trình thu thập dữ liệu web sẽ dính vào tệp robot.txt cho một trang web trong khi rà soát. Tệp này có một bộ quy tắc mà bạn nên tôn trọng; về tần suất bạn có thể cạo và những trang nào bạn có thể cạo.

Bạn có thể tìm thấy tệp Robots.txt trên URL của trang web.

Nếu nó chứa những dòng giống như những dòng hiển thị bên dưới, điều đó có nghĩa là trang web đó không thích và muốn bị loại bỏ.

User-agent: *

Không cho phép: /

Vì hầu hết các trang web muốn được liệt kê trên Google, công cụ tìm kiếm trang web lớn nhất, chủ sở hữu cho phép trình thu thập thông tin truy cập các trang web.

2) Trợ giúp nguệch ngoạc chậm

Nếu bạn đang sử dụng bot, chúng tìm nạp và quét dữ liệu rất nhanh, nhanh như đặt yêu cầu trong vòng 30 giây; đó là điều bất thường đối với một con người. Vì vậy, rất dễ dàng cho một trang web phát hiện ra rằng một máy quét đang hoạt động. Rao vặt nhanh có nghĩa là một trang web nhận được quá nhiều yêu cầu và làm cho trang web không phản hồi.

Để làm cho con nhện của bạn trông giống như thật, hãy cố gắng bắt chước hành vi của con người.

Ví dụ, thêm một số lệnh gọi ngủ có lập trình ngẫu nhiên giữa các yêu cầu hoặc đặt một số thời gian trễ sau khi thu thập thông tin một số trang cụ thể. Về cơ bản, trang web bạn đang cạo phải được đối xử tốt và không đặt nặng lên nó.

Có các cơ chế ga tự động có thể được sử dụng để tự động điều chỉnh tốc độ thu thập thông tin nếu bạn đang tải trang web quá nhiều. Môi trường trang web cũng thay đổi theo thời gian. Vì vậy, hãy điều chỉnh bot đến tốc độ thu thập thông tin tối ưu sau khi chạy một vài đoạn đường.

3) Thay đổi mẫu vẽ nguệch ngoạc

Con người có xu hướng đưa ra một sự thay đổi trong nhiệm vụ và không làm nó lặp đi lặp lại. Họ hiển thị các hành động ngẫu nhiên trong khi cạo. Mặt khác, các bot có cùng kiểu thu thập thông tin vì chúng được lập trình để làm như vậy. Chúng không thay đổi mẫu trừ khi được lập trình để làm như vậy.

Các trang web có chống bò các cơ chế có thể dễ dàng phát hiện ra rằng một bot đang tham gia vào việc cạo hoặc một con người đang làm như vậy. Do đó, hãy kết hợp một số cú nhấp chuột ngẫu nhiên trong chương trình hoặc chuyển động của chuột để làm cho con nhện trông giống như con người. Thực hiện các thay đổi trong mô hình thu thập thông tin là một cách hiệu quả kỹ thuật chống nạo.

Kiểm tra các proxy Lime tốc độ cao ngay bây giờ

4) Xoay vòng IP và proxy

Sử dụng cùng một địa chỉ IP để gửi nhiều yêu cầu sẽ chặn địa chỉ IP của bạn. Địa chỉ IP của bạn có thể được nhìn thấy trong khi cạo. Một trang web sẽ dễ dàng biết bạn đang làm gì. Để ngăn chặn điều này, hãy sử dụng nhiều địa chỉ IP. MỘT yêu cầu từ một máy chủ proxy rất khó bị phát hiện. Sử dụng ngẫu nhiên Địa chỉ IP cho mỗi yêu cầu từ một nhóm các IP.

Có rất nhiều cách để thay đổi IP gửi đi của bạn. VPN, proxy dùng chung hoặc TOR là những cách tốt nhất có thể. Ngoài ra, có những nhà cung cấp thương mại cung cấp dịch vụ xoay vòng IP tự động. Kỹ thuật này cũng phân phối tải qua các điểm thoát khác nhau.

Vì đây là một kỹ thuật nổi tiếng đối với các trang web, họ đã chặn một số dải IP được sử dụng rộng rãi như AWS.

[Mới nhất] Proxy IP khu dân cư tốt nhất cho Craigslist Scraping 2024 @ 0.05 đô la

5) Xoay vòng tác nhân người dùng

Tác nhân người dùng là một công cụ cho máy chủ biết trình duyệt web nào đang được sử dụng. Nếu bạn chưa thiết lập tác nhân người dùng, các trang web sẽ không cho phép bạn xem nội dung của họ. Để biết tác nhân người dùng của mình, bạn có thể chỉ cần nhập “tác nhân người dùng của tôi là gì vào thanh tìm kiếm của Google”.

Bạn cũng có thể kiểm tra chuỗi người dùng của mình tại WhatsMyUserAgent.

Mọi yêu cầu đến từ trình duyệt đều chứa tiêu đề tác nhân người dùng dẫn đến việc phát hiện bot. Vì vậy, để làm cho tác nhân người dùng có vẻ như thật và thoát khỏi sự phát hiện là giả mạo tác nhân người dùng.

Để giả mạo tác nhân người dùng:

Tạo danh sách tác nhân người dùng và đối với mỗi yêu cầu, chọn một tác nhân người dùng ngẫu nhiên để bạn không bị chặn. Đặt tác nhân người dùng của bạn thành một trình duyệt web chung thay vì tác nhân người dùng mặc định.

Đặt tác nhân người dùng của bạn thành một trình duyệt web chung thay vì sử dụng tác nhân người dùng mặc định (chẳng hạn như wget / version hoặc urllib / version). Bạn thậm chí có thể giả làm Google Bot: Googlebot / 2.1 nếu bạn muốn giải trí!

6) Coi chừng các trang web thay đổi bố cục

Một số trang web có bố cục động và liên tục thay đổi, làm cho nó trở nên phức tạp hoặc dễ bị cắt. Ví dụ: 20 trang đầu tiên sẽ có một định dạng cụ thể và phần còn lại của chúng có thể có sự thay đổi trong bố cục.

Để loại bỏ dữ liệu từ các trang web như vậy, hãy sử dụng bộ chọn XPaths hoặc CSS cho khai thác dữ liệu. Nếu bạn không sử dụng các trang này, hãy kiểm tra sự khác biệt về bố cục và thêm một điều kiện vào mã của bạn để loại bỏ các trang đó theo cách khác nhau.

7) Sử dụng trình duyệt không có đầu

Các trang web hiển thị nội dung khác nhau tùy thuộc vào trình duyệt đang được sử dụng. Ví dụ: trong kết quả tìm kiếm của Google, nếu trình duyệt có các tính năng nâng cao, trình duyệt có thể hiển thị nội dung “phong phú” có nghĩa là nội dung sẽ động và có kiểu dáng và phụ thuộc nhiều vào Javascript và CSS.

Vấn đề với điều này là khi thực hiện bất kỳ loại khai thác dữ liệu, nội dung được hiển thị bởi mã JS chứ không phải phản hồi HTML thô mà máy chủ phân phối.

Trong trường hợp này, có thể ngăn chặn việc chặn bằng trình duyệt không có đầu. Trình duyệt không có đầu có nghĩa là chúng không hiển thị trên máy tính để bàn. Vì vậy, không có giao diện đồ họa. Điều này có nghĩa là không có giao diện đồ họa. Thay vì tương tác với một phần tử, bạn có thể tự động hóa mọi thứ bằng giao diện dòng lệnh. Điều này có thể giúp bạn không bị phát hiện trong khi rút trích nội dung trang web.

Kiểm tra các proxy Lime tốc độ cao ngay bây giờ

8) Bảo vệ bạn khỏi bẫy mật ong

Các trang web thực hiện hết sức cẩn thận để ngăn chặn việc tấn công. Họ thiết lập honeypots để thu hút hack và phát hiện xem có bất kỳ nỗ lực hack nào trên trang web hay không. Nó thường là một ứng dụng bắt chước hành vi của một hệ thống thực. Ví dụ: một số trang web cài đặt các liên kết honeypot không hiển thị đối với người dùng bình thường nhưng có thể được truy cập bằng công cụ tìm kiếm web chỉ

Để tránh mắc vào cái bẫy này, hãy đảm bảo rằng liên kết bạn đang mở có khả năng hiển thị phù hợp và thẻ nofollow. Khi theo dõi các liên kết, hãy luôn cẩn thận để liên kết có khả năng hiển thị thích hợp và không có thẻ nofollow. Một số liên kết honeypot để phát hiện nhện sẽ hiển thị kiểu CSS: không có hoặc sẽ được ngụy trang bằng màu sắc để hòa hợp với màu nền của trang.

Việc phát hiện này rõ ràng là không dễ dàng và đòi hỏi một lượng lớn công việc lập trình để hoàn thành đúng cách, do đó, kỹ thuật này không được sử dụng rộng rãi ở cả hai phía - phía máy chủ hoặc phía bot hoặc máy quét.

9) Gỡ bỏ phía sau đăng nhập

Có một vài trang web không cho phép đăng nhập. Ví dụ Facebook và Indeed.

Các trang được bảo vệ khi đăng nhập yêu cầu thêm một số thông tin hoặc cookie với mỗi yêu cầu truy cập trang. Điều này tạo cơ hội cho một trang web mục tiêu xem các yêu cầu đến từ các máy chủ proxy và do đó khóa tài khoản của bạn.

Vì vậy, bạn nên tránh cạo các trang web có đăng nhập vì bạn sẽ dễ bị chặn. Để quét các trang web như vậy, bạn có thể bắt chước trình duyệt của con người khi cần xác thực để bạn có thể lấy dữ liệu được nhắm mục tiêu.

Làm thế nào để giải quyết việc phát hiện Web Scraping?

Khi xây dựng một con nhện, hãy dành một chút thời gian để tìm hiểu xem chống cạo cơ chế là người dùng trang web và sau đó lập trình con nhện của bạn cho phù hợp. Điều này sẽ dẫn đến kết quả dữ liệu tốt hơn và xây dựng một mạng nhện mạnh mẽ về lâu dài.

Làm thế nào để bạn tìm ra nếu một trang web đã chặn bạn?

Tìm các cảnh báo sau trên một trang web trong khi thu thập thông tin. Nếu bạn nhìn thấy bất kỳ cái nào trong số chúng, chúng là những dấu hiệu cho thấy bạn đang bị cấm hoặc bị chặn.

– Các trang CAPTCHA

– Sự chậm trễ phân phối nội dung bất thường

– Phản hồi thường xuyên với lỗi HTTP 404, 301 hoặc 503

Ngoài ra, nếu các mã HTTP này xuất hiện, hãy coi như bạn đã bị chặn.

– 301 đã chuyển tạm thời

– 401 trái phép

– Forbidden 403

– 404 Không tìm thấy

– 408 Thời gian yêu cầu hết giờ

– 429 quá nhiều yêu cầu

– 503 Service Unavailable

Đọc các blog tốt nhất @ LÀM THẾ NÀO ĐỂ MỞ CÁC TRANG WEB BỊ CHẶN BẰNG PROXY?

Kiểm tra các proxy Lime tốc độ cao ngay bây giờ

Liên kết nhanh:

Kết luận: Các cách đã được chứng minh để BKỹ thuật chống cạo ypass

Đến bỏ qua các kỹ thuật chống cạo, quy tắc cơ bản không đổi, tức là hãy tốt với trang web mục tiêu và sử dụng máy chủ proxy. Đừng làm quá tải nó với các yêu cầu mà máy chủ của nó không thể xử lý. Xây dựng một cơ chế / trình thu thập dữ liệu ổn định và mạnh mẽ để thu thập dữ liệu và thu thập dữ liệu hiệu quả hơn là bị chặn. Những điểm này sẽ giúp bạn xây dựng giải pháp của riêng mình hướng tới chống xây xát.

Bạn có phải là nhà khoa học dữ liệu, nhà tiếp thị hay nhà xuất bản, người sử dụng nhiều kỹ thuật để vượt qua các trang web chống thu thập dữ liệu để lấy dữ liệu có liên quan không? Hãy cho chúng tôi biết trải nghiệm của bạn với bot?