9년 스크래핑 방지 기술을 우회하는 2024가지 입증된 방법

웹 스크래핑 대량의 데이터를 검색하여 시스템에 저장하는 기술입니다. 일부 웹사이트에서는 권장하지 않습니다. 웹 스크래핑. 이러한 웹사이트는 여전히 스크레이핑될 수 있지만 스크레이핑되는 웹사이트에 해로운 영향을 미치지 않도록 책임감 있게 수행되어야 합니다. 웹 크롤러는 빠르고 심층적으로 데이터를 검색할 수 있으므로 대상 웹사이트를 '관리'하는 것이 중요합니다.

 대부분의 웹사이트에는 긁힘 방지 기술 일반 사용자가 웹 사이트에 액세스하는 데 방해가 되기 때문입니다. 하지만 데이터가 공개적으로 액세스되는 것을 원하지 않기 때문에 여전히 스크래핑을 차단하는 일부 사이트가 있습니다.

이 기사에서는 웹 사이트에서 인간의 상호 작용이 아니라 거미의 상호 작용이라는 사실을 웹 사이트가 어떻게 알 수 있는지와 이러한 장벽을 극복하는 방법에 대해 설명합니다.

웹사이트는 웹 스크래핑을 어떻게 감지할 수 있나요?

웹사이트에서 검색 엔진 봇이 작동하는지 감지할 수 있는 메커니즘이 있습니다. 일부 메커니즘은 다음과 같습니다.

  1.       단일 클라이언트에서 비정상적인 트래픽이나 높은 다운로드 속도 또는 IP 주소 제한된 시간 안에.
  2.       웹사이트에서 사람이 수행하지 않은 반복적인 작업을 감지합니다. 인간은 항상 동일한 작업을 수행하지 않습니다.
  3.       일반적으로 일반 사용자에게는 보이지 않는 탐지를 위해 허니팟을 사용합니다.

9년에 스크래핑 방지 기술을 우회하는 2024가지 입증된 방법 목록

감지를 극복하고 스크래핑 방지 기술을 우회하려면 다음 방법을 따르십시오.

1) robots.txt 파일 준수

웹사이트 소유자는 자신의 웹사이트가 크롤링/스크래핑되도록 허용할지 여부를 결정할 권리가 있습니다. 일부 웹사이트에서는 봇의 스크레이핑을 허용하지 않으며 다른 웹사이트에서는 해당 웹사이트의 스크레이핑을 허용합니다. 웹 스파이더는 스크래핑하는 동안 웹사이트의 robots.txt 파일에 달라붙어야 합니다. 이 파일에는 준수해야 할 일련의 규칙이 있습니다. 얼마나 자주 긁을 수 있는지, 어떤 페이지를 긁을 수 있는지에 대해 알아보세요. 

스크래핑 방지 기술 우회 - 웹

Robots.txt 파일은 웹사이트 URL에서 찾을 수 있습니다.

아래에 표시된 것과 같은 줄이 포함되어 있으면 사이트가 마음에 들지 않고 스크랩되기를 원한다는 의미입니다.

사용자 에이전트 : *

허용하지 않음:/ 

대부분의 웹사이트는 웹사이트의 가장 큰 스크래퍼인 Google에 나열되기를 원하므로 소유자는 크롤러가 웹사이트에 액세스할 수 있도록 허용합니다. 

2) 천천히 스크롤하는 것이 도움이 됩니다.

봇을 사용하는 경우 봇은 30초 이내에 요청을 하는 것처럼 매우 빠르게 데이터를 가져오고 스크랩합니다. 인간에게는 특이한 일입니다. 따라서 웹사이트에서 스크레이퍼가 작동 중인지 쉽게 감지할 수 있습니다. 빠른 스크래핑은 웹 사이트가 너무 많은 요청을 받아 웹 사이트가 응답하지 않게 만드는 것을 의미합니다.

거미를 실제처럼 보이게 하려면 인간의 행동을 모방해 보세요. 

예를 들어, 요청 사이에 임의의 프로그래밍 방식 수면 호출을 추가하거나 특정 수의 페이지를 크롤링한 후 약간의 지연을 두십시오. 기본적으로 귀하가 스크래핑하는 웹사이트는 좋은 취급을 받아야 하며 많은 부하를 주지 않아야 합니다.

웹 사이트를 너무 많이 로드하는 경우 크롤링 속도를 자동으로 조절하는 데 사용할 수 있는 자동 조절 메커니즘이 있습니다. 웹사이트 환경도 시간이 지남에 따라 변화합니다. 따라서 몇 번의 트레일을 실행한 후 봇을 최적의 크롤링 속도로 조정하십시오.

3) 스크롤 패턴 변경

인간은 작업에 변화를 가져오는 경향이 있으며 반복적으로 작업을 수행하지 않습니다. 스크래핑하는 동안 무작위 동작을 보여줍니다. 반면에 봇은 크롤링하도록 프로그래밍되어 있기 때문에 동일한 크롤링 패턴을 갖습니다. 프로그래밍되지 않는 한 패턴을 변경하지 않습니다.

웹사이트에는 크롤링 방지 봇이 스크래핑에 관여하고 있는지 또는 인간이 스크래핑을 수행하고 있는지 쉽게 감지할 수 있는 메커니즘입니다. 따라서 거미를 인간처럼 보이게 만드는 프로그램이나 마우스 움직임에 무작위 클릭을 추가하십시오. 크롤링 패턴을 변경하는 것이 효율적입니다. 긁힘 방지 기술. 

4) IP 및 프록시 교체

동일한 IP 주소를 사용하여 여러 요청을 보내면 당신의 IP 주소를 차단. 스크랩하는 동안 귀하의 IP 주소를 볼 수 있습니다. 웹사이트는 귀하가 무엇을 하고 있는지 쉽게 알 수 있습니다. 이를 방지하려면 여러 IP 주소를 사용하세요. ㅏ 프록시 서버로부터의 요청 감지하기 어렵습니다. 무작위로 사용 IP 주소 IP 풀의 각 요청에 대해.

IP 주소를 사용한 안티 스크래핑

나가는 IP를 변경하는 방법에는 여러 가지가 있습니다. VPN, 공유 프록시 또는 TOR가 최선의 방법입니다. 또한 자동 IP 순환 서비스를 제공하는 상용 공급자도 있습니다. 이 기술은 또한 다양한 종료 지점에 부하를 분산시킵니다.

이는 웹사이트에서도 잘 알려진 기술이기 때문에 AWS와 같이 대량으로 사용되는 IP 범위를 차단했습니다.

5) 사용자 에이전트 교체

사용자 에이전트는 어떤 웹 브라우저가 사용되고 있는지 서버에 알려주는 도구입니다. 사용자 에이전트를 설정하지 않은 경우 웹사이트에서는 해당 콘텐츠를 볼 수 없습니다. 사용자 에이전트를 확인하려면 "Google 검색창에 내 사용자 에이전트가 무엇인가요?"라고 입력하면 됩니다.

다음에서 사용자 문자열을 확인할 수도 있습니다. WhatsMyUserAgent.

브라우저에서 오는 모든 요청에는 봇 탐지로 이어지는 사용자 에이전트 헤더가 포함되어 있습니다. 따라서 사용자 에이전트를 실제처럼 보이게 만들고 탐지를 피하려면 사용자 에이전트를 가짜로 만드는 것입니다.

사용자 에이전트를 스푸핑하려면:

사용자 에이전트 목록을 만들고 각 요청에 대해 차단되지 않도록 임의의 사용자 에이전트를 선택하세요. 사용자 에이전트를 기본 사용자 에이전트 대신 일반 웹 브라우저로 설정하십시오.

기본 사용자 에이전트(예: wget/version 또는 urllib/version)를 사용하는 대신 사용자 에이전트를 일반 웹 브라우저로 설정하십시오. 당신은 심지어 Google 봇인 척: Googlebot/2.1 재미있게 즐기고 싶다면!

6) 웹사이트의 레이아웃 변경에 주의하세요

일부 웹사이트는 동적 레이아웃을 갖고 있고 계속 변경하여 까다롭거나 스크레이퍼로 만듭니다. 예를 들어 처음 20페이지는 특정 형식을 가지며 나머지 페이지에는 레이아웃이 변경될 수 있습니다.

이러한 웹사이트에서 데이터를 긁어내려면 XPath 또는 CSS 선택기를 사용하세요. 데이터 마이닝. 이를 사용하지 않는 경우 레이아웃의 차이를 확인하고 해당 페이지를 다르게 긁는 코드에 조건을 추가하세요.

7) 헤드리스 브라우저를 사용하세요

웹사이트는 사용 중인 브라우저에 따라 다른 콘텐츠를 표시합니다. 예를 들어, Google 검색 결과에서 브라우저에 고급 기능이 있는 경우 "풍부한" 콘텐츠가 표시될 수 있습니다. 이는 콘텐츠가 동적이고 스타일이 지정되며 Javascript 및 CSS에 크게 의존한다는 의미입니다.

문제는 어떤 종류의 작업을 수행할 때 데이터 마이닝, 콘텐츠는 서버가 전달하는 원시 HTML 응답이 아닌 JS 코드에 의해 렌더링됩니다.

이러한 경우 헤드리스 브라우저를 사용하여 차단을 방지할 수 있습니다. 헤드리스 브라우저는 데스크탑에서 시각적이지 않음을 의미합니다. 따라서 그래픽 인터페이스가 없습니다. 이는 그래픽 인터페이스가 없음을 의미합니다. 요소와 상호 작용하는 대신 명령줄 인터페이스를 사용하여 모든 것을 자동화할 수 있습니다. 이렇게 하면 탐지되지 않은 상태를 유지하는 데 도움이 될 수 있습니다. 웹스크래핑.

8) 허니팟 함정으로부터 자신을 보호하세요

웹사이트는 해킹 방지를 위해 최선의 주의를 기울이고 있습니다. 그들은 해킹을 유인하고 웹사이트에 해킹 시도가 있는지 감지하기 위해 허니팟을 설정했습니다. 일반적으로 실제 시스템의 동작을 모방하는 애플리케이션입니다. 예를 들어, 일부 웹사이트는 일반 사용자에게는 보이지 않지만 다음을 통해 액세스할 수 있는 허니팟 링크를 설치합니다. 웹 스크레이퍼 로 작성되어야 합니다.

이 함정에 빠지지 않으려면 열려는 링크의 가시성이 적절하고 nofollow 태그가 있는지 확인하세요. 링크를 따라갈 때 nofollow 태그 없이 링크가 제대로 표시되는지 항상 주의하세요. 스파이더를 탐지하기 위한 일부 허니팟 링크는 CSS 스타일 display:none을 갖거나 페이지의 배경색과 조화를 이루도록 색상을 위장합니다.

이 탐지는 분명히 쉽지 않으며 적절하게 수행하려면 상당한 양의 프로그래밍 작업이 필요합니다. 결과적으로 이 기술은 서버 측, 봇 또는 스크레이퍼 측 어느 쪽에서도 널리 사용되지 않습니다.

9) 로그인 뒤 긁기

로그인 권한을 허용하지 않는 웹사이트가 몇 군데 있습니다. 예를 들어 Facebook과 인디드가 있습니다.

로그인 보호 페이지에는 페이지 액세스를 요청할 때마다 추가 정보나 쿠키가 필요합니다. 이를 통해 대상 웹사이트에서 다음으로부터 오는 요청을 볼 수 있는 기회가 제공됩니다. 프록시 서버 따라서 귀하의 계정을 차단하십시오.

따라서 로그인 정보가 있는 웹사이트는 쉽게 차단될 수 있으므로 스크래핑을 피하는 것이 좋습니다. 이러한 웹사이트를 스크랩하려면 인증이 필요할 때 인간 브라우저를 모방하여 타겟 데이터를 얻을 수 있습니다.

웹 스크래핑 감지를 해결하는 방법은 무엇입니까?

거미를 만들 때 시간을 들여 무엇이 무엇인지 조사하십시오. 긁힘 방지 메커니즘은 웹사이트 사용자이며 이에 따라 스파이더를 프로그래밍합니다. 이는 더 나은 데이터 결과로 이어지고 장기적으로 강력한 스파이더를 구축할 것입니다. 

웹사이트가 귀하를 차단했는지 어떻게 알 수 있나요?

크롤링하는 동안 웹사이트에서 다음 알람을 찾아보세요. 그 중 하나라도 보이면 금지되거나 차단되었다는 표시입니다.

-          보안 문자 페이지

-          비정상적인 콘텐츠 전달 지연

-          HTTP 404, 301 또는 503 오류에 대한 빈번한 응답

또한 이러한 HTTP 코드가 나타나면 자신이 차단된 것으로 간주하십시오.

-          301 일시 이동

-          무단 401

-          금지 403

-          404을 찾을 수 없습니다

-          408 요청 시간 초과

-          429 너무 많은 요청  

-          503 서비스를 사용할 수 없음

최고의 블로그 읽기 @ 프록시로 차단된 웹사이트를 여는 방법은 무엇입니까?

빠른 링크:

결론: B로 가는 입증된 방법ypass 긁힘 방지 기술

긁힘 방지 기술 우회, 기본 규칙은 일정하게 유지됩니다. 즉, 대상 웹사이트에 친절하고 프록시 서버. 서버가 처리할 수 없는 요청으로 과부하를 주지 마십시오. 차단되지 않고 효율적으로 데이터를 크롤링하고 수집할 수 있는 안정적이고 강력한 메커니즘/스파이더를 구축하세요. 이러한 점은 다음을 향한 자신만의 솔루션을 구축하는 데 도움이 될 것입니다. 긁힘 방지.

관련 데이터를 얻기 위해 스크래핑 방지 사이트를 우회하기 위해 많은 기술을 사용하는 데이터 과학자, 마케팅 담당자 또는 게시자이신가요? 봇에 대한 귀하의 경험에 대해 알려주십시오.

 

 

지텐드라 바스와니
이 작성자는 BloggersIdeas.com에서 확인되었습니다.

Jitendra Vaswani는 디지털 마케팅 실무자이자 전 세계를 여행하면서 디지털 유목민 라이프스타일을 수용한 유명한 국제 기조 연설자입니다. 그는 두 개의 성공적인 웹사이트를 설립했습니다. BloggerIdeas.com & 디지털 마케팅 대행사 DigiExe 그 중 그의 성공 사례는 "Inside A Hustler's Brain: In Pursuit of Financial Freedom"(전 세계적으로 20,000부 판매)을 집필하고 "Growth Hacking Book 2의 국제 베스트셀러 작가"에 기고하는 것으로 확대되었습니다. Jitendra는 대륙 전체에 걸쳐 디지털 마케팅 분야의 10000명 이상의 전문가를 위한 워크숍을 설계했습니다. 궁극적으로 사람들이 온라인에서 꿈의 비즈니스를 구축할 수 있도록 지원함으로써 영향력 있는 변화를 창출하려는 의도를 갖고 있습니다. Jitendra Vaswani는 다음을 포함하는 인상적인 포트폴리오를 갖춘 강력한 투자자입니다. 이미지스테이션. 그의 투자에 대해 더 자세히 알아보려면 다음에서 그를 찾아보세요. 링크드 인, 트위터, & 페이스북.

제휴사 공개: 완전한 투명성 - 당사 웹사이트의 일부 링크는 제휴사 링크입니다. 귀하가 이를 사용하여 구매하면 추가 비용 없이 커미션을 받을 수 있습니다(아무것도 없습니다!).

코멘트 남김