어두운 proxyscrape 로고

리드 생성을 위한 웹 스크래핑: 손끝에서 수천 개의 잠재 고객 확보하기

스크래핑, 3월-05-20215분 읽기

Why Lead Generation Matters Lead generation is an essential part of growing your business. If your sales team doesn’t have leads to approach, they can’t do their job. Cold-calling prospects is rarely effective, especially for brands that sell higher-value products where there’s some friction to the idea of making a purchase. Every Sale Started as

목차

리드 생성이 중요한 이유

리드 생성은 비즈니스 성장에 있어 필수적인 부분입니다. 영업팀이 접근해야 할 잠재고객이 없으면 업무를 제대로 수행할 수 없습니다. 특히 고가의 제품을 판매하는 브랜드의 경우, 구매에 대한 거부감이 있는 잠재 고객에게 콜드 콜을 하는 것은 거의 효과적이지 않습니다.

모든 판매는 리드로 시작됩니다.

매출은 리드에서 발생합니다. 기술 콘텐츠 마케팅: 콘텐츠 마케팅 연구소와 마케팅 전문가들이 작성한 벤치마크, 예산 및 트렌드 보고서에 따르면 기술 마케터의 77%가 마케팅 자격을 갖춘 리드를 사용하여 판매를 촉진한다고 합니다(2019년의 64%에서 증가).

적격 리드는 이미 제품이나 서비스에 관심을 표명한 사람(또는 기업)이므로 전환하기가 더 쉽습니다. 타겟 고객을 식별하고 이들에게 마케팅 활동을 집중하면 영업팀의 시간과 에너지를 절약하여 가장 우수한 잠재 고객에게 집중할 수 있습니다.

손끝으로 누리는 웹의 힘

오늘날 리드 생성은 그 어느 때보다 쉬워졌습니다. 즉각적인 커뮤니케이션, 고도로 타겟팅된 소셜 미디어 마케팅 옵션, 상상할 수 있는 거의 모든 정보가 포함된 데이터베이스에 대한 액세스는 소규모 비즈니스 소유자가 마음먹은 대로 무엇이든 달성할 수 있는 힘을 의미합니다.

과거에는 특정 타겟 고객에게 도달하려면 마케팅 회사에 막대한 비용을 지불하고 데이터베이스에 있는 기업들에게 전단지를 보내야 했습니다.

지금은 그럴 필요가 없습니다. 미국 동부 해안의 멕시코 레스토랑이나 해당 주의 초중고 학교 목록을 찾고 싶다면 온라인에서 찾을 수 있습니다. B2B 분야에서 활동하는 기업은 잠재 고객 데이터베이스를 빠르고 쉽게 구축한 다음, 해당 목록을 필터링하여 맞춤형 마케팅 메시지를 보낼 수 있습니다.

비교적 작은 지역을 타겟팅하는 B2B 기업의 경우 간단한 웹 검색만으로도 잠재 고객 목록을 찾을 수 있습니다. 하지만 주 전체 또는 전국에 있는 기업을 대상으로 하는 경우 모든 데이터를 수동으로 수집하려면 시간이 많이 소요될 수 있습니다.

웹 스크래핑은 필요한 데이터를 자동으로 수집하여 여러분과 마케팅 팀의 시간과 비용을 크게 절약할 수 있습니다.

웹 스크래핑이란 무엇인가요?

웹 스크래핑은 웹사이트 또는 여러 웹사이트에서 데이터를 추출하는 자동화된 기술로, 다른 애플리케이션에서 데이터를 사용할 수 있습니다. 예를 들어, Yelp나 트립어드바이저에 등록된 모든 지역 레스토랑을 일일이 방문하는 대신 해당 지역의 레스토랑 이름과 주소 목록을 작성하고 싶다고 가정해 보겠습니다. 이 경우 웹 스크레이퍼를 사용하여 해당 페이지를 살펴보고 세부 정보를 추출하여 메일 발송에 사용할 수 있는 목록을 만들 수 있습니다.

웹 스크래핑은 마케팅 목록을 작성할 때 많은 시간과 노력을 절약할 수 있습니다. 또한 적절한 도구나 프로그래밍 노하우만 있다면 의외로 쉽게 할 수 있습니다.

웹 스크레이퍼는 어떻게 작동하나요?

웹 스크래퍼는 데이터를 추출하려는 페이지를 로드한 다음 페이지를 읽어 찾고자 하는 정보 유형을 찾아내는 방식으로 작동합니다. 그 정보는 다음과 같을 수 있습니다:

  • 회사 이름
  • 전화 번호
  • 이메일 주소
  • 우편 주소
  • 웹사이트 주소

웹 스크래퍼는 페이지를 다운로드할 때 소스 코드를 읽어 패턴을 찾습니다. 데이터를 가져오는 사이트에 따라 단순히 전화번호의 123-456-78901 패턴이나 이메일 주소의 [email protected] 형식과 일치하는 것을 찾을 수도 있습니다.

또는 스크래퍼 개발자가 특정 디렉토리 웹사이트에서 연락처 세부 정보가 HTML의 특정 태그 집합으로 둘러싸여 있다는 사실을 알고 스크래퍼가 해당 태그 사이에서 정보를 추출하도록 할 수도 있습니다.

일부 스크래퍼 소프트웨어는 최종 사용자가 구성할 수 있으므로 거의 모든 웹사이트를 이해하도록 학습시킬 수 있습니다.

스크레이퍼 사용의 어려움

스크레이퍼 소프트웨어 사용의 한 가지 문제점은 EU의 GDPR과 같은 규정으로 인해 사용자가 수집하는 데이터와 그 사용 방법에 매우 주의를 기울여야 한다는 것입니다. GDPR에 따라 조직은 개인에 관한 데이터를 보유하거나 처리하기 위해 해당 개인의 허가를 받아야 합니다.

일부 웹사이트는 웹 스크레이퍼를 차단하여 사용자의 개인정보를 보호하고 자체 서버 리소스를 보호하려고 시도합니다. 클라이언트 소프트웨어가 반환하는 '사용자 에이전트'를 확인하고 특정 IP 주소에서 오는 페이지의 요청 수를 제한하는 등 여러 가지 옵션이 있습니다.

스크레이퍼를 효과적으로 사용하려면 해당 국가의 마케팅 관련 규정을 이해하고, 수집한 데이터를 책임감 있게 처리하며, 선택한 출처에서 해당 사이트에서 금지되지 않는 효율적이고 비파괴적인 방식으로 데이터를 수집하는 노하우를 확보해야 합니다.

예를 들어, ProxyScrape 에서 데이터 수집 목적으로 사용할 수 있는 주거용 프록시를 제공합니다. 이러한 프록시 사용을 고려하고 있다면 스크래퍼가 단기간에 대상 웹사이트에 과도한 수의 요청을 발행하지 않는지 확인하는 것이 좋습니다. 작업 중인 웹사이트에 해를 끼치지 않도록 책임감 있게 스크레이핑하세요.

양질의 리드를 위한 데이터 소스 선택하기

콘텐츠 스크래핑을 통해 비즈니스 소유자는 수집하기 어려운 방대한 양의 정보에 액세스할 수 있지만, 그 정보는 출처에 따라 유용성이 달라집니다.

스크래핑을 통해 데이터를 수집할 때 어려운 점 중 하나는 정보가 최신 상태인지 확인하는 것입니다. 웹에는 수천 개의 디렉토리가 있으며, 그 중 상당수는 제대로 큐레이션되지 않고 오래된 것입니다.

오래되고 품질이 낮은 출처에서 데이터를 수집하면 기껏해야 읽지도 않을 이메일에 시간을 낭비하게 됩니다. 최악의 경우, 더 이상 비즈니스에 속하지 않는 번호로 원치 않는 전화가 반복적으로 걸려와 불만을 제기당할 수도 있습니다.

그렇다면 수집한 데이터가 유용하게 활용될 가능성을 높이려면 어떻게 해야 할까요?

데이터 원본을 신중하게 선택

스크래핑 도구를 사용하여 데이터 수집을 시작하기 전에 수동으로 작업하려는 웹사이트를 조사하세요. 몇 가지 단서를 직접 수집하고 조사해 보세요.

비즈니스가 아직 운영 중인가요? 연락처 정보가 여전히 정확한가요? 디렉토리 소유자가 정보를 추가하기 전에 정보를 검토하는 것처럼 보이나요?

수동으로 수집한 리드의 절반이 죽었거나 오래되었거나 가짜일 가능성이 있다고 가정해 봅시다. 이 경우 해당 사이트를 스크랩하여 구축한 데이터베이스의 품질이 낮을 가능성이 높습니다.

트립어드바이저, 옐프, 포스퀘어와 같은 대형 디렉토리 사이트는 잘 알려지지 않은 소규모 디렉토리보다 훨씬 더 많은 사용자들이 업데이트하기 때문에 양질의 데이터를 보유할 가능성이 높습니다.

틈새 디렉토리는 모호한 관심 그룹이나 고도로 전문화된 유형의 회사를 대상으로 마케팅하려는 경우 가치가 있을 수 있지만, 수집한 정보를 마케팅 목적으로 사용하기 전에 많은 데이터 정리를 수행해야 합니다.

로그인이 필요한 사이트 고려하기

대부분의 경우 로그인이 필요한 사이트에서 데이터를 수집하면 훨씬 더 가치 있는 데이터를 얻을 수 있습니다. 예를 들어, 봇이 전송하는 요청 수를 합리적인 수준으로 유지하고 요청을 할 때 사이트에 로그인하는 경우 속도 제한기를 사용하여 LinkedIn과 Twitter를 스크랩할 수 있습니다.

또 다른 옵션은 간단한 HTTP 스크레이퍼 대신 API를 사용하여 인기 있는 매핑 서비스 중 하나에서 세부 정보를 수집하는 것입니다. 예를 들어 Google은 Google 지도에 포함된 조직에 대한 정보를 수집하는 데 사용할 수 있는 비즈니스 검색 API를 제공하지만 API에 액세스하기 전에 Google의 이용 약관을 준수하는 데 동의해야 합니다.

일반적으로 API를 사용할 수 있는 경우 웹 스크래핑을 사용하는 것보다 해당 API를 사용하여 데이터를 수집하는 것이 좋습니다. 웹사이트 소유자와 문제가 발생할 가능성이 훨씬 적고 API를 통해 전달된 데이터를 정리하기가 더 쉬워집니다.

쿼리를 올바르게 구성하기

컴퓨터 프로그래밍에는 "쓰레기는 들어오고 쓰레기는 나간다"는 말이 있는데, 이는 데이터 수집에 가장 확실하게 적용됩니다. 검색을 신중하게 구성해야 합니다.

예를 들어 뉴캐슬의 건축업자를 대상으로 마케팅하려는 경우, 영국에는 뉴캐슬이 여러 개 있으며 호주에도 뉴캐슬이 있다는 점을 잊지 마세요. 프록시를 통해 '뉴캐슬'을 검색하는 경우 대부분의 웹사이트는 프록시의 지리적 위치에서 가장 가까운 뉴캐슬을 보고 어떤 뉴캐슬을 의미하는지 추측하려고 합니다.

검색 범위를 최대한 좁혀서 도시, 주, 심지어 대상 웹사이트에서 허용하는 경우 국가 정보까지 제공하세요. 이렇게 하면 원하는 지역에서 수백 마일 떨어진 곳에 있는 조직의 연락처 정보로 가득 찬 데이터베이스가 표시되는 것을 피할 수 있습니다.

스크레이퍼 소프트웨어 옵션: 인기 도구

웹 스크래핑은 원하는 만큼 간단할 수도 있고 복잡할 수도 있습니다. 스크래핑을 처음 시도하는 경우, 정교한 소프트웨어에 많은 비용을 지출할 필요가 없습니다.

몇 가지 좋은 옵션은 다음과 같습니다:

  • 스크레이퍼
  • 프로웹스크레이퍼
  • 스크랩

스크레이퍼는 웹 페이지에서 데이터를 빠르고 쉽게 추출할 수 있는 웹 브라우저 확장 프로그램입니다. 단일 결과 페이지 또는 소수의 페이지에서 정보를 추출하려는 경우, 스크레이퍼는 간단하고 효과적인 방법이며 정교한 웹 크롤러보다 훨씬 쉽게 사용할 수 있습니다.

프로웹스크래퍼는 무료 버전과 프리미엄 버전이 있는 고급 도구입니다. 무료 도구는 최대 100페이지까지 스크래핑할 수 있으므로 소규모 틈새 비즈니스에는 충분합니다. 프로웹스크래퍼는 스크래핑 소프트웨어로 비교적 사용하기 쉬우며, 포인트 앤 클릭 인터페이스와 사전 설계된 규칙을 통해 기술적 측면에 자신이 없더라도 스크래핑을 설정할 수 있습니다.

프로웹스크래퍼는 이미지를 다운로드하고 JSON, CSV 또는 XML 덤프를 크레이트할 수 있습니다. 일정에 따라 사이트를 스크랩하도록 설정할 수도 있으므로 데이터를 수집하고 마케팅 기록을 업데이트할 수 있습니다.

스크랩은 무료 오픈 소스인 웹 스크래핑 프레임워크입니다. 이 도구는 기술적인 지식이 필요하지만 빠르고 유연하며 대량의 데이터를 스크랩하는 데 사용할 수 있습니다. 스크랩은 Linux, OS X, Windows 또는 BSD 컴퓨터나 웹 서버에서 실행할 수 있습니다.

IRC 채팅, Reddit, StackOverflow 등 활발한 스크랩 커뮤니티가 있습니다. 커뮤니티에서 조언을 구할 수 있고 커뮤니티에서 만든 확장 기능이나 모듈을 활용하여 개발자가 아니더라도 스크랩의 강력한 기능을 활용할 수 있습니다.

나만의 스크레이퍼 코딩하기

많은 데이터를 수집해야 하거나 정기적으로 스크래핑할 계획이라면 무료 도구와 GUI 기반 도구로는 사용 사례에 충분히 강력하지 않을 수 있습니다. 스크래퍼를 직접 코딩하거나 개발자를 고용하는 것도 좋은 방법입니다.

파이썬, 펄, 자바, R, PHP 등 널리 사용되는 언어로 스크레이퍼를 코딩하는 데 사용할 수 있는 몇 가지 무료 오픈 소스 프레임워크가 있습니다.

웹 스크래핑을 위한 가장 인기 있는 라이브러리 중 하나는 BeautifulSoup입니다. 이것은 HTML 또는 XML 파일에서 데이터를 빠르고 쉽게 추출할 수 있는 Python 스크래핑 도구입니다. 이 도구를 사용하려면 프로그래밍에 대한 약간의 지식이 필요하지만, 스크래핑의 많은 세부 작업을 대신 수행해 주므로 재작업을 하지 않아도 됩니다.

데이터를 추출한 후에는 CSV 파일로 내보내거나 Pandas와 같은 데이터 처리 라이브러리를 사용하여 다양한 형식으로 표시할 수 있습니다.

스크레이퍼 자체 코딩의 장단점

프로그래밍 지식이 있다면 스크레이퍼를 직접 코딩하는 것도 좋은 생각입니다. 무료 스크래핑 도구가 처리할 수 없는 비정상적인 웹 페이지에서 많은 양의 데이터를 추출해야 하는 경우에도 스크래퍼를 직접 코딩하는 것이 유용할 수 있습니다.

구체적이고 정교한 요구 사항이 있는 경우 스크레이퍼를 직접 코딩하거나 다른 사람에게 비용을 지불하는 것도 좋은 생각일 수 있습니다. 사용자 정의 코딩 스크레이퍼는 일반적인 도구보다 대상 페이지를 더 효과적으로 설계할 수 있으므로 데이터를 처리하는 데 버그나 문제가 발생할 가능성이 적습니다.

반대로 사용자 정의 코딩 스크레이퍼는 작고 간단한 작업에도 유용합니다. 스크레이퍼를 한 번 작성하면 구문 분석 루틴을 조정하고 동일한 스크립트를 사용하여 다른 페이지에서 데이터를 추출할 수 있습니다.

사용자 정의 코딩 스크레이퍼의 단점은 스크레이퍼를 처음 작성하는 데 시간이 걸리고, 숙련된 개발자가 아니라면 ProWebScraper의 설명서를 읽고 구성하는 데 걸리는 시간보다 JSON 서식 지정에 어려움을 겪거나 새로운 라이브러리를 배우는 데 더 많은 시간이 소요될 수 있다는 점입니다.

작업에 따라 사용자 지정 도구를 작성하는 것보다 비용을 지불하는 것이 더 비용 효율적일 수 있습니다.

또한 스크래퍼를 직접 작성할 계획이라면 다음과 같은 스크래핑 모범 사례와 코딩 문제를 알고 있어야 합니다:

  • 사용자 에이전트를 사용하여 봇 식별하기
  • 로그인이 필요한 사이트의 인증을 처리하는 방법
  • 웹사이트의 모든 이용약관 준수
  • 웹사이트에 과도한 부하가 걸리지 않도록 요청을 제한하는 요금 제한하기
  • 올바르게 구성된 요청 보내기
  • 프록시 사용(및 정기적으로 교체)
  • 서버에서 반환되는 모든 정보 살균하기
  • 반환된 정보를 저장하는 방법과 위치에 대한 데이터 보호 규칙
  • 캡차 해결

수백 개 또는 수천 개의 회사에 대한 정보를 가져오는 작은 스크레이퍼를 작성하는 것은 매우 합리적입니다. 더 많은 양의 데이터를 가져오는 경우에는 현지 개인정보 보호 규정을 완전히 준수할 수 있도록 조언을 구하거나 전문가와 협력하는 것이 좋습니다.

웹 스크래핑의 황금률

스크래퍼를 직접 작성하기로 결정했다면 '친절하게' 작성하는 것을 잊지 마세요. 올바른 형식의 요청을 보내고, 천천히 스크래핑하고, 스크래핑할 때 다양한 IP 주소를 사용하는 등 사려 깊은 방식으로 스크래핑하도록 최선을 다하세요.

스크레이퍼를 사람처럼 보이게 만드세요. 즉, 페이지를 천천히 요청하고 페이지를 살펴볼 때 정해진 패턴을 따르지 않도록 하세요. 예를 들어 검색 결과 목록을 가져와서 결과 페이지의 링크 목록을 만든 다음 무작위 순서로 해당 링크로 이동하면 봇이라는 사실이 덜 드러납니다.

동일한 IP에서 동시에 여러 요청을 보내지 마세요. 스크래핑 방지 도구는 서버에 비정상적인 부하가 걸리는 것을 감지합니다.

웹사이트의 Robots.txt 파일에 있는 정보를 존중하세요. 웹마스터가 색인화를 원하지 않는 페이지가 있는 경우. 이를 무시하는 것은 비윤리적일 수 있습니다.

셀레늄과 같은 라이브러리를 사용하여 페이지에 클릭을 보내거나 다른 방식으로 봇과 상호 작용하여 봇을 사람처럼 보이게 만드는 것도 고려해 보세요. 좀 더 정교한 앤트 스크레이퍼 도구는 '봇과 유사한 상호 작용 패턴을 찾아 스크롤, 클릭 및 기타 상호 작용이 부족한 것을 발견하면 해당 IP 주소를 차단합니다.

스크래퍼 개발자와 웹사이트에서 스크래퍼를 차단하려는 사람들 사이에 기술적인 군비 경쟁이 벌어지고 있습니다. 대량의 데이터를 탐지되지 않고 수집할 수 있는 스크레이퍼를 만드는 것은 매우 어렵습니다. 하지만 중소규모 프로젝트의 경우, 욕심을 부리지 않는 선에서 규칙을 준수한다면 느리고 안정적인 스크레이퍼와 몇 가지 프록시를 통해 필요한 데이터를 얻을 수 있을 것입니다.

봇은 24시간 내내 작동하며 백그라운드에서 데이터를 수집할 수 있으므로 Yelp의 모든 소규모 비즈니스 목록을 한 번에 다운로드할 필요가 없습니다.

스크레이퍼 문제 해결

스크레이퍼를 실행할 때 발생할 수 있는 몇 가지 잠재적인 문제가 있습니다. 여기에는 다음이 포함될 수 있습니다:

  • 웹마스터가 IP 차단하기
  • 웹마스터가 스크래핑 클라이언트를 차단한 경우
  • 웹사이트를 탐색할 때 스크래퍼가 혼동되는 경우
  • 사이트에 숨겨진 '허니팟'을 통해 수집되는 가비지 데이터
  • 스크레이퍼가 빠르게 작동하지 못하게 하는 속도 제한
  • 사이트 디자인 변경으로 인해 작동하던 스크레이퍼가 중단됨

좋은 소식은 스크레이퍼의 작동 원리를 이해하면 이러한 문제를 모두 해결할 수 있다는 것입니다.

간단한 웹 스크레이퍼는 패턴을 따릅니다:

  1. 스크래퍼는 웹사이트에 HTTP 요청을 보냅니다.
  2. 웹사이트는 일반 웹 브라우저와 마찬가지로 응답을 보냅니다.
  3. 스크래퍼는 응답을 읽고 HTML에서 패턴을 찾습니다.
  4. 패턴은 나중에 처리할 수 있도록 추출되어 JSON 파일에 저장됩니다.
  5. 그러면 스크레이퍼는 더 많은 패턴을 찾기 위해 응답을 계속 읽거나 다음 요청을 보낼 수 있습니다.

문제가 발생할 수 있는 몇 가지 영역이 있습니다.

스크레이퍼가 데이터를 수집하지 않습니다.

스크래퍼가 데이터를 전혀 수집하지 않는다면 구문 분석기를 설정한 방식에 문제가 있거나 스크래퍼가 웹 브라우저를 사용할 때와 동일한 사이트를 보지 못하기 때문일 수 있습니다.

무엇이 잘못되었는지 확인하려면 스크래퍼가 페이지의 HTML을 출력하도록 설정하고 이를 일반 브라우저 출력과 비교하세요.

오류나 다른 페이지가 표시되는 경우 스크래핑 클라이언트가 차단된 것일 수 있습니다. 사이트에서 사용자의 IP 주소나 스크래퍼 클라이언트 소프트웨어를 차단했을 수 있습니다.

스크래퍼가 식별하는 사용자 에이전트를 Firefox나 Chrome과 같은 최신 웹 브라우저처럼 보이도록 변경해 보세요. 이렇게 하면 일부 사이트의 간단한 제한을 우회하는 데 도움이 될 수 있습니다.

그래도 문제가 해결되지 않으면 스크래퍼가 프록시를 사용하여 해당 웹사이트에 연결하도록 설정해 보세요. 프록시는 사용자를 대신하여 웹 요청을 전송하는 서버이므로 웹사이트는 사용자의 인터넷 연결에서 웹 요청이 전송되는지 알 수 없습니다.

'정상' 페이지가 표시된다면 스크래퍼가 데이터를 추출하도록 설정한 방식에 문제가 있을 가능성이 높습니다. 각 스크래핑 프로그램마다 패턴을 일치시키는 방식이 다르지만, 대부분 정규식을 변형하여 사용합니다. 패턴 매칭에 오타가 없는지 확인하세요. 프로그램은 사용자가 입력한 대로 정확하게 작동하므로 작은 오류 하나만 있어도 매칭 규칙이 완전히 깨질 수 있다는 점을 기억하세요!

스크레이퍼가 잠시 작동한 후 중지됩니다.

또 다른 일반적인 문제는 스크래퍼가 짧은 시간 동안 작동하다가 작동을 멈추는 것입니다. 이는 일반적으로 짧은 시간에 너무 많은 요청을 전송했기 때문에 웹사이트가 일시적 또는 영구적으로 IP 주소를 차단했음을 의미합니다.

이 경우 프록시를 사용하여 차단을 우회할 수 있습니다. Proxyscrape 에서는 데이터 스크래핑에 사용할 수 있는 프리미엄 프록시와 주거용 프록시를 모두 제공합니다. 프리미엄 데이터센터 프록시는 속도가 빠르고 무제한 대역폭을 제공하지만 웹 마스터가 데이터센터의 것으로 인식할 수 있는 IP 주소를 사용합니다. 주거용 프록시는 '가정용 사용자'처럼 보이지만 사용 가능한 처리량이 더 낮을 수 있습니다.

프록시의 IP 주소가 차단될 위험을 줄이려면 몇 번의 요청 후 사용하는 프록시를 변경하는 것이 좋습니다. 스크래퍼가 요청을 보내는 속도를 줄임으로써 IP 차단 위험을 줄일 수도 있습니다.

스크레이퍼는 하루 24시간 쉬지 않고 백그라운드에서 작동할 수 있다는 점을 기억하세요. 스크레이퍼의 속도를 15~30초마다 한 페이지를 파싱하는 것으로 제한하더라도 사람보다 더 빠르게 작동합니다.

많은 웹사이트, 특히 소규모 웹사이트는 속도와 매월 전송할 수 있는 데이터 양에 제한이 있는 서버에서 호스팅된다는 점을 유념하세요. 봇이 일부 데이터를 스크랩하는 것이 불합리하지 않다고 생각할 수도 있지만, 다른 많은 사용자가 동일한 작업을 수행하거나 봇이 '길을 잃고' 같은 페이지를 끝없이 반복해서 다운로드하려고 하면 인간 사용자의 웹사이트 성능이 저하되거나 과도한 리소스 소비로 웹 마스터에게 비용이 발생할 수 있습니다.

스크레이퍼가 혼란스러워하고 끝없는 페이지 루프를 통과합니다.

마케터들이 웹 스크래퍼를 사용할 때 직면하는 또 다른 일반적인 문제는 스크래퍼가 혼동하여 다운로드하지 말아야 할 페이지를 다운로드하는 것입니다.

스크레이퍼의 계획이 도시의 벽돌공 목록을 찾는 것이고, 이를 검색하는 디렉토리로 보낸다고 가정해 보겠습니다. 스크레이퍼는 그렇게 해야 합니다:

  • 원하는 검색 문자열이 포함된 HTTP 요청을 제출합니다.
  • 결과 페이지 다운로드
  • 결과 페이지를 구문 분석하여 첫 번째 결과에 대한 링크를 찾습니다.
  • 해당 링크를 엽니다.
  • 새 페이지에서 연락처 세부 정보를 추출합니다.
  • 결과 페이지를 계속 구문 분석하여 두 번째 결과를 찾습니다.
  • 해당 링크를 엽니다.
  • 그리고...

일부 웹사이트는 봇을 가두어 혼란을 주는 '허니팟'을 포함하도록 제작되었습니다. 이러한 허니팟은 'display:none'이라는 표시 태그가 설정된 HTML 조각으로, 일반 브라우저에서는 표시되지 않습니다. 그러나 봇은 이를 볼 수 있으며, 이를 무시하도록 설정하지 않으면 일반 HTML처럼 처리합니다.

이러한 함정 중 일부는 매우 정교하기 때문에 모든 봇 트래핑 HTML을 완전히 무시하도록 봇을 프로그래밍하는 것은 매우 어렵습니다. 하지만 봇이 따라갈 링크 수에 제한을 설정하는 것은 가능합니다. 또한 페이지의 소스를 직접 보고 명백한 함정을 찾아 봇이 이를 무시하도록 설정할 수 있습니다.

윤리적 마케팅: 스크랩한 리드를 현명하게 사용하기

웹 스크래핑은 많은 사이트에서 눈살을 찌푸리게 하는 작업으로, 비즈니스 소유자가 신중하게 처리해야 하는 작업입니다. 예를 들어, GDPR에 따라 EU 거주자의 동의 없이 정보를 스크랩하는 것은 불법입니다.

또한 로그인 화면 뒤에 데이터를 숨기는 많은 웹사이트는 이용약관에 웹 스크래핑을 명시적으로 금지하고 있습니다. 즉, 스크래퍼를 사용하는 것이 발각되면 해당 웹사이트에서 이용이 금지될 위험이 있습니다.

스크래핑을 사용하여 리드를 수집하기로 결정했다면 현명하게 사용하세요. 스크래핑은 대규모 마케팅 캠페인을 진행하기 위한 방법이라기보다는 어차피 수집할 리드를 수집할 때 시간을 절약하기 위한 방법이라고 생각하세요.

스크래핑으로 그물을 너무 넓게 드리우지 마세요. 해당 비즈니스 중 한 곳을 고객으로 전환하기 위해 해당 지역과 주변 지역의 모든 비즈니스 또는 사람의 연락처 정보를 수집하고 싶은 유혹이 있을 수 있지만, 이렇게 광범위하고 초점이 맞지 않는 캠페인은 역효과를 낼 가능성이 높습니다.

데이터베이스 정리 및 유지 관리

마케팅 캠페인을 시작하기 전에 수집한 데이터를 몇 가지 점검하세요. 데이터베이스를 정리하여 폐업한 비즈니스, 중복된 기록, 타겟 지역에 없는 사람에 대한 기록 등 명백하게 잘못된 데이터를 제거합니다.

캠페인을 시작한 후에는 데이터베이스를 최신 상태로 유지하세요. 리드가 데이터베이스에서 삭제를 요청하는 경우 삭제하세요. 해당 관할 지역에서 법적으로 삭제할 수 있는 경우, 다음에 스크래핑할 때 마케팅 데이터베이스에 다시 추가되지 않도록 이메일이나 전화번호를 '연락 금지' 목록에 추가할 수 있을 만큼만 데이터를 보관하세요.

마케팅 캠페인을 관리할 때 기억해야 할 다른 사항은 다음과 같습니다:

  • 콜드 리드에게 보내는 이메일 또는 전화 횟수 제한하기
  • 발송하는 모든 연락처에 수신 거부 정보를 제공하세요.
  • 옵트아웃 요청을 존중하고 즉시 수행하기
  • 마케팅에 응답한 사람이 있으면 세부 정보를 업데이트하세요.

사전 예방적 마케팅과 공격적인 스팸 사이에는 미세한 경계가 있습니다. 마케터의 반복적인 연락은 고객 여정의 일부이며 잠재 고객과 연락을 유지하는 것이 중요하지만 지나치게 공격적인 마케팅은 잠재 고객을 소외시키고 브랜드 평판을 나쁘게 만들 수 있습니다.

스크래핑을 통해 얻은 데이터를 CRM 시스템으로 가져와서 각 고객, 전환 프로세스의 어떤 단계에 있는지, 마케팅 메시지에 어떻게 반응했는지 추적할 수 있도록 하세요.

이렇게 하면 개별 고객을 파악하는 데 도움이 될 뿐만 아니라 마케팅 캠페인의 총체적인 성과를 쉽게 확인할 수 있으므로 메시지를 개선할 수 있습니다.

리드의 출처를 추적하면 어떤 데이터 소스에 가장 높은 품질의 정보가 포함되어 있는지 파악할 수 있으므로 도움이 될 수 있습니다.