어두운 proxyscrape 로고

2024년 Python을 사용하여 Instagram 데이터를 스크랩하는 방법: 단계별 가이드

방법, Python, 스크래핑, 12월-03-20225분 읽기
모든 아이들이 열광하는 인스타그램이라는 최신 유행은 무엇일까요? 인스타그램은 사진과 동영상을 공유할 수 있는 소셜 네트워킹 플랫폼입니다. 전 세계 10억 명 이상의 사용자를 보유하고 있으며 유명인, 브랜드, 가족, 친구, 사상가들과 소통할 수 있는 인기 있는 방법으로 자리 잡았습니다. Instagram은 모바일 사용과 시각적 공유에 중점을 둔 Facebook의 간소화된 버전일 뿐입니다. 다른 사용자를 팔로우하고, 다른 사용자가 나를 팔로우하도록 허용하고, 좋아요, 태그, 댓글, 비공개 메시지를 통해 다른 사용자와 소통할 수 있습니다. 따라서 Instagram에는 짧은 형식의 동영상부터 라이브 스트림까지 다양한 기능이 있습니다. 

인스타그램 스크래핑을 사용하면 인스타그램 사용자로부터 공개적으로 사용 가능한 데이터를 수집할 수 있습니다. 데이터를 수동으로 추출하거나 스크래핑 도구 및 Instagram 스크래핑 서비스를 사용할 수 있습니다. 약력, 좋아요, 댓글, 이미지, 전화번호, 이메일 등과 같은 데이터를 스크랩할 수 있습니다. 하지만 먼저 이 데이터를 스크랩해야 하는 이유를 이해해야 합니다.

파이썬을 사용하여 Instagram을 스크랩하는 방법에 대해 자세히 알아보려면 원하는 섹션으로 자유롭게 이동하세요!

목차

인스타그램을 스크랩해야 하는 이유는 무엇인가요?

Instagram은 패션, 음식, 피트니스, 여행과 같은 다양한 주제를 통해 개인을 하나로 묶고 사람들을 끌어모으고 있습니다. 다음과 같은 특정 사용자 데이터를 스크랩할 수 있습니다:

  • 연락처 번호
  • 이메일
  • 해시태그
  • 댓글
  • 위치
  • 바이오스 
  • 팔로워
  • 사용자 ID
  • 팔로잉 계정

스크래핑은 풍부한 데이터 세트를 제공하기 때문에 기업들은 매일 Instagram에서 데이터를 스크랩합니다. 또한 스크랩은 비즈니스에 도움이 됩니다:

  • 트렌드 파악 - 이를 통해 더 높은 확률로 게시물을 작성할 수 있습니다:
    • 조회
    • 좋아요
    • 참여 대상
  • 타겟 고객에 대해 자세히 알아보기 - 타겟 고객에 대한 데이터는 다음을 결정할 수 있습니다:
    • 오디언스의 참여 수준
    • 팔로워 및 오디언스 팔로잉
    • 오디언스가 게시하는 빈도
    • 오디언스가 가장 자주 사용하는 해시태그
    • 가장 활동적인 사용자의 연령 및 성별
  • 팔로워 기반 확대 - 관련성 있고 타겟팅된 팔로워 기반을 확보하고 브랜드를 구축하고 도달 범위를 확장하는 데 도움이 됩니다. 
  • 경쟁사가 무엇을 하고 있는지 파악하기 - 경쟁사들은 정보의 금광을 제공합니다. 따라서 경쟁사의 정보를 유리하게 스크랩할 수 있습니다. 다음과 같은 정보를 수집할 수 있습니다:
    • 팔로우할 사용자
    • 참여도가 가장 높은 사용자
    • 사용할 해시태그
    • 현재 잘 작동하는 게시물
  • 새로운 콘텐츠에 대한 영감 찾기 - 인스타그램 데이터를 스크랩하여 나만의 콘텐츠에 대한 새로운 아이디어를 얻을 수 있습니다. 또한 사진과 동영상을 게시할 때 팔로워의 해시태그를 확인할 수 있습니다. 이렇게 하면 팔로워가 선호하는 콘텐츠 유형을 알 수 있습니다.

파이썬을 사용한 인스타그램 스크래핑

Instagram 스크레이퍼를 사용하여 필요한 데이터에 액세스할 수 있습니다. 다음과 같은 방법으로 시간을 절약할 수 있습니다.

프로필에서 Instagram 데이터를 빠르게 스크랩하고 사용 가능한 모든 정보를 바로 사용할 수 있는 .csv 파일에 저장할 수 있습니다. 간단히 말해, 스크레이퍼를 사용하여 다음과 같은 작업을 수행할 수 있습니다:

  • 인스타그램 프로필에서 데이터 스크랩
  • 작성된 게시물 수, 팔로워 수, 팔로잉 수를 열거합니다.
  • 스크랩한 프로필의 자기소개에 지정된 이메일 주소 식별하기
  • 계정이 비공개인지 공개인지 확인
  • 바로 사용할 수 있는 스크랩된 데이터를 Excel 파일로 가져오기
Python을 사용하여 Instagram 데이터를 스크랩하는 방법을 살펴보겠습니다. 여기서는 신뢰할 수 있는 Python 패키지인 instaloader를 사용하겠습니다.

설치

pip를 사용하여 인스톨로더 패키지를 설치할 수 있습니다.
pip 설치 인스톨로더

인스타그램 사용자 프로필 스크랩

먼저 인스톨로더 패키지를 가져옵니다.

인스톨로더 가져오기
Instaloader 클래스의 인스턴스를 생성합니다. 클래스 이름은 패키지 이름과 다르다는 것을 기억하세요.
 = instaloader.Instaloader()

위의 클래스 인스턴스에는 bot.context 내에서 이 고유 인스턴스에만 해당하는 많은 기본 제공 속성이 포함되어 있습니다. 여기에는 다음이 포함됩니다:

  • 로그인한 경우 사용자 프로필 자격 증명
  • 경고 오류 로깅을 위한 도우미 기능
이제 Instaloader의 프로필 클래스의 .from_username( ) 메서드를 사용하고 다음 명령을 사용하여 bot.context와 원하는 사용자 이름을 전달합니다.
profile = instaloader.Profile.from_username(bot.context, 'python_scripts')
print(type(profile))
로드된 프로필에서 다른 인스턴스로더 클래스(예: instaloader.structures.Profile )의 인스턴스라는 것을 알려주는 type( ) 함수를 사용합니다.

이러한 프로필 객체에는 많은 속성이 있습니다. 아래 코드는 이러한 속성의 몇 가지 예를 보여줍니다.

# 인스타그램 핸들 및 프로필 ID
print("사용자 이름:", profile.username)
print("사용자 아이디", profile.userid)
# 팔로워 및 팔로워 수
print("# 팔로워 수:", profile.팔로워)
print("# 팔로워 수", profile.followees)

팔로워 및 팔로워 관리하기

인스톨로더의 도움으로 특정 사용자 아이디의 팔로워 및 팔로워의 사용자 아이디 목록을 검색할 수 있습니다. 이 코드를 사용하려면 먼저 로그인해야 한다는 점을 기억하세요.

아래 코드를 사용하여 팔로워와 팔로워의 사용자 아이디를 검색할 수 있습니다.

# 모든 팔로워의 사용자 아이디 검색하기
followers = [profile.get_followers()의 팔로워에 대한 팔로워.사용자 아이디]

# 모든 팔로워의 사용자 아이디를 검색합니다.
followees = [profile.get_followees()의 팔로워에 대한 팔로워.사용자 아이디] # 모든 팔로워의 사용자 아이디를 검색합니다.

Instagram 해시태그에서 게시물 다운로드

해시태그를 로드하려면 아래 그림과 같이 instaloader.Hashtag.from_name( )을 사용합니다. 이 코드를 사용하기 전에 로그인하는 것을 잊지 마세요.
해시태그 = instaloader.Hash태그.from_name(bot.context, 'python')

파이썬 태그가 있는 게시물을 생성기 객체에 로드합니다.

python_posts = 해시태그.get_posts()

게시물을 반복해서 읽고 다운로드합니다.

for index, post in enumarate(python_posts, 1):
    bot.download_post(post, target=f'{hashtag.name}_{index}')
Instagram 스크래핑에 프록시를 사용하려면 instaloadercontext.py 파일로 이동하여 178번째 줄에 있는 def login() 함수를 찾습니다. 이제 이 함수의 199번째 줄을 찾습니다. 다음과 같습니다:
login = session.post('https://www.instagram.com/accounts/login/ajax/', data={'password': passwd, 'username': user}, allow_redirects=True)

다음과 같이 "프록시" 변수를 추가하면 됩니다:

login = session.post('https://www.instagram.com/accounts/login/ajax/', data={'password': passwd, 'username': user}, allow_redirects=True, proxies=proxies)

어디

proxies={
'http':'YOUR PROXY',
'https':'YOUR PROXY'
}

인스타그램 프록시를 사용하는 이유는 무엇인가요?

Instagram은 시장 분석가, 소셜 미디어 인플루언서, 기업 및 온라인 브랜드 사이에서 큰 인기를 얻고 있습니다. 다음과 같은 이유로 주거 및 데이터센터 프록시를 사용합니다:

여러 계정 운영 - Instagram은 동일한 IP 주소를 통해 액세스하는 계정 수, 즉 IP 주소당 하나의 계정만 허용합니다. 하지만 디지털 마케팅 대행사 및 소셜 미디어 관리자는 도달 범위를 넓히기 위해 여러 인스타그램 계정을 관리해야 합니다. 하나의 IP 주소에서 여러 계정으로 활동하는 것은 스팸으로 간주되어 일시적인 활동 제한부터 영구 계정 금지에 이르는 불이익을 받을 수 있습니다.

따라서 소셜 미디어 관리자와 디지털 마케터는 Instagram에서 차단되는 것을 피하기 위해 프록시를 사용하여 서로 다른 IP 주소에서 여러 계정을 시뮬레이션합니다. 프록시는 Instagram 서버와 사용자 컴퓨터 사이의 중개자 역할을 하여 실제 사용자 IP 주소를 새 IP 주소로 마스킹합니다. 

마케팅 자동화 도구 사용 - 마케팅 프로세스의 속도를 높이기 위해 Instagram 마케팅 담당자는 봇과 자동화 도구를 사용하여 수천, 수백만 명의 팔로워, 좋아요, 댓글을 유기적으로 확보합니다. 하지만 대부분의 소셜 미디어 플랫폼과 마찬가지로 Instagram에는 엄격한 네트워킹 정책이 있습니다. 계정으로 트래픽을 유도하기 위해 불공정한 수단에 의존하는 경우 상당한 불이익을 받을 수 있습니다. 게시물에 댓글을 다는 등의 특정 작업을 수행하는 데 제한을 받을 수 있으며 계정이 일시 정지되거나 차단될 수 있습니다. 따라서 추가적인 보안을 위해 봇이 포함된 Instagram 프록시를 사용해야 합니다.
IP 차단 우회 - Instagram 프록시를 사용하여 IP 차단 및 지역 제한 문제를 해결할 수 있습니다. 인스타그램에는 봇을 사용하기 어렵게 만드는 엄격한 소셜 네트워킹 가이드라인이 있으며, 비정상적인 활동이 감지되면 계정이 차단될 수 있다는 것을 알고 계실 것입니다. 하지만 인스타그램 프록시를 사용하면 IP 차단을 우회할 수 있습니다. 이러한 프록시는 프록시 서버의 IP 주소에서 사용자의 실제 IP 주소를 숨깁니다. 따라서 원래 IP 주소가 차단되지 않도록 보호할 수 있습니다. 또한 인스타그램 프록시는 다양한 위치에 프록시 서버가 있어 원격 위치에서 인스타그램에 액세스할 수 있으므로 지역 제한을 우회하는 데 사용할 수 있습니다. 

인스타그램 스크랩을 위한 최고의 프록시:

ProxyScrape 는 온라인에서 가장 인기 있고 신뢰할 수 있는 프록시 제공업체 중 하나입니다. 세 가지 프록시 서비스에는 전용 데이터 센터 프록시 서버, 주거용 프록시 서버, 프리미엄 프록시 서버가 있습니다. 그렇다면 파이썬을 사용하여 Instagram을 스크랩하는 방법에 대한 최상의 솔루션은 무엇일까요? 이 질문에 답하기 전에 각 프록시 서버의 기능을 살펴보는 것이 가장 좋습니다.
전용 데이터센터 프록시 는 분석 목적으로 다양한 서버에서 대량의 데이터(크기 기준)를 스트리밍하는 등 고속 온라인 작업에 가장 적합합니다. 이는 조직이 단시간에 대량의 데이터를 전송하기 위해 전용 프록시를 선택하는 주된 이유 중 하나입니다.

전용 데이터센터 프록시는 무제한 대역폭 및 동시 연결, 간편한 통신을 위한 전용 HTTP 프록시, 보안 강화를 위한 IP 인증 등 다양한 기능을 제공합니다. 99.9%의 가동 시간으로 어떤 세션 중에도 전용 데이터센터가 항상 작동하므로 안심할 수 있습니다. 마지막으로 ProxyScrape 은 우수한 고객 서비스를 제공하며 영업일 기준 24~48시간 이내에 문제를 해결할 수 있도록 도와드립니다. 

다음은 주거용 프록시입니다. 주거용 프록시는 모든 일반 소비자가 사용하는 프록시입니다. 주된 이유는 주거용 프록시의 IP 주소가 ISP에서 제공하는 IP 주소와 유사하기 때문입니다. 즉, 대상 서버의 데이터에 액세스할 수 있는 권한을 평소보다 쉽게 얻을 수 있습니다. 

ProxyScrape의 또 다른 기능은 로테이팅 기능입니다. 로테이팅 프록시를 사용하면 주거용 프록시가 IP 주소를 동적으로 변경하여 대상 서버가 프록시 사용 여부를 확인하기 어렵기 때문에 계정이 영구적으로 차단되는 것을 방지할 수 있습니다. 

그 외에도 무제한 대역폭과 동시 연결, 전용 HTTP/s 프록시, 프록시 풀에 있는 700만 개 이상의 프록시를 통해 언제든지 세션에서 프록시, 보안 강화를 위한 사용자 이름 및 비밀번호 인증, 마지막으로 국가 서버 변경 기능 등 다양한 기능이 있습니다. 사용자 아이디 인증에 국가 코드를 추가하여 원하는 서버를 선택할 수 있습니다. 

마지막은 프리미엄 프록시입니다. 프리미엄 프록시는 전용 데이터센터 프록시와 동일합니다. 기능은 동일하게 유지됩니다. 가장 큰 차이점은 접근성입니다. 프리미엄 프록시에서는 프록시 목록(프록시가 포함된 목록)을 ProxyScrape네트워크의 모든 사용자가 사용할 수 있습니다. 그렇기 때문에 프리미엄 프록시는 전용 데이터센터 프록시보다 비용이 저렴합니다.
그렇다면 가장 좋은 해결책은 무엇일까요? 파이썬을 사용하여 인스타그램을 스크랩하는 방법? 정답은 "주거용 프록시 "입니다. 그 이유는 간단합니다. 위에서 말했듯이 주거용 프록시는 회전 프록시로, 일정 기간 동안 IP 주소가 동적으로 변경되므로 짧은 시간 내에 많은 요청을 전송하여 IP 차단을 받지 않고 서버를 속이는 데 도움이 될 수 있습니다. 

다음으로 가장 좋은 방법은 국가를 기준으로 프록시 서버를 변경하는 것입니다. IP 인증 또는 사용자 이름 및 비밀번호 인증 끝에 국가 ISO_CODE를 추가하기만 하면 됩니다.

추천 읽기:

자주 묻는 질문:

1. Python으로 Instagram을 스크랩할 수 있나요?
예, 인스톨로더라는 파이썬 라이브러리를 사용하여 Instagram의 데이터를 쉽게 스크랩하거나 인스타그래피를 사용할 수 있습니다. 하지만 인스타그램에서 데이터를 스크랩하는 동안에는 일반 데이터 스크랩을 방지하기 위해 다양한 보안 조치를 설치했기 때문에 주거용 프록시를 사용하는 것이 좋습니다.
2. Instagram에서 데이터를 스크랩하는 것이 합법인가요?
공개 데이터를 스크랩하는 것은 합법이며, 이는 Instagram에서도 마찬가지입니다. 그러나 법으로 보호되는 개인 데이터 및 저작권이 있는 콘텐츠를 스크랩하는 것은 금지되어 있습니다.
3. 금지되지 않고 Instagram을 스크랩하려면 어떻게 해야 하나요?
주거용 프록시를 사용하면 금지되지 않고 Instagram에서 공개 데이터를 스크랩할 수 있습니다. 주거용 프록시는 일정 시간이 지나면 IP 주소가 자동으로 변경되는 IP 로테이션 기능이 있어 대상 서버가 프록시 사용 여부를 식별하기 어렵게 합니다.

결론

파이썬을 사용하여 이메일, 해시태그, 팔로워, 팔로잉 위치, 댓글 등과 같은 Instagram 데이터를 스크랩할 수 있다고 설명했습니다. 스크래핑은 비즈니스에 이름을 알릴 수 있는 다양한 이점을 제공합니다. 또한 Instagram 프록시는 여러 계정을 동시에 사용하고 IP 차단 및 지리적 제한을 우회할 수 있어 소셜 미디어 인플루언서에게 큰 도움이 됩니다. Instagram에는 주거용 프록시 또는 데이터 센터 프록시를 사용할 수 있지만, 주거용 프록시는 속도가 빠르고 차단되지 않으므로 사용하는 것이 좋습니다.

파이썬을 사용하여 Instagram을 스크랩하는 방법에 대한 귀중한 인사이트를 얻으셨기를 바랍니다.