본문 바로가기

데이터분석/크롤링4

04. 이미지 수집 1. Pixabay  이미지 URL 추출해서 저장하기             import chromedriver_autoinstaller          import time          from selenium import webdriver          from urllib.request import Request, urlopen          driver = webdriver.Chrome()          url = 'https://pixabay.com/ko/images/search/강아지/'          driver.get(url)          # 이미지 주소 가져오기          image_xpath = '/html/body/div[1]/div[1]/div/div[2]/div[.. 2024. 5. 21.
03. 인스타그램 1. 로그인  로그인            import chromedriver_autoinstaller          from selenium import webdriver          # 크롬 드라이버 자동 설치 및 설정          driver = webdriver.Chrome()          driver.get('https://www.instagram.com')          # 크롬 드라이버 자동 설치 및 설정          driver = webdriver.Chrome()          driver.get('https://www.instagram.com')          # 로그인할 아이디와 비밀번호          id = '아이디'          pw = '비밀번호'   .. 2024. 5. 21.
02. Selenium, Xpath (네이버웹툰 크롤링) 1.셀레니옴(Selenium)  셀레니옴은 브라우저를 컨트롤 할 수 있도록 지원하는 라이버러리 주로 웹 어플리케이션의 테스트 자동화, 웹 스크래핑, 웹 어플리케이션의 상호작용 및 데이터 수집을 위해 개발XPath: 기존의 컴퓨터 파일 시스템에서 사용하는 경로 표현식과 유시한 경로 언어 Jupyter 노트북으로 실행하기더보기1. 경로설정  2. 주피터 노트북실행 3. 새파일 생성4. 이름변경  라이브러리 설치           ! pip install selenium        모듈 설치             ! pip install chromedriver_autoinstaller    import            from selenium import webdriver          from sel.. 2024. 5. 21.
01. 크롤링(Crawling) 1. 크롤링과 스크레이핑   크로링(Crawling)인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 수집하는 행위스크레이핑(Scraping)크로링 후 데이터를 추출하고 가공하는 행위  2. 실습: Basic English Speaking  75가지의 주제를 긁어와보기사이트: https://basicenglishspeaking.com/daily-english-conversation-topics/  requests 라이브러리BeautifulSoup 라이브러리 사용하기      import requests      from bs4 import BeautifulSoup    'requests' 라이브러리를 사용: 특정 웹 페이지에 요청을 보내고, 응답을 출력          site = 'h.. 2024. 5. 20.
LIST