공부/PYTHON
[파이썬]네이버 뉴스, 카페, 블로그 검색&리스트 가져오기
_마디
2020. 7. 19. 16:49
[파이썬]네이버 뉴스, 카페, 블로그 검색&리스트 가져오기
google drvier를 이용한 웹 정보 가져오기.
- naver에 검색되는 정보 리스트 뽑기.
1.블로그 정보 가져오기
from selenium import webdriver
from selenium.webdriver.common.keys import Keys #특수키 클래스
driver = webdriver.Chrome('./chromedriver')
try:
driver.get('https://naver.com')
elem = driver.find_element_by_id('query')
elem.send_keys('검색어입력')
elem.send_keys(Keys.RETURN) #Enter
elem = driver.find_element_by_class_name('_blogBase')
lis = elem.find_elements_by_tag_name('li')
for li in lis:
atag = li.find_element_by_class_name('sh_blog_title')
print(atag.text) #title 텍스트를 그대로 가져옴
print(atag.get_attribute('title')) #title 속성을 가져옴
print(atag.get_attribute('href')) #link를 가져옴
print('-'*20)
elem = driver.find_element_by_class_name('news')
lis = elem.find_elements_by_tag_name('li')
print(li.text)
input()
except Exception as e:
print(e)
finally:
driver.quit()
2.뉴스 정보 가져오기
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome('./chromedriver')
try:
driver.get('https://naver.com')
elem = driver.find_element_by_id('query')
elem.send_keys('검색어입력')
elem.send_keys(Keys.RETURN)
elem = driver.find_element_by_class_name('news')
lis = elem.find_elements_by_xpath('./ul/li') #xpath: 현재 위치에서 ./ul/li들만 가져온다. 가져올 데이터 범위 명시.
for li in lis:
atag = li.find_element_by_class_name('_sp_each_title')
print(atag.text)
print(atag.get_attribute('href'))
input()
except Exception as e:
print(e)
finally:
driver.quit()
3. 카페 정보 가져오기
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome('./chromedriver')
try:
driver.get('https://naver.com')
elem = driver.find_element_by_id('query')
elem.send_keys('검색어입력')
elem.send_keys(Keys.RETURN)
elem = driver.find_element_by_class_name('_cafeBase')
lis = elem.find_elements_by_xpath('./ul/li')
for li in lis:
atag = li.find_element_by_class_name('sh_cafe_title')
title = atag.get_attribute('title')
if not title:
title = atag.text
print(title)
print(atag.get_attribute('href'))
input()
except Exception as e:
print(e)
finally:
driver.quit()
*패스트캠퍼스 강의를 듣고 정리한 자료입니다.