공부/PYTHON

[파이썬]네이버 뉴스, 카페, 블로그 검색&리스트 가져오기

_마디 2020. 7. 19. 16:49
반응형

[파이썬]네이버 뉴스, 카페, 블로그 검색&리스트 가져오기

 

 

google drvier를 이용한 웹 정보 가져오기.

 - naver에 검색되는 정보 리스트 뽑기.

 

 

 

1.블로그 정보 가져오기

from selenium import webdriver
from selenium.webdriver.common.keys import Keys  #특수키 클래스

driver = webdriver.Chrome('./chromedriver')

try:
    driver.get('https://naver.com')

    elem = driver.find_element_by_id('query')
    elem.send_keys('검색어입력')
    elem.send_keys(Keys.RETURN) #Enter

    elem = driver.find_element_by_class_name('_blogBase')
    lis = elem.find_elements_by_tag_name('li')
    for li in lis:
        atag = li.find_element_by_class_name('sh_blog_title')
        print(atag.text) #title 텍스트를 그대로 가져옴
        print(atag.get_attribute('title')) #title 속성을 가져옴
        print(atag.get_attribute('href')) #link를 가져옴

    print('-'*20)
    
    elem = driver.find_element_by_class_name('news')
    lis = elem.find_elements_by_tag_name('li')
    print(li.text)

    input()
except Exception as e:
    print(e)
finally:
    driver.quit()

 

 

 

2.뉴스 정보 가져오기

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome('./chromedriver')

try:
    driver.get('https://naver.com')

    elem = driver.find_element_by_id('query')
    elem.send_keys('검색어입력')
    elem.send_keys(Keys.RETURN)
    
    elem = driver.find_element_by_class_name('news')
    lis = elem.find_elements_by_xpath('./ul/li') #xpath: 현재 위치에서 ./ul/li들만 가져온다. 가져올 데이터 범위 명시.
    for li in lis:
        atag = li.find_element_by_class_name('_sp_each_title')
        print(atag.text)
        print(atag.get_attribute('href'))

    input()
except Exception as e:

    print(e)
finally:
    driver.quit()

 

 

3. 카페 정보 가져오기

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome('./chromedriver')

try:
    driver.get('https://naver.com')

    elem = driver.find_element_by_id('query')
    elem.send_keys('검색어입력')
    elem.send_keys(Keys.RETURN)
    
    elem = driver.find_element_by_class_name('_cafeBase')
    lis = elem.find_elements_by_xpath('./ul/li')
    for li in lis:
        atag = li.find_element_by_class_name('sh_cafe_title')
        title = atag.get_attribute('title')
        if not title:
            title = atag.text
        print(title)
        print(atag.get_attribute('href'))

    input()
except Exception as e:

    print(e)
finally:
    driver.quit()

 

 

 

 

 

 

 

*패스트캠퍼스 강의를 듣고 정리한 자료입니다.

반응형

'공부 > PYTHON' 카테고리의 다른 글

JSP 개발환경 구축하기  (0) 2020.10.21
python 인스타그램 좋아요 누르기  (0) 2020.10.01
python 인스타그램 해시태그 검색하기  (0) 2020.08.30
exercise.py  (0) 2015.11.27