어쩌면 일지

[코딩] 데이터 입문_1주차 본문

[AI,코딩]

[코딩] 데이터 입문_1주차

조아라세연 2022. 7. 4. 22:58
728x90

#기사 작성용
!pip install newspaper3k
##기사작성툴
import requests
import pandas as pd
from newspaper import Article
from bs4 import BeautifulSoup

#뉴스꺼내기
news = requests.get(url)
news.content


##유저인척 하기
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}

news = requests.get(url, headers=headers)
news.content

def make_urllist(page_num, code, date): 
  # 각각 기사들이 가진 url을 저장하기 위한 빈 리스트를 하나 만들어놓는다.
  urllist= []

  # 1 ~ page_num까지 정해진 페이지만큼 반복.
  for i in range(1, page_num + 1):

      # 함수의 입력으로 된 변수들로 주소를 조합
    url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)   

      # requets 패키지의 모듈(함수)을 호출
      # import 패키지이름 으로 '임포트'했다면 '패키지이름.모듈이름' 으로 모듈을 호출합니다.
    news = requests.get(url, headers=headers)
    news.content

    # BeautifulSoup 모듈을 사용하여 HTML 페이지를 분석
    soup = BeautifulSoup(news.content, 'html.parser')

    # 해당 페이지에 있는 각각의 뉴스가 news_list 라는 리스트로 저장됩니다!
    news_list = soup.select('.type06_headline li dl')
    news_list.extend(soup.select('.type06 li dl'))

    # 뉴스 리스트에 있는 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져온다.
    for line in news_list:
        urllist.append(line.a.get('href'))
  return urllist

728x90
Comments