어쩌면 일지
[코딩] 데이터 입문_1주차 본문
#기사 작성용
!pip install newspaper3k
##기사작성툴
import requests
import pandas as pd
from newspaper import Article
from bs4 import BeautifulSoup
#뉴스꺼내기
news = requests.get(url)
news.content
##유저인척 하기
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}
news = requests.get(url, headers=headers)
news.content
def make_urllist(page_num, code, date):
# 각각 기사들이 가진 url을 저장하기 위한 빈 리스트를 하나 만들어놓는다.
urllist= []
# 1 ~ page_num까지 정해진 페이지만큼 반복.
for i in range(1, page_num + 1):
# 함수의 입력으로 된 변수들로 주소를 조합
url = 'https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1='+str(code)+'&date='+str(date)+'&page='+str(i)
# requets 패키지의 모듈(함수)을 호출
# import 패키지이름 으로 '임포트'했다면 '패키지이름.모듈이름' 으로 모듈을 호출합니다.
news = requests.get(url, headers=headers)
news.content
# BeautifulSoup 모듈을 사용하여 HTML 페이지를 분석
soup = BeautifulSoup(news.content, 'html.parser')
# 해당 페이지에 있는 각각의 뉴스가 news_list 라는 리스트로 저장됩니다!
news_list = soup.select('.type06_headline li dl')
news_list.extend(soup.select('.type06 li dl'))
# 뉴스 리스트에 있는 각 뉴스로부터 a 태그인 <a href ='주소'> 에서 '주소'만을 가져온다.
for line in news_list:
urllist.append(line.a.get('href'))
return urllist
'[AI,코딩]' 카테고리의 다른 글
언어 모델: 인공지능의 자연어 처리 기술 중심으로 (0) | 2023.04.11 |
---|---|
(Chat GPT로 작성한) Chat GPT와 인공지능 기술의 발전 (0) | 2023.04.11 |
(Chat GPT로 작성한) Chat GPT란 무엇인가?- 개념, 가입 방법 (0) | 2023.04.11 |
[코딩] Git 입문_1주차 (0) | 2022.07.13 |
[코딩] 데이터 입문_2주차_지니스크래핑 (0) | 2022.07.11 |