어쩌면 일지

GPT-1,2,3에서 4로, GPT 시리즈의 발전 과정 본문

[AI,코딩]

GPT-1,2,3에서 4로, GPT 시리즈의 발전 과정

조아라세연 2023. 4. 13. 18:00
728x90

Stable Diffusion Onlin으로 생성한 이미지입니다.

GPT-1:

  • 발표 년도: 2018
  • 파라미터 : 1.17
  • 학습 데이터: 영어 위키피디아와 뉴스 기사
  • 특징: 대규모 언어 모델의 초석이 . 이전에 발표된 언어 모델들에 비해 많은 파라미터를 사용하고, 많은 학습 데이터를 사용함. 자연스러운 문장 생성과 같은 자연어 처리(NLP) 태스크에서 좋은 성능을 보임.

GPT-2:

  • 발표 년도: 2019
  • 파라미터 : 15
  • 학습 데이터: 인터넷에 있는 거의 모든 웹페이지
  • 특징: GPT-1에서의 발전된 형태. GPT-1 비해 많은 파라미터와 학습 데이터를 사용하여 성능을 개선했음. 일반적인 자연어 처리 태스크에서 높은 성능을 보임. 또한 자연어 이해 능력을 보이며, 질문에 답하는 QA(Question Answering) 모델의 기초가 .

GPT-3:

  • 발표 년도: 2020
  • 파라미터 : 1.75
  • 학습 데이터: 인터넷에 있는 거의 모든 웹페이지
  • 특징: GPT-2에서의 발전된 형태. GPT-2 비해 많은 파라미터와 학습 데이터를 사용하여 성능을 개선했음. 이전 모델에서 발생했던 문제들을 해결하고, 다양한 NLP 태스크에서 좋은 성능을 보임. 새로운 태스크에 대해서도 fine-tuning 없이 바로 사용이 가능함. 또한, 자연어 처리 기술에서 많은 인기를 얻었고, 언어 모델링 분야에서 혁신적인 발전을 이끌었음.

개선 사항: GPT-3는 여전히 향후에 개선할 점들이 존재. 예를 들면, 여전히 대용량의 학습 데이터를 필요로 하며, 데이터를 선별해야 . 또한, 일부 태스크에서 오분류하는 문제가 발생할 . 뿐만 아니라 모델이 내부적으로 어떻게 동작하는지에 대한 설명이 부족하며, 언어 이해의 근본적인 원리를 이해하기 어렵다.

 

 

GPT-4:

      • 발표 년도: 2023년 3월 14일
      • 파라미터 : 10 개 이상
      • 학습 데이터: 멀티 모달( 여러 가지 종류의 데이터를 함께 사용하여 인공지능 모델의 성능을 높이는 기술이다. 기존의 자연어 처리(Natural Language Processing, NLP) 모델은 텍스트 데이터를 기반으로 하지만, 멀티 모달은 이미지, 음성, 비디오 다양한 유형의 데이터를 함께 사용한다. 이를 통해 모델이 보다 현실적인 문제를 해결할 있게 되며, 사용자 경험을 높일 있다.)
    • 특징:  GPT-4의 내부구조 self-attention 기반 트랜스포머(transformer) 아키텍처를 기반으로 하며, 사전 학습 fine-tuning 방식을 채택하여 다양한 자연어 처리 테스크에 적용된다

GPT-4 기술 리포트 

728x90
Comments