3. Introduction to Large Language Models 정리

Introduction to Large Language Models

LLM(Large Language Models) 이란

LLM은 사전 훈련(pre-trained)되고 특정 목적을 위해 미세 조정(fine-tuned)된 언어 모델이다. * 사전 훈련(pre-trained): 텍스트 분류, 질의응답, 문서 요약 그리고 여러 산업에 걸친 텍스트 생성과 같은 공통적인 언어 문제를 해결하기 위한 훈련 * 미세 조정(fine-tuned): 소매, 금융 그리고 엔터테이먼트와 같은 분야의 특정 문제를 해결하기 위한 조정, 상대적으로 적은 수의 데이터 세트를 사용

LLM의 3가지 주요 특징

Large * 방대한 교육 데이터 세트 * 많은 수의 파라미터(ML에서 종종 hyperparameter라고 불림) * 파라미터는 기본적으로 모델 트레이닝에서 머신 러닝된 기억과 지식 * 파라미터는 텍스트 예측과 같은 문제를 해결하는 모델의 기술을 정의

General-purpose * 특정 업무와 상관없는 인간 언어의 공통성 * 리소스 제한, 오직 특정 조직만이 대규모 데이터 세트와 엄청난 수의 파라미터를 사용하여 대규모 언어 모델을 훈련시킬 수 있는 능력을 가지고 있다

Pre-trained and fine-tuned * 큰 데이터 세트로 일반적인 목적을 위해 큰 언어 모델을 미리 훈련한 다음 훨씬 작은 데이터 세트로 특정 목적을 위해 미세 조정하는 것을 의미

LLM을 사용시 이점

  1. 하나의 모델이 다른 작업에 사용될 수 있다. 언어 번역, 문장 완성, 텍스트 분류, 질문 답변 등을 포함한 서로 다른 작업을 해결할 수 있다.
  2. 특정 문제를 해결하기 위해 조정할 때 최소한의 현장 훈련 데이터만 필요 few-shot, zero-shot 시나리오에도 사용될 수 있다. few-shot, zero-shot 은 제한된 데이터로 성공적인 AI 모델을 트레이닝하고, 충분한 샘플이 없더라도 예측력 높은 AI 모델을 만들어 낼 수 있는 머신 러닝 방법론
  3. 더 많은 데이터와 파라미터를 추가로 LLM의 성능이 지속적으로 증가

트랜스포머 모델(Transformer model) 이란

  • 인코더와 디코더로 구성
  • 인코더는 입력 시퀀스를 인코딩하여 관련 작업에 대한 표현을 학습한 디코더로 전달

트랜스포머 모델이란 무엇인가? (1) | NVIDIA Blog * 트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망 * 어텐션(attention) 또는 셀프어텐션(self-attention)이라 불리며 진화를 거듭하는 수학적 기법을 응용해 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지

트랜스포머(Transformer)란? 트랜스포머 쉬운 설명 - AI 알리미 * Transformer는 단어나 문장과 같은 입력 데이터에서 중요한 정보를 추출하고 출력 데이터를 생성하는 딥러닝 모델 * 이를 위해 입력 데이터의 단어들 간의 상호작용을 고려하는 Self-Attention Mechanism을 사용 * 자연어 처리 분야에서 활용되며, 대용량의 데이터를 학습하여 번역, 요약, 질문 응답 등 다양한 자연어 처리 태스크에서 높은 성능을 보인다.

프롬프트 디자인(Prompt design)과 프롬프트 엔지니어링(prompt engineering)

  • 이 둘은 자연어 처리에서 밀접하게 관련된 두 가지 개념
  • 둘 다 명확하고 간결하며 유익한 프롬프트를 만드는 프로세스를 포함한다.

프롬프트 디자인(Prompt design) * 시스템이 수행하도록 요청하는 특정 작업에 맞게 조정된 프롬프트를 생성하는 프로세스 * 예를 들어 시스템에서 텍스트를 영어에서 프랑스어로 번역하도록 요청하는 경우, 프롬프트는 영어로 작성되어야 하며 번역이 프랑스어로 되어야 한다고 지정해야 한다

프롬프트 엔지니어링(prompt engineering) * 성능을 향상시키도록 설계된 프롬프트를 생성하는 프로세스 * 도메인별 지식을 사용, 원하는 출력의 예를 제공, 특정 시스템에 효과적인 것으로 알려진 키워드를 사용하는 것이 포함될 수 있다. * 프롬프트 디자인보다 전문적인 개념으로 고도의 정확성이나 성능이 필요한 시스템에 필요하다.


구글 생성형 AI 서비스

PaLM(Pathways Language Model)

  • 구글에서 2022년 4월에 출시
  • 고밀도 디코더 전용 트랜스포머 모델(dense decoder-only Transformer model)
  • 복수의 TPU v4 Pods(TPU v4 Pods, 4세대 ML 가속기)에 걸쳐 단일 모델을 효율적으로 훈련할 수 있게 해준 새로운 Pathway 시스템을 활용
  • Pathway는 많은 작업을 한 번에 처리하고, 새로운 작업을 빠르게 학습하며, 세계에 대한 더 나은 이해를 반영하는 새로운 AI 아키텍처
  • 시스템은 PaLM이 가속기를 위해 분산 계산을 조정할 수 있게 한다.

Gen AI studio

  • Google Cloud에서 작동하는 애플리케이션에 활용할 수 있는 생성형 AI 모델을 탐색하고 커스텀하는데 사용
  • 다양한 도구와 리소스를 제공하여 개발자가 생성형 AI 모델을 만들고 배포할 수 있도록 도와준다.

Generative AI App Builder

  • 생성형 AI 애플리케이션을 코딩 없이 만드는데 사용
  • 드래그 앤 드롭 인터페이스로되어 쉽게 애플리케이션을 구성할 수 있다.
  • 검색엔진이 내장되어 있어 사용자가 정보를 검색할 수 있게 하며, 대화형 AI 엔진은 자연어를 사용하여 유저와 애플리케이션이 상호작용하도록 할 수 있다.
  • 챗봇, 디지털 비서, 검색엔진, 지식 기반 교육 애플리케이션 등을 만들 수 있다.

links

social