sayyoon.site
postsguestbook
🤖
SKALA생성형AI

LLM 모델 이해 및 활용

2025.02.08

LLM에 대한 전반적인 개념을 공부하자

 

LLM 배경 및 구조 이해

Transformer BERT GPT
출시연도 2017 2018 2018
주요 목적 양방향 변환 및 시퀀스 생성 양방향 문맥 이해 단방향 텍스트 생성
입력 처리 Sequence2Sequence 입력받은 전체 문장으로 Context 이해 이전 단어들을 기반으로 다음 단어 예측
모델 유형 Encoder-Decoder Encoder Decoder
특징 병렬 처리 가능 마스킹된 단어를 예측하여 문맥 이해도 높음 이전 토큰만 보고 예측하는 방식으로 자연스러운 생성 가능
파라미터 수 증가 방향 복잡도 증가 따라 확장 가능 파라미터를 늘려 더 정밀한 문맥 이해 가능 대규모 파라미터로 더 자연스러운 텍스트 생성 가능

 

LLM이 생성형 AI로 동작하는 기술 원리

  • 인코더
    • 입력 문장의 의미를 벡터로 추출
  • 디코더
    • 인코더 결과를 해석하여 목표 문장 생성

LLM이 생성형 AI로 작동하는 원리는, 주어진 문장과 단어를 토대로 다음에 올 문장과 단어 등 맥락을 예측하는 방식 (Decoder)에 초점을 두고 있다.
따라서 역할 및 임무 부여, 현재 상황과 제시하고 있는 맥락, 요청하는 결과물에 대한 포맷 등 정보를 제시하여야 좋은 결과물을 생성할 수 있다.

 

LLM 구조 이해하기

트랜스포머 이전 자연어 처리: 1. Word Embedding

  • 단어의 의미를 벡터로 변환
  • 동음이의어 처리 불가
  • 오타 및 새로운 단어 처리 불가

트랜스포머 이전의 기계 번역: 2. RNN (순환신경망)

  • 오래된 정보보다 최근 정보의 비중이 더 큼
  • Context Vector : 문장의 의미

그러나 Context Vector는 오래된 정보보다 최근 정보의 비중이 더 크다는 한계가 있고, Context Vector의 부담을 덜고자 Attention이 등장했다.

  • Attention : 각 중간 은닉층의 값도 활용

트랜스포머의 등장 : RNN 없는 인코더-디코더 구조

순서대로 입력이 아닌 각자 들어가는 구조로, 토큰 개수만큼의 벡터가 Encoder에서 생성

  • Self-Attention : 입력된 문장 내에서 각 단어가 다른 모든 단어와 관계를 학습. 한 단어가 문장 내 다른 단어들과 얼마나 관련 있는지를 계산하여 문맥을 더 잘 이해하도록 함

Decoding : 순차적 추론

  • 디코딩은 하나씩 출력
  • 디코딩 과정에서는 단어의 직전 출력들에 대해서만 Self Attention을 계산

 

Transformer

  • 자연어 처리에서 RNN이나 LSTM을 대체한 모델
  • BERT, GPT의 근본이 되는 기본 아키텍처
  • Self Attention 메커니즘을 도입하여 긴 문맥을 효율적으로 처리하여 NLP Task 성능을 크게 향상

  • Query: 해당 단어가 다른 단어들과 얼마나 연관이 있는지를 묻는 값
  • Key: 각 단어가 어떤 의미를 가지고 있는지 나타내는 값
  • Value: 해당 단어의 실제 의미

  • 각각 다른 QKV 쌍을 통해 여러 질문을 던지고, 그 결과를 모두 모아서 집중해야 하는 단어를 정확하게 찾아내기 위한 방식
  • Head: 여러 개의 Attention 메커니즘을 동시에 작동하는 구조
  • Multi-Head: 여러 헤드가 동시에 작동하여 문장의 의미를 더 풍부하고 정확하게 이해할 수 있도록 하는 구조

BERT

  • Transformer의 Encoder 부분을 기반으로 양방향 학습
  • 입력 문장의 앞뒤 문맥을 모두 고려하여 단어를 이해하는데 중점

인코더 기반의 BERT는, 양방향 문맥 이해를 더 잘 할 수 있게 함
또한, BERT는 생성이 아니라 문장 이해에 초점을 두기 때문에 Transformer의 Decoder을 사용하지 않음

  • Pre-training Model: BERT는 대량의 데이터로 언어의 규칙과 의미를 학습한 사전 모델
  • Fine-tuning: 사전 학습된 BERT를 특정한 작업에 맞게 추가 학습
  • Transfer Learning: BERT의 학습된 언어 지식을 바탕으로 새로운 작업에 적용. 필요 시 Finetuning 진행

GPT

  • Transformer의 Decoder 기반의 Autoregressive 모델

  • Autoregressive: 데이터 시퀀스에서 이전 값을 기반으로 다음 값을 예측하는 모델

  • Masked Multi-Head Attention은 토큰 시퀀스의 Self-Attention 과정에서 현재 토큰의 시점보다 미래 시점의 토큰들을 마스킹하여 미래 시점을 예측하도록 학습을 수행하기 위한 구조

 

소감

LLM에서 주로 사용하는 기본 개념들과 관련 지식에 대해 알아볼 수 있었다. 특히 트랜스포머, BERT, GPT와 같은 LLM 구조에 대해 배웠는데 처음 공부하다 보니 개념이 많아서 어려웠다. 인공지능학과 친구에게 물어보니 학과에서는 그 구조에 대해서 깊게 공부하며, 거의 한 학기 수업이라고 말해줘서 약간은 위로가 됐다.. 앞으로 배운 내용을 기반으로 llm 활용법을 배운다고 하는데 재밌을 것 같다..!

© Powered by danmin