🤖

LLM 모델 이해 및 활용

2025.02.08

LLM에 대한 전반적인 개념을 공부하자

LLM 배경 및 구조 이해

	Transformer	BERT	GPT
출시연도	2017	2018	2018
주요 목적	양방향 변환 및 시퀀스 생성	양방향 문맥 이해	단방향 텍스트 생성
입력 처리	Sequence2Sequence	입력받은 전체 문장으로 Context 이해	이전 단어들을 기반으로 다음 단어 예측
모델 유형	Encoder-Decoder	Encoder	Decoder
특징	병렬 처리 가능	마스킹된 단어를 예측하여 문맥 이해도 높음	이전 토큰만 보고 예측하는 방식으로 자연스러운 생성 가능
파라미터 수 증가 방향	복잡도 증가 따라 확장 가능	파라미터를 늘려 더 정밀한 문맥 이해 가능	대규모 파라미터로 더 자연스러운 텍스트 생성 가능

LLM이 생성형 AI로 동작하는 기술 원리

인코더
- 입력 문장의 의미를 벡터로 추출
디코더
- 인코더 결과를 해석하여 목표 문장 생성

LLM이 생성형 AI로 작동하는 원리는, 주어진 문장과 단어를 토대로 다음에 올 문장과 단어 등 맥락을 예측하는 방식 (Decoder)에 초점을 두고 있다.
따라서 역할 및 임무 부여, 현재 상황과 제시하고 있는 맥락, 요청하는 결과물에 대한 포맷 등 정보를 제시하여야 좋은 결과물을 생성할 수 있다.

LLM 구조 이해하기

트랜스포머 이전 자연어 처리: 1. Word Embedding

단어의 의미를 벡터로 변환
동음이의어 처리 불가
오타 및 새로운 단어 처리 불가

트랜스포머 이전의 기계 번역: 2. RNN (순환신경망)

오래된 정보보다 최근 정보의 비중이 더 큼
Context Vector : 문장의 의미

그러나 Context Vector는 오래된 정보보다 최근 정보의 비중이 더 크다는 한계가 있고, Context Vector의 부담을 덜고자 Attention이 등장했다.

Attention : 각 중간 은닉층의 값도 활용

트랜스포머의 등장 : RNN 없는 인코더-디코더 구조

순서대로 입력이 아닌 각자 들어가는 구조로, 토큰 개수만큼의 벡터가 Encoder에서 생성

Self-Attention : 입력된 문장 내에서 각 단어가 다른 모든 단어와 관계를 학습. 한 단어가 문장 내 다른 단어들과 얼마나 관련 있는지를 계산하여 문맥을 더 잘 이해하도록 함

Decoding : 순차적 추론

디코딩은 하나씩 출력
디코딩 과정에서는 단어의 직전 출력들에 대해서만 Self Attention을 계산

Transformer

자연어 처리에서 RNN이나 LSTM을 대체한 모델
BERT, GPT의 근본이 되는 기본 아키텍처
Self Attention 메커니즘을 도입하여 긴 문맥을 효율적으로 처리하여 NLP Task 성능을 크게 향상

Query: 해당 단어가 다른 단어들과 얼마나 연관이 있는지를 묻는 값
Key: 각 단어가 어떤 의미를 가지고 있는지 나타내는 값
Value: 해당 단어의 실제 의미

각각 다른 QKV 쌍을 통해 여러 질문을 던지고, 그 결과를 모두 모아서 집중해야 하는 단어를 정확하게 찾아내기 위한 방식
Head: 여러 개의 Attention 메커니즘을 동시에 작동하는 구조
Multi-Head: 여러 헤드가 동시에 작동하여 문장의 의미를 더 풍부하고 정확하게 이해할 수 있도록 하는 구조

BERT

Transformer의 Encoder 부분을 기반으로 양방향 학습
입력 문장의 앞뒤 문맥을 모두 고려하여 단어를 이해하는데 중점

인코더 기반의 BERT는, 양방향 문맥 이해를 더 잘 할 수 있게 함
또한, BERT는 생성이 아니라 문장 이해에 초점을 두기 때문에 Transformer의 Decoder을 사용하지 않음

Pre-training Model: BERT는 대량의 데이터로 언어의 규칙과 의미를 학습한 사전 모델
Fine-tuning: 사전 학습된 BERT를 특정한 작업에 맞게 추가 학습
Transfer Learning: BERT의 학습된 언어 지식을 바탕으로 새로운 작업에 적용. 필요 시 Finetuning 진행

GPT

Transformer의 Decoder 기반의 Autoregressive 모델
Autoregressive: 데이터 시퀀스에서 이전 값을 기반으로 다음 값을 예측하는 모델
Masked Multi-Head Attention은 토큰 시퀀스의 Self-Attention 과정에서 현재 토큰의 시점보다 미래 시점의 토큰들을 마스킹하여 미래 시점을 예측하도록 학습을 수행하기 위한 구조

소감

LLM에서 주로 사용하는 기본 개념들과 관련 지식에 대해 알아볼 수 있었다. 특히 트랜스포머, BERT, GPT와 같은 LLM 구조에 대해 배웠는데 처음 공부하다 보니 개념이 많아서 어려웠다. 인공지능학과 친구에게 물어보니 학과에서는 그 구조에 대해서 깊게 공부하며, 거의 한 학기 수업이라고 말해줘서 약간은 위로가 됐다.. 앞으로 배운 내용을 기반으로 llm 활용법을 배운다고 하는데 재밌을 것 같다..!

LLM 배경 및 구조 이해
- LLM이 생성형 AI로 동작하는 기술 원리
LLM 구조 이해하기
소감

개발 인턴 회고

도커? 컨테이너? 이제는 정확히 이해하자