📚
Vector DB 파헤치기
2025.05.03
생성형 AI의 마지막 수업이다..!! RAG 수업을 할 때 빠질 수 없었던 Vector DB를 ‘파묘’해보자.
개요
생성형 AI가 발전하면서 할루시네이션 없는 생성형 콘텐츠의 중요성이 커졌고, 할루시네이션을 방지하고자 RAG가 각광받으며, 벡터 DB 또한 중요해졌다.
(그래서 지금부터 우리는 벡터 DB에 대해 자세하게 알아볼 것이다!)
전통적인 데이터베이스가 정확한 값을 찾는 데 강하다면, 벡터 데이터베이스는 비슷한 것을 찾는 데 강하다.
그렇다면 벡터 데이터베이스가 필요해진 이유가 무엇일까?
기존 데이터베이스는 숫자나 텍스트 같은 구조화된 데이터를 저장하고 검색하는 데 최적화되어있다.
즉, 이미지, 음성, 문장 의미 같은 비정형 데이터 검색은 어렵다.
그러나 비정형 데이터의 활용이 많아지며, 유사도 검색이 비효율적인 전통 데이터베이스 이외에 벡터 데이터베이스의 필요성이 대두되고 있다.
벡터 데이터베이스
- 벡터 데이터베이스는 AI/ML 모델과의 시너지가 좋다.
- 벡터 데이터베이스는 실시간 데이터 처리를 지원한다.
벡터 임베딩 기초
벡터 임베딩은 데이터를 의미가 보존되는 숫자 벡터로 변환하는 방법 이다.
- 텍스트 → 벡터
- Word2Vec : 단어의 의미를 숫자로 반환
- BERT : 문장의 의미까지 이해하도록 반환
- 이미지 → 벡터
- CNN을 이용해 이미지 특징을 벡터로 변환
- 음성 → 벡터
- MFCC, Wave2Vec 등을 사용
[참고] BERT
자연어 처리(NLP)를 위한 인공지능 모델. 문장의 맥락을 양방향으로 이해하는 것이 특징
- 양방향 이해
- BERT는 문장 전체를 양방향으로 동시에 학습해서 더 정확한 의미를 파악 가능
.. 내용 추가 예정