1. 개요
Gemma 모델은 처음 출시된 이후 1억 번 이상 다운로드되었으며, 다양한 사용 사례를 위해 60,000개 이상의 변형이 만들어졌습니다. Google은 이전 버전의 성공을 기반으로 가장 강력하고 발전된 Gemma 3를 공개했습니다.
Gemma 3는 기존 커뮤니티의 피드백을 반영하여 더 긴 컨텍스트 윈도우, 멀티모달 기능 등을 새롭게 추가하였습니다.
2. 내용
2.1 Gemma 3의 새로운 기능
Gemma 3는 다음과 같은 새로운 기능을 도입했습니다.
- 멀티모달 기능: 비전-언어 입력을 지원하며, 텍스트 기반 출력이 가능합니다.
- 긴 컨텍스트 윈도우: 최대 128K 토큰의 문맥을 처리할 수 있습니다.
- 다양한 언어 지원: 140개 이상의 언어를 이해하고 처리할 수 있습니다.
- 향상된 수학 및 논리적 사고 능력: 보다 정확한 수학 문제 해결 및 논리적 추론이 가능합니다.
- 강화된 대화 기능: 구조화된 출력 및 함수 호출 기능이 추가되었습니다.
Gemma 3는 1B, 4B, 12B, 27B의 네 가지 크기로 제공됩니다.
각 모델은 사전 훈련(pre-trained) 모델과 범용 지시 조정(instruction-tuned) 버전으로 사용할 수 있습니다.
3. 특징
3.1 Gemma 3의 학습 방법
Gemma 3는 사전 훈련 및 후속 훈련 과정에서 여러 최적화 기법을 사용하여 성능을 향상시켰습니다.
- 사전 훈련: Google TPUs에서 JAX 프레임워크를 활용하여 훈련됨.
- 데이터 규모:
- 1B 모델: 2조(2T) 토큰으로 학습
- 4B 모델: 4조(4T) 토큰으로 학습
- 12B 모델: 12조(12T) 토큰으로 학습
- 27B 모델: 14조(14T) 토큰으로 학습
3.2 강화 학습 기법 적용
Gemma 3는 4가지 강화 학습(RL) 기법을 활용하여 성능을 개선했습니다.
- 대형 지도 모델(Distillation) → Gemma 3의 사전 훈련 체크포인트로 지식 증류(distillation)
- 인간 피드백 강화 학습(RLHF) → 모델의 출력을 인간의 선호도에 맞게 조정
- 머신 피드백 강화 학습(RLMF) → 수학적 추론 능력을 강화
- 실행 피드백 강화 학습(RLEF) → 코딩 성능을 개선
이러한 개선을 통해 LMArena 벤치마크에서 1338점을 기록하며 최고 수준의 오픈소스 경량 모델로 평가받고 있습니다.
3.3 Gemma 3의 대화 형식
- Gemma 2와 동일한 대화 형식을 사용 → 텍스트 기반 툴을 그대로 유지 가능
- 이미지 입력 지원 → 텍스트와 이미지를 혼합하여 입력 가능
예시:
<bos><start_of_turn>user
knock knock<end_of_turn>
<start_of_turn>model
who is there<end_of_turn>
<start_of_turn>user
Gemma<end_of_turn>
<start_of_turn>model
Gemma who?<end_of_turn>
또한, 이미지 간 주석 달기 기능도 제공됩니다.
<bos><start_of_turn>user
Image A: <start_of_image>
Image B: <start_of_image>
Label A: water lily
Label B:<end_of_turn>
4. 결론
Gemma 3는 기존 모델보다 더욱 혁신적인 기능을 갖춘 AI 모델로, 다음과 같은 점에서 강력한 개선을 이루었습니다.
- 멀티모달 지원 → 비전-언어 모델로 발전
- 긴 문맥 윈도우 → 128K 토큰 처리 가능
- 강화된 학습 방식 → RLHF, RLMF, RLEF 등을 통한 최적화
- 140개 이상의 언어 지원 → 글로벌 사용자 대상 확장
이러한 기술적 발전을 바탕으로 Gemma 3는 차세대 오픈소스 AI 모델로 자리 잡을 것으로 기대됩니다.
이 글은 Google Developers Blog – Introducing Gemma 3의 내용을 바탕으로 작성되었습니다.
TI Tech Lab 박선홍 연구원
Add comment