AI는 그동안 디지털 환경에서 주로 활용되었으나, 최근 물리적 세계로 확장되고 있다.
Google DeepMind는 Gemini 2.0 기반의 새로운 AI 로봇 모델, “Gemini Robotics” 및 “Gemini Robotics-ER”을 발표하며, 로봇이 현실 세계에서 복잡한 작업을 수행할 수 있도록 발전시키고 있다.
Gemini Robotics란?
Google DeepMind가 발표한 Gemini Robotics는 비전-언어-행동(VLA, Vision-Language-Action) 모델로, AI가 실제 환경에서 사물을 조작하고 행동할 수 있도록 설계되었다.
기존 Gemini AI는 텍스트, 이미지, 오디오, 영상 등의 멀티모달 데이터를 분석하는 데 초점을 맞췄으나, Gemini Robotics는 로봇이 직접 사물을 조작하고, 환경 변화에 적응하며, 실시간으로 동작을 수행할 수 있도록 발전했다.
Gemini Robotics의 핵심 기술 분석
Gemini Robotics는 세 가지 주요 요소(일반화, 상호작용성, 조작 능력) 에 의해 성능이 결정된다.
1. 일반화 (Generality): 새로운 환경과 작업에 대한 적응력
- Gemini Robotics는 사전 학습되지 않은 새로운 상황에서도 적응 가능
- 기존 AI 로봇보다 일반화 성능이 2배 이상 향상됨
- 새로운 물체나 환경에서도 높은 작업 수행률 기록
예시:
- 기존 AI 로봇: 사전에 학습한 특정 물체(예: 컵)만 인식 가능
- Gemini Robotics: 처음 보는 물체라도 맥락을 이해하고 조작 가능
2. 상호작용성 (Interactivity): 실시간 적응 및 다국어 명령 이해
- Gemini 2.0의 고급 자연어 처리 기능을 기반으로 사람과 대화하며 즉각적인 반응 가능
- 다양한 언어 및 자연어 명령을 이해하고 실행할 수 있음
- Steerability 기능: 사람이 물체를 움직이면, 즉시 계획을 변경하여 다시 조작 가능
3. 조작 능력 (Dexterity): 인간 수준의 정밀한 작업 수행
- Gemini Robotics는 정밀한 손 조작이 가능하며,
- 종이접기(Origami Folding),
- 지퍼백 포장,
- 복잡한 부품 조립 등 세밀한 작업 수행 가능
- 기존 산업용 로봇보다 훨씬 정밀한 제어 가능
예시:
- 기존 로봇: 단순한 반복 작업 수행 가능
- Gemini Robotics: 섬세한 물체 조작 및 동적인 상황에서도 조정 가능
Gemini Robotics의 산업적 의미와 전망
1. 산업 및 제조업 혁신
- 기존 산업용 로봇은 반복적인 작업 수행에 최적화됨
- Gemini Robotics는 유연한 작업 수행이 가능하여,
- 자율 조립 공정 발전
- 스마트 물류 시스템에서 자율 로봇 도입 증가 예상
2. 서비스 로봇 시장 확대
- AI 로봇이 가정, 의료, 물류, 소매 업종에서도 활용될 가능성 증가
- Gemini Robotics를 탑재한 Apptronik의 휴머노이드 로봇 “Apollo” 개발 중
사례: Boston Dynamics, Agility Robotics, Tesla Optimus 등 주요 기업들도 AI 로봇 개발 강화
TI Tech Lab 김준수 연구원
Source
- Google DeepMind 공식 발표
- Google 공식 시연 영상
- Google DeepMind 기술 리포트
- Wired 기사: Gemini Robotics의 일반화 성능
- Google과 Apptronik의 로봇 협력
Add comment