본문으로 바로가기

국내외 과학기술정책에 대한 주요 정보

주요동향

주요동향

구글, GPT-4 능가하는 멀티모달 성능의 ‘제미나이’ 공개 원문보기 1

  • 국가 미국
  • 생성기관 Google DeepMind
  • 주제분류 핵심R&D분야
  • 원문발표일 2023-12-07
  • 등록일 2024-01-11
  • 권호 254

□ 멀티모달 기반의 AI 모델 제미나이(Gemini)’ 공개


텍스트이미지오디오비디오 및 코드를 포함해 다양한 형태 정보를 처리하고 생성할 수 있는 복합 AI 모델 제미나이 발표(12.6.)


- 처음부터 텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 정보를 한번에 처리할 수 있도록 멀티모달 기반으로 설계하여 여러 정보를 동시에 조합처리 가능한 유연한 AI 모델

텍스트, 이미지, 음성, 동영상을 입력하면 이용자가 원하는 형태로 무엇이든 생성하는 ‘anything to anything’


- 데미스 하사비스(구글 딥마인드 CEO)는 제미나이가 미세한 차이의 정보를 잘 이해하고 복잡한 주제 관련 질문에도 답변할 수 있다며 특히 수학물리학의 추론 설명에 탁월하다고 설명

- 기능과 응용 프로그램을 고려해 3가지(제미나이 울트라(Gemini Ultra): 매우 복잡한 작업에 적합한 가장 유용하고 규모가 큰 모델, 제미나이 프로(Gemini Pro): 다양한 작업에서 확장하기에 가장 적합한 모델, 제미나이 나노(Gemini Nano): 온디바이스 작업에 가장 효율적인 모델) 크기로 최적화

울트라(최고 성능): 2024년 초 바드 어드밴스드(Bard Advanced) 서비스로 출시 예정

프로(범용): 구글의 AI 챗봇 바드에 탑재(현재는 영어만 지원). 1213일부터 개발자들은 API를 활용해 테스트 가능

나노(제일 작은 모델): 네트워크 연결 없이 온디바이스 스마트폰 기기 내에서 간단한 AI 기능을 사용, 구글 스마트폰 픽셀프로 8에 탑재 예정


- 제미나이는 구글 딥마인드와 구글 리서치 등 조직 전반에 걸친 대규모 협업의 과이며, 구글 역사상 가장 큰 과학기술적 노력의 징표이자 ‘GPT-4’를 능가하는 최고 수준의 AI 모델이라고 강조


□ 구글은 다양한 작업에서 제미나이 모델을 테스트하고 성능 평가


자연스러운 이미지와 음성, 영상 이해부터 수학적 추론까지 제미나이 울트라 성능은 대형언어모델(LLM) 연구개발 평가에 주로 사용하는 32개 벤치마크 중 30개에서 GPT-4를 뛰어넘는 것으로 확인


- 수학, 물리학, 역사, 법률, 의학, 윤리 등 총 57개 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가하는 MMLU(massive multitask language understanding; 대규모 다중 언어 이해) 테스트에서 제미나이 울트라는 90.0%에 도달

인간 전문가 89.8%, GPT-4 86.4%


- 언어능력, 추론능력, 수학 코딩에서 챗GPT-4를 앞섰으며 일상 업무를 위한 상식적 추론에서만 뒤진 것으로 평가(제미나이 울트라: 87.8%, GPT-4: 95.3%)

- 또한 제미나이 울트라는 의도적인 신중한 추론이 필요한 여러 영역에 걸친 멀티모달 작업으로 구성된 새로운 MMLU 벤치마크에서 59.4% 달성

- 테스트한 이미지 벤치마크에서 추가 처리를 위해 이미지에서 텍스트를 추출하는 객체 문자 인식(OCR: object character recognition) 시스템 도움 없이 이전의 최신 모델보다 뛰어난 성능을 보여주었다는 점에서 제미나이의 기본 멀티 모달리티를 강조하며 더 복잡한 추론 능력을 입증


제미나이가 오픈AI GPT-4 성능을 넘어선 비결은 CoT(Chain-of-thought, 연속 추론) 기술 덕분인 것으로 확인


- 구글 시연은 실시간으로 진행되지 않고 미리 준비된 이미지와 텍스트 프롬프트를 기반으로 제작, 제미나이는 그림을 그리는 이용자와 소통하는 능력 등을 보여주었으나 이 영상은 실시간 이루어진 것이 아닌 편집본으로 확인


3-1.PNG
 

배너존