본문으로 바로가기

국내외 과학기술 정책에 대한 간략한 정보

단신동향

해외단신

AI혁명의 데이터 고갈, 연구자는 무엇을 할 수 있는가? 원문보기 1

  • 국가 미국
  • 생성기관 네이처(Nature)
  • 주제분류 핵심R&D분야
  • 원문발표일 2024-12-11
  • 등록일 2024-12-20
  • 권호 278
○ 네이쳐는 인공지능(AI) 연구 및 개발에 있어 데이터 부족 문제가 가시화되고 있는 가운데, 이를 극복하기 위한 현재의 노력과 미래 전략을 제시
- 지난 10년간 AI의 폭발적인 발전에서 큰 부분은 신경망을 더 크게 만들고 더 많은 데이터로 훈련함으로써 주도되었으며, 이러한 확장은 거대언어모델(LLMs)을 보다 유능하게 만드는 데 있어서 놀라울 정도로 효과적이었음이 입증됨
- 그러나 일부 전문가들은 우리는 지금 확장의 한계에 접근하고 있다고 말하고 있으며, 이는 부분적으로 컴퓨팅에 필요한 에너지가 급증하기 때문이지만 동시에 LLM 개발자들이 이 모델을 훈련하는데 필요한 기존 데이터셋이 부족하기 때문임
○ 지난 10년 간 LLM 개발은 데이터에 대한 엄청난 욕구를 보였음
- Villalobos는 LLMs를 훈련하는데 사용되는 '토큰'수나 언어수는 2020년 이후 100배가 늘었다고 추정함
- 동시에 콘텐츠 제공자들은 소프트웨어 코드나 사용조건을 수정해서 웹크롤러를 차단하거나 AI기업이 훈련을 위해 데이터를 스크랩하는 것을 금지시키고 있음
- 데이터 접근 제한 증가와 소송 사례의 증가가 문제를 가중시키고 있으며, 주요 언론사 및 데이터 제공자는 웹 크롤러와 AI 훈련에 대한 접근을 제한하거나, 이에 대해 보상을 요구 중
○ AI 개발의 확장은 데이터와 컴퓨팅 자원의 효율적 사용에 의존하며, "더 크면 더 좋다"라는 기존 패러다임을 넘어 새로운 접근법이 주목
- 적은 자원으로 더 나은 결과를 얻기 위해 전략을 제안
(1) 개별 작업에 초점을 맞춘 더 효율적이고 작은 모델 추구
(2) 알고리즘의 개선으로 인한 컴퓨팅 파워 절약
(3) 재학습(Re-reading)을 통한 성능 향상 도모
(4) 강화 학습과 심층 사고 전략 등

배너존