
주요동향
주요동향
초거대 AI 대화형 ‘챗GPT’…검색엔진 시장에 미칠 영향 주목 원문보기 1
- 국가 미국
- 생성기관 아시아 경제
- 주제분류 핵심R&D분야
- 원문발표일 2023-01-06
- 등록일 2023-02-03
- 권호 231
□ 초거대 인공지능(AI) GPT-3 성능에 ‘대화・창작・코딩’ 능력 더한 ‘챗(Chat)GPT’
ㅇ 인간의 언어까지 이해하며 스스로 판단・행동하는 수준으로 발전하고 있는 초거대 AI는 GPT-3에 이어 대화뿐 아니라 코딩・원고 작성까지 가능한 ‘챗GPT’ 등장으로 진일보
- 美 AI 연구기업 오픈(Open)AI는 초거대 AI GPT-3(’20.6) 출시에 이어 인간과 보다 자연스러운 대화 능력을 갖춘 GPT-3.5 버전인 ‘챗GPT’ 공개(’22.11.30)
- 챗GPT는 질문에 논리적이면서 상세한 일상의 대화가 가능하고 어려운 문제에도 답을 제시하거나 장문의 글 요약, 주제어를 제시하면 시・소설 작성의 창작 활동과 코딩까지 수행
- 인간과 자연스러운 수준 높은 대화가 가능하다는 점에서 공개 5일만인 ’22.12.4일(현지 시간) 사용자 수가 100만 명 이상에 달하는 등 큰 인기
※ 코드 작성을 도와주는 AI인 깃허브의 코파일럿(Copilot)이 100만 명의 이용자를 확보하는 데 약 6개월, 오픈AI가 만든 이미지 생성 AI인 달리2(DALL-E2)는 약 2.5개 월 소요된 사례로 비추어 볼 때, 챗GPT 서비스의 보급 속도는 전례 없는 속도
- AI가 반복적으로 시행착오를 거쳐 최적의 방법을 습득하는 머신러닝 기법을 적용해 지속적인 사용자의 지시를 받으면서 상황에 따라 실수를 줄이고 최상의 결과물을 만들어내도록 훈련
- 챗GPT 주요기능은 △챗봇 개발, △언어 번역, △콘텐츠 생성, △텍스트 요약, △코딩 등이며 전반적으로 광범위한 대화형 AI 애플리케이션 및 서비스 구축에 사용할 수 있는 강력한 도구
ㅇ 다만, △잘못된 정보 생산 가능성, △유해하거나 편견이 있는 콘텐츠 생산 가능성, △2021년 이후 사건에 대한 정보 미반영 등은 한계로 지적
□ 마이크로소프트(MS), 챗GPT 적용해 검색엔진 시장에 도전장
ㅇ MS는 자사 검색엔진 빙(Bing)에 챗GPT를 결합한 AI 버전의 새로운 검색엔진을 개발, 오는 3월경 출시를 목표로 글로벌 검색엔진 시장에서 존재감을 발휘한다는 구상
※ 스탯카운터닷컴, 인터넷트렌드 등에 따르면 글로벌 검색엔진 시장에서 구글 점유율은 92%로 압도적 1위인 반면, MS 빙은 3%대 수준에 불과
- 검색결과에 링크만 단순 나열하는 방식이 아니라 챗GPT를 적용하면 검색 질의에 대해 이용자 의도를 파악해 가장 정확한 답변, 상세한 결과를 제시 가능한 것이 강점
- 예를 들어 ‘외국인에게 추천할 만한 서울 관광지’를 검색하면 챗GPT는 ‘창덕궁, 서울숲 등이 있다’고 즉시 답하고 ‘추천한 관광지 중 서울역에서 가장 가까운 곳’을 물으면 곧바로 답변하며 정보를 나열하는 구글 검색과 차별
※ 구글은 연관된 내용이 있는 문서들을 보여주고 사용자는 이들 결과 중 본인의 의도에 가까운 정보를 선택하는 방식
- MS는 지난 ’22.10월 오픈AI의 이미지 생성 AI 모델인 ‘달리2(DALL-E 2)’의 기능을 빙에 통합할 것이라고 밝힌 바 있어, 검색엔진 고도화를 위해 오픈AI의 대표 솔루션인 챗GPT와 달리2를 모두 결합하는 셈
- 검색엔진 외에도 MS 워드(Word), 아웃룩(Outlook), 파워포인트(Powerpoint) 및 MS 365앱에 챗GPT를 도입하여 사용자가 간단한 프롬프트를 입력해 자동으로 텍스트를 생성할 수 있도록 하는 방안 논의
ㅇ 구글은 자회사 딥마인드의 ‘알파고(바둑 AI)’, 람다(AI챗봇) 개발 등 글로벌 AI 기술을 선도하고 있으나 최근 챗GPT 급부상과 관련 업계 도전에 긴장
- 뉴욕타임스에 따르면 구글 경영진은 ‘코드 레드(code red)’를 선언하고 구글의 주 수익 모델인 ‘검색 서비스’에 위협이 될 수 있다며 경계심 표명
※ 순다르 피차이 구글 CEO는 올 초 AI 전략과 관련해 열린 일련의 회의에서 챗GPT가 검색엔진 사업에 미치는 위협을 해결하는 데 집중할 것을 지시
- 구글 검색엔진은 이용자가 입력한 검색어와 연관성이 높은 링크를 보여주고 해당 링크에 직접 액세스하여 정보를 찾아보는 방식
- 검색결과를 직접 선별하고 판단해야하는 구글 검색엔진과 달리 챗GPT와 같은 대화형 AI챗봇은 상대적으로 간편하게 정보를 확보할 수 있다는 점에서 구글에게는 위협 요인
- 구글은 검색엔진을 기반으로 한 광고사업이 수익의 큰 비중을 차지하고 있는만큼, 검색 시장의 판도 변화는 전체 수익에 영향을 미칠 수 있기 때문에 챗GPT 등장에 대비하는 모습
□ 챗GPT ‘검색엔진’ 시장 판도 변화 vs 아직 완성도 미흡 등 전망은 상이
ㅇ 챗GPT는 필요한 정보검색 시간을 획기적으로 줄여준다는 점에서 구글이 야후를 도태시켰던 것처럼 검색시장의 판도 변화를 불러올 수 있다는 전망
- 이용자 의도를 파악해 가장 정확한 답변을 제공한다는 점에서 구글 검색엔진을 넘어설 수 있으며 질문에 답이 될 만한 여러 선택지를 보여주는 구글과 달리 즉각적인 해답을 찾아주는 것이 챗GPT의 강점
ㅇ 반면, 오류와 편향된 정보에 대한 학습이 더 필요하기 때문에 검색엔진 시장판도를 바꾸기에는 아직 더 많은 시간이 필요하다는 견해도 공존
- GPT는 학습한 내용에 오류가 있거나 편향된 정보가 있으면 잘못된 답을 내놓을 수 있으며 AI 특성상 학습에 시간이 걸려 최신 정보를 바로 반영하지 못하는 것도 단점
※ 일론 머스크 테슬라 최고경영자(CEO)가 윈도체제를 개발했다고 하거나 대한민국 대통령을 문재인 전 대통령이라 답하는 등의 오류
- 거짓된 정보를 사실처럼 그럴듯하게 꾸며내 악용 가능성도 배제할 수 없는 상황
ㅇ 구글은 AI 챗봇(람다2)이 사실과 허구를 명확하게 구분하는데 아직 한계가 있고 성적・인종차별적 발언, 증오문제가 생길 수 있다는 점, 검색광고 중심의 수익모델 근간을 흔들 수 있다는 점에서 대화형 AI 챗봇의 검색엔진 도입은 미온적임
□ 2023년 GPT-4 출시 기대, 2023년 AI 업계 10가지 예측<포브스>에도 포함
ㅇ GPT-4에 대한 구체적인 사항은 공개되지 않았으나 더 많은 데이터를 학습하여 그림뿐만 아니라 음악・영상・글 등 다양한 분야에서 활용 가능한 버전으로 출시 예상
- GPT-4 매개변수(파라미터:Parameter)※는 약 1조 개 규모로 예상되며 데이터 처리에 최적화될 것으로 관측
※ 인간 뇌의 학습・연산 기능을 담당하는 ‘시냅스’와 비슷한 역할로 파라미터 수가 많아질수록 AI 성능을 높이는 셈
- 오픈AI가 2018년 첫 출시한 GPT-1은 1억 1,700만 개 매개변수로 학습하였고 2019년 공개한 GPT-2는 모델의 크기에 따라 약 1억 2,400만 개에서 15억 개로 GPT-1의 10배 수준, GPT-3는 매개변수 1,750억 개로 GPT-2의 100배 규모
- 종전의 GPT-3가 텍스트 데이터만 학습했다는 점에서 한계가 있으나 GPT-4는 소리・영상・사진・ 촉각 등 다양한 형태의 정보를 입력하고 사고 가능할 것으로 예상
- GPT-4가 텍스트, 이미지, 오디오 등 데이터 입력과 학습이 가능하다면 마치 인간이 정보를 받아들이고 뇌가 사고하는 방식과 거의 동일한 수준
ㅇ 포브스는 ‘2023년 AI 업계 10가지
※ 예측(’22.12)’에서 GPT-4의 등장을 이슈로 포함
※ ①GPT-4 등장, ②AI 훈련 데이터 부족 현상 발생, ③무인자동차 대중화, ④텍스트-이미지 전환 AI 플랫폼(DALL-E, Midjourney 등)에 대한 투자 확대, ⑤대화형 검색 부상, ⑥휴머노이드 로봇 개발 경쟁 격화, ⑦거대언어모델 도구(LLMOps) 부상, ⑧알파폴드(단백질과 효소의 구조를 정확하게 예측하는 AI) 기반의 연구 프로젝트 급증, ⑨AI연구소의 로봇 공학 ‘기초 모델(foundation model)’구축 노력, ⑩AI 구동에 필수인 반도체 칩 확보를 위해 미국이 자국 제조・생산시설에 대규모 투자 계획
- ’22년 AI 분야의 가장 큰 변화가 ‘생성 AI의 비약적인 발전’이라면 ’23년에는 한층 진보한 초거대 언어모델 GPT-4가 등장해 더욱 빠른 변화를 불러올 것이라고 전망
- 2023년 초 공개를 예상하는 GPT-4는 멀티모달이 될 가능성이 있다고 예측
※ 멀티모달은 텍스트(언어) 외에도 이미지, 비디오 그리고 다른 데이터 형식(생체신호 등)을 컴퓨터가 인식하는 것