87 |
||
이슈분석 : 딥러닝으로 탄력 받는 자동통번역 |
||
○ 구글 번역기 및 지니톡* 등 자동 통번역 관련 애플리케이션의 사용자 증가 추세
- 국내기업의 해외진출ㆍ여행ㆍ쇼핑(해외직구) 확대에 따른 통번역 수요가 증가
- 머신러닝 등 인공지능 기술의 발달로 애플리케이션 품질이 향상되고 있으며 간단한 회화 및 번역 가능
* 지니톡 : ETRI(한국전자통신연구원)에서 개발한 자동통번역 애플리케이션으로 2015년까지 무료로 220만 건 다운로드
○ 아직 통번역 품질은 미흡하지만 점점 정확성이 높아지면서 활용 증가
- 영어기반은 활용 가능한 음성 및 텍스트 DB가 많아 정확성이 높으며 정확도는 70 ~80% 수준
- 반면, 한국어를 비롯하여 베트남, 태국어 등 아시아권 언어는 언어 특성상 개발이 어렵고 데이터 확보가 쉽지 않아 품질 향상에 어려움
○ 자동 통ㆍ번역 시스템이 인공지능의 한 분야로 각광받으면서 차세대 신기술로 부상
- 일본 총무성은 글로벌화 추세에 따라 자동통번역 기술 확보가 국가 경쟁력과 직결된다고 선언
- 가트너는 ‘음성 자동통역(Speech- to- Speech)’을 5~10년 내 가장 유망한 미래기술로 전망
|
※ 자료 : Gartner
① 자동통번역 기술 개요 |
○ 특히, 자동통번역은 음성인식(ASR)과 자동번역(MT) 두 기술이 핵심으로, 현재 음성인식 기술수준은 매우 높은 것으로 알려져 있으며 자동번역은 딥러닝 기술이 적용되면서 발전
※ 자동번역은 크게 Machine Translation(기계번역)을 말하며 사람의 손을 거치지 않고 컴퓨터를 이용한 번역으로 기계번역 또는 자동번역이라 일컬음
○ 음성인식(Auto Speech Recognition, ASR)은 통번역기술 뿐만 아니라 스마트폰의 인공비서 서비스, 자동응답서비스 등 인공지능에서 중요한 기능으로 발전
- 아이폰의 ‘시리(Siri)’, 구글의 ‘나우’, MS의 ‘코타나’, 삼성의 ‘S보이스’, LG의 ‘Q보이스’ 등에 적용되고 있음
- 음성인식 업체로는 뉘앙스가 세계 최고의 기술을 보유하고 있으나 중국의 아이프라이텍(iFlytek) 등 중국의 추격도 만만치 않음
○ 자동번역 기술은 크게 규칙기반(Rule- Based Machine Translation, RBMT)과 통계기반(Statistical Machine Translation, SMT), 이를 합한 하이브리드(RBMT+SMT) 기반으로 구분
- 규칙기반(RBMT)은 어법을 규칙화하여 번역하는 방법으로 기존 번역SW의 방법이며, 정확성이 높고 분야별 전문성으로 가지고 있으나 개발에 어려움
- 통계기반(SMT)은 방대한양의 대역코퍼스(bilingual corpus)*를 바탕으로, 통계적으로 규칙을 모델링하여 번역하는 방법으로 딥러닝 기술과 빅데이터 기술로 코퍼스 확보에 용이
* 대역코퍼스(bilingual corpus) : 언어를 연구하는데 필요한 연구재료를 뜻하며, 통번역분야에서는 대규모 언어 데이터베이스를 뜻함
구분 |
통계기반(SMT) |
규칙기반(RBMT) |
특 징 |
방대한 양의 코퍼스를 바탕으로 통계적 모델링에 의거 번역 |
언어 규칙(문법)에 의거하여 번역 |
단 점 |
번역 품질이 높지 않고 예문이 작을 경우 정확성은 더 떨어짐 |
해당언어의 높은 이해력이 필요하며 구현하는데 어려움 |
장 점 |
비교적 개발에 용이하며 예문이 많을 경우 효과적 |
문법에 기반을 두어 번역하기 때문에 정확성이 높음 |
SW |
공개SW(번역기)/무료 서비스에 적합 |
전문SW/ 유료 서비스에 적합 |
※ 자료 : 언론기사 등을 바탕으로 재구성
② 국내외 동향 |
○규칙기반(RBMT)은 SDL이, 통계기반(SMT)은 애플, IBM 등 글로벌 기업들이 하이브리드 기반(RBMT+SMT)은 시스트란이 주도
- 기존의 통번역 SW 솔루션에서 Web- Base Application으로 통번역 흐름이 바뀌고 있으나 품질 및 보안상의 이유로 기업과 공공부문에서는 아직까지 SW솔루션을 많이 사용하고 있으며 최근 구글 및 MS의 번역 애플리케이션의 확산으로 자동번역이 대중화
- 시스트란, SDL은 세계적인 자동통번역 SW 기업으로 기업과 공공부분의 고객들을 많이 보유하고 있으나 최근 통번역애플리케이션의 영향으로 다양한 사업모델을 출시·계획
○ 인공지능 기술 가속화에 따라 통번역 기술은 급격히 향상
- 구글, MS 등 해외글로벌 업체들의 딥러닝, 머신러닝 같은 인공지능(AI) 기술과 맞물려 자동통번역 정확성이 높아지고 있음
- 구글은 증강현실 애플리케이션 ‘퀘스트 비주얼’을 인수, 이미지 번역을 시작하였으며 통계기반의 구글번역기를 무료로 서비스, 자동통번역을 포함한 인공지능 시장을 적극 공략
* 영어기반 높은 수준으로 100개 언어의 통번역 서비스를 제공하고 있고 이미지인식 및 실시간 채팅 등 의 부가서비스 등을 제공하면서 범용적으로 사용
- MS는 스카이프 트랜스레이터를 통해 실시간 채팅 시 통번역 서비스를 제공하여 큰 인기
○ 자동 통번역 관련 세계시장은 형성초기 단계로 ’19년까지 69억 달러(약 8조원) 규모로 성장할 것으로 전망(자료:윈터그린리서치)
- 음성인식 관련 세계시장은 연 16.2% 성장, ’17년 1,130억 달러 규모로 성장 예상되며 이는 로봇 등 연관된 시장 포함(출처 : BCC research, 2013)
- 자동번역(Machine Translation Market) 규모는 ’22년 9억 8,330만 달러 규모로 성장 전망(출처 : Grand View Research)
- 그 외에도 세계 통번역 및 현지화 시장의 규모는 약 40조원에 이르며, 이 가운데 통번역 관련 SW 시장규모는 5조원에 이르는 것으로 추산되고 국내 통번역 및 현지화 시장은 500억 규모로 전망(출처 : ITDAILY, ’15.06.01)
○ 네이버 번역기, ETRI가 개발한 지니톡, CSLi(현 시스트란)가 개발한 S번역기 등 국내 번역기 품질은 우수하며 불어, 스페인어 등 점차 지원 언어 확대 중
- ‘네이버’는 인공지능 기술을 바탕으로 네이버 번역기를 개발, 최근 15개 언어를 지원하는 전략을 수립하였으며 참여번역 서비스 및 라인과 연계하여 사용 확대 유도
※ ‘2015 아시아 번역품질평가 대회(Workshop on Asian Translation)’에서 한국어- 일본어 분야 1등 수상 등 정확성이 높으며 라인 번역봇, 라인 딕셔너리 등 서비스의 다양화 등 글로벌 전략 중
- 국내의 자동번역 솔루션 기업인 ‘CSLi’는 세계1위 번역기술을 보유한 시스트란을 인수, 사명을 ‘시스트란 인터내셔널’으로 변경하였으며 ‘ETRI’의 ‘지니톡’을 기술이전
※ 시스트란은 그린광학과 함께 동시통역 HMD기기를 개발하였으며, 중국 ‘킹소프트’ 및 ‘한글과 컴퓨터’와 합작회사를 설립하였고 최근 플랫폼 공개 등 적극적 시장 확대
- 번역관련 통합플랫폼 ‘플리토(Flitto)’는 ‘집단지성 번역 플랫폼’이라는 전략 하에, 사람들이 실시간 번역에 참여하여 1:1로 번역해주는 서비스를 실시
※ 플리토는 170여 개국 370만 사용자가 18개 언어로 이용 중이며 하루 요청건수만 7만 건에 달함
○ 국내에서 주로 이용되는 번역기로는 구글 번역기와 네이버 번역기
- 국내용 번역기로는 네이버번역기를 비롯하여 지니톡, S번역기 등이 있으며 구글 번역기가 별로의 애플리케이션을 제공하고 있고 네이버는 사전과 함께 제공
- 최근 네이버는 번역기 대회에서 대상을 수상하며 품질의 우수성이 인증 받았고 S번역기는 삼성 갤럭시폰에 탑재되어 있으며, 지니톡은 시스트란, 한컴인터프리 등으로 기술이전
○ 정부는 미래부, 문체부 등과 연계하여 2018년 평창 동계올림픽을 목표로 자동통역서비스의 기술개발 및 지원 사업을 추진 중에 있으며 한↔7개 국어 간의 통역을 목표로 준비 중
- ETRI는 기존의 한↔영, 한↔일, 한↔중, 3개 국어에서 한↔스페인, 한↔프랑스, 한↔독, 한↔러 등 총 7개 국어 지원을 목표로 개발 중에 있으며 통역 성공률 80%를 목표로 추진 중
- 인터넷과 연계된 서버접속형 및 서버 접속이 필요 없는 단말 탑재형 두 가지로 서비스 예정
③ 최근 이슈 |
○ 최근 통번역SW·서비스는 스마트폰을 넘어 스마트워치, HMD 등 다양한 디바이스로 확대되며 진화
- 최근 미국에서 열린 CES 2016에서도 일본 ‘Logbar’사는 휴대용 통역기 ‘ILI’를, 국내 통번역SW기업인 ‘시스트란’도 ‘그린광학’과 함께 웨어러블 통역 HMD기기 발표
- 구글은 스마트워치용 운용체계(OS)인 ‘안드로이드웨어(Android Wear)’에 44개 언어로 자동 번역되는 기능을 추가하여 말을 하면 화면에 자동 번역된 말로 표시
○ 구글, IBM 등 해외 기업 및 네이버, 시스트란 같은 국내 업체들도 플랫폼 공개를 통한 시장 선점 및 확대 전략 추진
- 구글이 ‘텐서플로우(Tensor Flow)’를 공개하면서 본격적인 인공지능 플랫폼 개방 전략을 추진
- IBM은 기존 하드웨어 중심에서 인공지능(AI)으로 역량을 집중하면서 왓슨을 기반으로 플랫폼을 공개하며 인공지능 기능을 선도하는 기업으로 구글과 경쟁 중
- 국내 네이버도 공개 API 전략 하에 플랫폼을 공개 및 시스트란도 플랫폼 공개 추진
○ 다른 산업과의 연계를 통한 이종산업 간 플랫폼 경쟁으로 확대 전망
- 플랫폼 오픈전략은 통번역 분야이외의 기업들의 해외 현지화 및 여행, 교육 등 다양한 분야에 접목되어서 활용할 수 있는 이종산업 간의 플랫폼 경쟁으로 확대될 것으로 전망
○ MS의 클라우드기반 자동번역 서비스인 ‘스카이프 트랜스레이터(Skype Translator)’는 일부 언어에 한해 동시통역서비스를 시작
- 동시통역서비스는 ’14년 4개 언어(영어, 스페인어, 이탈리어, 중국어)에 한하여 일부 단말기를 통해 시범서비스를 제공하다 ‘15년부터 일반인에게 프리뷰버전으로 지원
- 향후, 자동통번역은 실시간동시통역으로 진화될 것으로 전망되며 빅데이터와 머신러닝 기술의 발달로 실현가능성은 확대
○ 플랫폼 공개 및 디바이스 개발을 기반으로 통합 C- P- N- D* 전략 확산
* C(콘텐츠)는 애플리케이션이 다양화 및 부가서비스 확대를 통한 편의성 증대
P(플랫폼)은 공개 플랫폼 전략을 통한 동종, 이종산업 간의 서비스 확대
N(네트워크)는 서버접속형 및 서버접속 불가한 단말기형태 등 네트워크에 영향을 받지 않는 서비스 제공
D(디바이스)는 스마트폰을 벗어나 시계, 안경, 단말기 등 다양한 디바이스를 개발
○ 품질향상과 더불어 이미지 인식, 번역참여서비스 등 부가서비스를 통한 가치 증대
- 구글은 구글번역기의 오류율을 최근 2년간 머신러닝을 활용, 23% →8%로 줄이는 등 품질 향상에 집중하면서 이미지 번역 등을 통한 부가서비스 확대로 편의성 증대
- 네이버는 번역참여를 통한 번역품질 향상 및 자동완성 기능 등 부가서비스 확대
○ 국내 기술력은 부분적으로 우수하지만 세계적인 서비스로 발전하기에는 부족
- 대부분의 통번역서비스가 국내에 한정되어 있고 기존의 통번역 애플리케이션의 보급으로 국내 기업들의 애플리케이션 확산에 어려움
- 네이버는 한국어를 기본으로 한↔중, 한↔일 등 지원 언어를 확대하고 SNS 서비스‘Line(라인)’을 통한 글로벌화의 일환으로 사전·번역 서비스 추가
- 시스트란(전 CSLi)의 경우, 해외 통번역SW 전문기업인 시스트란을 인수하고
지니톡을 기술이전 받는 등 제품과 기술을 보유하고 있으나 글로벌 기업들과 경쟁에 어려움
○ 애플(시리), 페퍼(소프트뱅크)과 같은 로봇 및 비서서비스 등에서 음성인식(SR) 기능이 활용되면서 자동번역(MT)와 함께 음성인식 기술도 급부상
- 제 1세대 단순 음성(단어) 인식에서 제 3세대 문장 추론을 통한 대답 기능까지 인공지능, 로봇 등의 핵심기능으로 진화
- 음성인식 관련 기술은 해외 기업이 우수하지만 국내 경우, ETRI와 네이버 등에서 기술력 확보하고 있는 것으로 조사되며 일부 스타트업을 중심으로 음성인식 연구 중으로 파악
④ 결론 및 시사점 |
○ 한글 기반 자동통번역 관련 기술력은 보유하고 있으나 사업화를 위한 적극적이고 체계적인 투자 및 전략 필요
- 일부 기업이 해외기업 인수 및 협력관계를 구축하고 있으나 기술력 대비 대외인지도 및 편의성 부족으로 사업화 단계 투자 확대 및 체계적 마케팅 전략 필요
○ 업체 간 협력 및 스타트업 인수 등 전략적 대응 필요
- 해외는 스타트업 인수, M&A 등을 통해 효율적이고 발 빠르게 대응하는 반면, 국내기업들은 독자적인 개발을 선호하고 있어 속도경쟁에서 불리
- 국내 업체들의 협력 및 합병을 통해 지원 언어쌍 확대 및 해외협력 활동 증대 필요
○ 한국어를 기반으로 하는 아시아 언어를 중심으로 기술 선점 필요
- 글로벌 기업들은 영어를 기반으로 정확성이 높지만 아시아 언어는 언어의 이해 및 예문 확보에 어려움이 있으므로 아시아권 언어를 중심으로 기반을 구축하여 해외 업체들에 대비
* 한국어↔영어, 한국어↔중국어, 한국어↔일본어 등 한국어 기반의 품질은 우수함으로 한국어 기반의 번역가능 언어를 확대하여 해외기업 진입에 대비
○ 동시통번역을 위한 C- P- N- D 통합전략 확대
- 최근 다양한 디바이스와 플랫폼 공개로 C- P- N- D 통합적 전략 구축이 가능해짐에 따라 국내 업체들도 콘텐츠 강화, 플랫폼 개방, 디바이스 개발 등을 아우르며 시너지효과를 낼 수 있는 통합 마케팅 전략 필요
○ 향후 인공지능은 점차 확대됨에 따라 정부의 장기적이고 안정적인 지원이 최우선
- 최근 구글의 ‘알파고’와 이세돌의 바둑대결에서 보듯이 인공지능에 대한 관심이 증폭되고 있는 가운데 일시적인 관심보다는 장기적인 지원이 중요
- 일부 정부의 지원 사업이 가시적이고 단기적인 경향이 있으므로 장기적 측면으로 지원
○ 인공지능의 확산을 위해 산·학·연 협력관계 구축 필요
- 인공지능은 학문적인 성격이 강하므로 대학에서부터 기초학문에 집중하고 기업체의 적극적인 R&D 투자와 연구소들의 고비용·장기성 과제 수행이 필요
- 폐쇄적인 국내 문화와 반대로 인공지능은 오픈화 되어가는 추세에 맞춰 국내 업체들 간의 기술 교류 및 협력관계 필요
출처 : 정보통신기술진흥센터 (2016.3.)
http://webzine.iitp.kr/down/vol05/issue/ICT_Spot_Issue_201602.pdf