
주요동향
주요동향
韓, 인공지능(AI) 데이터 품질 표준안 정립…국제 표준화 작업 추진 원문보기 1
- 국가 한국
- 생성기관 과기정통부
- 주제분류 핵심R&D분야
- 원문발표일 2020-10-05
- 등록일 2020-10-23
- 권호 177
□ 디지털 뉴딜 이행을 위한 뒷받침, 인공지능 데이터 품질 기준 필요성 배가
○ AI 학습에 있어 가장 중요한 요소 중 하나는 고품질의 방대한 데이터를 확보하는 것이며 이를 위해 AI 데이터 품질을 검사・측정할 수 있는 기준이 필요
- 현재 데이터 품질 지표로는 ISO/IEC* 25012에서 SW 품질에 영향을 미치는 데이터 품질 모델을 정확성・완전성・일관성・신뢰성・현재성 같은 데이터 고유 성질과 가용성・이식성・복구성・유용성・적합성・기밀성・효율성・정밀성・추적성・이해성 등 SW 종속적 성질로 구분한 체계가 일반적
* ISO(International Organization for Standardization): 국제표준화기구/IEC(International Electrotechnical Commission): 국제전기기술위원회
- 또한 DAMA(Data Management Association)에서 정확성・완전성・일관성・적시성・타당성・고유성의 6가지 품질지표 항목을 제시
- 국내에서도 한국정보화진흥원이 준비성・완전성・일관성・정확성・보안성・적시성・유용성의 7개 지표 및 24개 세부 품질 지표를 제시
- 이들 지표는 데이터의 일반적 성질을 기반으로 작성되었고 추상적 경우가 많기 때문에 데이터가 AI 학습에 얼마나 유용한지 평가하는데 다소 미흡한 실정
○ 또한 세계적으로 인공지능 기술과 서비스의 성능을 좌우하는 데이터 처리의 적정한 절차와 요구사항, 규격 등 품질 수준이 높지 않은 상황
- MS・구글 등이 4~6년 기간 동안 구축・업데이트해온 유명한 개방 데이터셋(MS COCO・ Google Open Images)의 경우에도 데이터 정확도가 43~83% 수준에 불과
- 금년 4월 우리나라가 ‘인공지능 국제표준화회의(ISO/IEC JTC1/SC42)※’에 인공지능 데이터(딥러닝) 품질 관련 사항을 신규 과제로 제안하여 채택되는 등 이제 막 논의가 시작되는 초기단계
※ ISO와 IEC가 정보기술 분야 국제표준화를 위해 운영 중인 합동기술위원회(JTC 1)의 인공지능 분과위원회
○ 이에 우리 정부는 디지털 뉴딜 ‘데이터 댐※’의 핵심 자원인 인공지능의 데이터 품질 표준안을 마련(10.5)해 국제 표준화를 선도한다는 구상
※ 「한국판 뉴딜 종합계획(7.14)」에서 디지털 뉴딜 이행을 위해 데이터 댐 구축 계획 발표. 개인정보를 포함한 모든 유무형 자산과 국
가 행정정보에 이르는 광범위한 데이터를 소위 댐에 축적해 필요한 곳에 사용하고 새로운 부가가치를 창출한다는 의미
□ ‘인공지능 데이터 품질안’ 개념・범위・세부 요구사항 포함한 표준 개발
○ 한국정보통신기술협회・한국정보화진흥원을 통해 旣개발한 ‘인공지능 학습용 데이터 구축 및 품질관리 공통기준(’19년)’을 해외사례 분석, 인공지능 및 품질관리 전문가 자문 등을 거쳐 보완・구체화하여 이번 표준안 개발
- 자연어처리, 자율자동차, 의료, 농축수산, 제조 등 다양한 분야에서 공통적으로 적용 가능한 범용표준 형태로 개발
○ (정의) 인공지능 데이터 품질 표준안은 ‘인공지능 기술(모델 및 알고리즘)에 활용한 데이터가 다양성・정확성・유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준’으로 정의
- 데이터 품질을 체계적으로 확보하고 상호호환성을 제고할 수 있도록 데이터 수집・정제・가공・품질검증・활용 등 전주기 단계별로 필요한 표준절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격 포함
○ (범위) 데이터 구축 全 단계에 적용되며 품질관리 대상을 데이터 자체의 품질관리(Data-Oriented Quality, 일반 요구사항)와 구축 과정의 품질관리(Process-Oriented Quality, 구축 요구사항)로 구분
- (주요 품질 요구 사항_데이터) 품질관리 대상이 되는 데이터 상태에 따라 원시데이터, 데이터 라벨링, 인공지능 활용 품질 요구사항으로 구분
※ △원시데이터 수집단계의 다양성・사실성 등 품질 요구사항과 파일 포맷, 해상도 등 기술 적합성 요구사항 △정제단계의 데이터 중
복방지 및 비식별화 조치 요구사항 △가공단계의 객체 분류체계 및 라벨링 규격 요구사항 △품질검수・활용 단계의 유효성 등 검수 요
구사항・방법 등
○ (주요 품질 요구 사항_구축 절차) 품질관리가 수행되어야 하는 데이터 구축 단계에 따라 데이터 획득, 정제, 라벨링, 품질검수 및 활용 품질 요구사항으로 구분
○ (향후 일정) 신속하게 단체 표준화 추진 및 국제 표준화로 이어지도록 준비
- 한국정보통신기술협회 단체 표준화 기구(TTA PG 1005, 인공지능기반기술) 내의 산・학・연 전문가 의견수렴을 거쳐 신속하게 단체 표준화 추진
※ 10.6일 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005, 인공지능기반기술)에 공식 제안했으며 관련 전문가 의견 수렴
절차를 거쳐 2021년 6월 최종 채택・확정 예상
- 관련 사항을 국립전파연구원 등을 통해 ‘인공지능 국제표준화회의(ISO/IEC JTC1/SC42)’에 제안하는 등 국제표준화 성과를 확보한다는 구상
- 아울러 금년 말까지 표준안을 바탕으로 인공지능 개발자, 공공기관 관계자 등이 인공지능 데이터 품질을 보다 체계적으로 계획・관리할 수 있도록 자세한 설명 등을 포함하는 ‘인공지능 데이터 품질관리 가이드’를 개발・배포할 계획
- 이번 표준안 개발로 인공지능 데이터 품질을 향상시키는 동시에 국가 전반의 인공지능 기술과 서비스 성능 제고에 일조할 것으로 기대