본문으로 바로가기

국내외 과학기술정책에 대한 주요 정보

주요동향

주요동향

韓, 인공지능(AI) 데이터 품질 표준안 정립…국제 표준화 작업 추진 원문보기 1

  • 국가 한국
  • 생성기관 과기정통부
  • 주제분류 핵심R&D분야
  • 원문발표일 2020-10-05
  • 등록일 2020-10-23
  • 권호 177

디지털 뉴딜 이행을 위한 뒷받침, 인공지능 데이터 품질 기준 필요성 배가


  ○ AI 학습에 있어 가장 중요한 요소 중 하나는 고품질의 방대한 데이터를 확보하는 것이며 이를 위해 AI 데이터 품질을 검사측정할 수 있는 기준이 필요


  - 현재 데이터 품질 지표로는 ISO/IEC* 25012에서 SW 품질에 영향을 미치는 데이터 품질 모델을 정확성완전성일관성신뢰성현재성 같은 데이터 고유 성질과 가용성이식성복구성유용성적합성기밀성효율성정밀성추적성이해성 등 SW 종속적 성질로 구분한 체계가 일반적


  * ISO(International Organization for Standardization): 국제표준화기구/IEC(International Electrotechnical Commission): 국제전기기술위원회


  - 또한 DAMA(Data Management Association)에서 정확성완전성일관성적시성타당성고유성의 6가지 품질지표 항목을 제시


  - 국내에서도 한국정보화진흥원이 준비성완전성일관성정확성보안성적시성유용성의 7개 지표 및 24개 세부 품질 지표를 제시


  - 이들 지표는 데이터의 일반적 성질을 기반으로 작성되었고 추상적 경우가 많기 때문에 데이터가 AI 학습에 얼마나 유용한지 평가하는데 다소 미흡한 실정


  ○ 또한 세계적으로 인공지능 기술과 서비스의 성능을 좌우하는 데이터 처리의 적정한 절차와 요구사항, 규격 등 품질 수준이 높지 않은 상황


  - MS구글 등이 4~6년 기간 동안 구축업데이트해온 유명한 개방 데이터셋(MS COCOGoogle Open Images)의 경우에도 데이터 정확도가 43~83% 수준에 불과


  - 금년 4월 우리나라가 인공지능 국제표준화회의(ISO/IEC JTC1/SC42)에 인공지능 데이터(딥러닝) 품질 관련 사항을 신규 과제로 제안하여 채택되는 등 이제 막 논의가 시작되는 초기단계


  ※ ISOIEC가 정보기술 분야 국제표준화를 위해 운영 중인 합동기술위원회(JTC 1)의 인공지능 분과위원회


  ○ 이에 우리 정부는 디지털 뉴딜 데이터 댐의 핵심 자원인 인공지능의 데이터 품질 표준안을 마련(10.5)해 국제 표준화를 선도한다는 구상


  ※ 한국판 뉴딜 종합계획(7.14)에서 디지털 뉴딜 이행을 위해 데이터 댐 구축 계획 발표. 개인정보를 포함한 모든 유무형 자산과 국

가 행정정보에 이르는 광범위한 데이터를 소위 댐에 축적해 필요한 곳에 사용하고 새로운 부가가치를 창출한다는 의미



 □ 인공지능 데이터 품질안개념범위세부 요구사항 포함한 표준 개발


  ○ 한국정보통신기술협회한국정보화진흥원을 통해 개발한 인공지능 학습용 데이터 구축 및 품질관리 공통기준(’19)’을 해외사례 분석, 인공지능 및 품질관리 전문가 자문 등을 거쳐 보완구체화하여 이번 표준안 개발


  - 자연어처리, 자율자동차, 의료, 농축수산, 제조 등 다양한 분야에서 공통적으로 적용 가능한 범용표준 형태로 개발


  ○ (정의) 인공지능 데이터 품질 표준안은 인공지능 기술(모델 및 알고리즘)에 활용한 데이터가 다양성정확성유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준으로 정의


  - 데이터 품질을 체계적으로 확보하고 상호호환성을 제고할 수 있도록 데이터 수집정제가공품질검증활용 등 전주기 단계별로 필요한 표준절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격 포함



1-1.PNG


  ○ (범위) 데이터 구축 단계에 적용되며 품질관리 대상을 데이터 자체의 품질관리(Data-Oriented Quality, 일반 요구사항)와 구축 과정의 품질관리(Process-Oriented Quality, 구축 요구사항)로 구분


  - (주요 품질 요구 사항_데이터) 품질관리 대상이 되는 데이터 상태에 따라 원시데이터, 데이터 라벨링, 인공지능 활용 품질 요구사항으로 구분


  ※ △원시데이터 수집단계의 다양성사실성 등 품질 요구사항과 파일 포맷, 해상도 등 기술 적합성 요구사항 정제단계의 데이터 중

복방지 및 비식별화 조치 요구사항 가공단계의 객체 분류체계 및 라벨링 규격 요구사항 품질검수활용 단계의 유효성 등 검수 요

구사항방법 등


1-2.PNG

  ○ (주요 품질 요구 사항_구축 절차) 품질관리가 수행되어야 하는 데이터 구축 단계에 따라 데이터 획득, 정제, 라벨링, 품질검수 및 활용 품질 요구사항으로 구분


1-3.PNG

  ○ (향후 일정) 신속하게 단체 표준화 추진 및 국제 표준화로 이어지도록 준비

 

  - 한국정보통신기술협회 단체 표준화 기구(TTA PG 1005, 인공지능기반기술) 내의 산연 전문가 의견수렴을 거쳐 신속하게 단체 표준화 추진


  ※ 10.6일 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005, 인공지능기반기술)에 공식 제안했으며 관련 전문가 의견 수렴

 절차를 거쳐 20216월 최종 채택확정 예상


  - 관련 사항을 국립전파연구원 등을 통해 인공지능 국제표준화회의(ISO/IEC JTC1/SC42)’에 제안하는 등 국제표준화 성과를 확보한다는 구상

 

  - 아울러 금년 말까지 표준안을 바탕으로 인공지능 개발자, 공공기관 관계자 등이 인공지능 데이터 품질을 보다 체계적으로 계획관리할 수 있도록 자세한 설명 등을 포함하는 인공지능 데이터 품질관리 가이드를 개발배포할 계획


  - 이번 표준안 개발로 인공지능 데이터 품질을 향상시키는 동시에 국가 전반의 인공지능 기술과 서비스 성능 제고에 일조할 것으로 기대

배너존