본문으로 바로가기

국내외 과학기술 정책에 대한 간략한 정보

단신동향

해외단신

AI 안전연구소 안전 평가 기준 제시 원문보기 1

  • 국가 영국
  • 생성기관 과학혁신기술부
  • 주제분류 핵심R&D분야
  • 원문발표일 2024-02-09
  • 등록일 2024-02-21
  • 권호 258

AI 안전연구소(AISI)는 첨단 AI 서비스에 대한 평가를 어떻게 개발·수행할 것인지에 관한 방향성과 주요 위험 형태를 제시

1) 평가 기법

- (자동화된 역량평가) 안전과 관련된 질문 세트를 개발하여, 모델 역량을 테스트하고 첨단 AI 시스템 간 답변 차이를 확인

- (레드팀) 다양한 전문가가 모델과 상호작용하여 기능을 테스트하고 모델의 안전장치를 해제하는 작업을 수행

- (인간 업리프트 평가) 악의적 사용자에 의해 활용될 경우, 인터넷 등의 기존 도구에 비해 AI 시스템이 현실에 가할 수 있는 위해를 평가

- (AI 에이전트 평가) 장기 계획 수립, 반자율적 작동, 브라우저 및 외부 DB 활용이 가능한 AI 에이전트의 역량 평가

2) 주요 위험 형태

- (오용) 첨단 AI 시스템이 악의적 행위자에 의해 얼마나 오용될 수 있는지를 평가

- (사회적 영향력) AI가 개인 및 사회와 상호작용함으로써 미치는 영향의 수준과 직업적 맥락에서 AI 시스템이 활용되는 작업 특성을 분석

- (자율 시스템) 반자율적으로 작동하는 AI 시스템의 기능을 평가

- (안전장치) 안전장치의 강점과 효과성을 평가

배너존

  • 케이투베이스
  • ITFIND
  • 한국연구개발서비스협회
  • 한국과학기술정보연구원