해외단신

AI 안전연구소 안전 평가 기준 제시 원문보기 1

○ AI 안전연구소(AISI)는 첨단 AI 서비스에 대한 평가를 어떻게 개발·수행할 것인지에 관한 방향성과 주요 위험 형태를 제시

1) 평가 기법

- (자동화된 역량평가) 안전과 관련된 질문 세트를 개발하여, 모델 역량을 테스트하고 첨단 AI 시스템 간 답변 차이를 확인

- (레드팀) 다양한 전문가가 모델과 상호작용하여 기능을 테스트하고 모델의 안전장치를 해제하는 작업을 수행

- (인간 업리프트 평가) 악의적 사용자에 의해 활용될 경우, 인터넷 등의 기존 도구에 비해 AI 시스템이 현실에 가할 수 있는 위해를 평가

- (AI 에이전트 평가) 장기 계획 수립, 반자율적 작동, 웹 브라우저 및 외부 DB 활용이 가능한 AI 에이전트의 역량 평가

2) 주요 위험 형태

- (오용) 첨단 AI 시스템이 악의적 행위자에 의해 얼마나 오용될 수 있는지를 평가

- (사회적 영향력) AI가 개인 및 사회와 상호작용함으로써 미치는 영향의 수준과 직업적 맥락에서 AI 시스템이 활용되는 작업 특성을 분석

- (자율 시스템) 반자율적으로 작동하는 AI 시스템의 기능을 평가

- (안전장치) 안전장치의 강점과 효과성을 평가