국내외 과학기술 정책에 대한 간략한 정보
단신동향
해외단신
AI 안전연구소 안전 평가 기준 제시 원문보기 1
- 국가 영국
- 생성기관 과학혁신기술부
- 주제분류 핵심R&D분야
- 원문발표일 2024-02-09
- 등록일 2024-02-21
- 권호 258
○ AI 안전연구소(AISI)는 첨단 AI 서비스에 대한 평가를 어떻게 개발·수행할 것인지에 관한 방향성과 주요 위험 형태를 제시
1) 평가 기법
- (자동화된 역량평가) 안전과 관련된 질문 세트를 개발하여, 모델 역량을 테스트하고 첨단 AI 시스템 간 답변 차이를 확인
- (레드팀) 다양한 전문가가 모델과 상호작용하여 기능을 테스트하고 모델의 안전장치를 해제하는 작업을 수행
- (인간 업리프트 평가) 악의적 사용자에 의해 활용될 경우, 인터넷 등의 기존 도구에 비해 AI 시스템이 현실에 가할 수 있는 위해를 평가
- (AI 에이전트 평가) 장기 계획 수립, 반자율적 작동, 웹 브라우저 및 외부 DB 활용이 가능한 AI 에이전트의 역량 평가
2) 주요 위험 형태
- (오용) 첨단 AI 시스템이 악의적 행위자에 의해 얼마나 오용될 수 있는지를 평가
- (사회적 영향력) AI가 개인 및 사회와 상호작용함으로써 미치는 영향의 수준과 직업적 맥락에서 AI 시스템이 활용되는 작업 특성을 분석
- (자율 시스템) 반자율적으로 작동하는 AI 시스템의 기능을 평가
- (안전장치) 안전장치의 강점과 효과성을 평가




