국내외 과학기술 정책에 대한 간략한 정보
단신동향
해외단신
생성형 AI 개인정보보호 정책에 대한 보고서 발표 원문보기 1
- 국가 미국
- 생성기관 의회조사국(CRS)
- 주제분류 핵심R&D분야
- 원문발표일 2023-05-23
- 등록일 2023-05-30
- 권호 241
○ 의회조사국(CRS)은 생성형 AI와 개인정보 보호 문제와 관련된 정책 고려사항에 대한 보고서*를 발표
* Generative Artificial Intelligence and Data Privacy: A Primer
○ 생성형 AI는 "훈련 데이터셋"을 통해 패턴을 학습한 후, 새로운 데이터를 제공받아 패턴을 인식하거나 결과를 예측함
- 대규모언어모델(LLM)인 생성형 AI는 대량의 데이터를 필요로 함(예: OpenAI의 GPT-3는 웹에서 수집된된 약 3000억 개의 "토큰"(단어조각)으로 훈련되었으며, 1950억 개 이상의 매개변수를 가지고 있음)
○ AI 개발자들은 웹페이지에서 수집된 대규모 데이터셋을 활용하여 생성형 AI를 학습시킴
- 공개적으로 이용가능한 인터넷 사이트에서 수집된 대규모 데이터셋에는 개인 식별 정보(PII), 민감하고 저작권이 있는 콘텐츠, 잘못된 정보, 음란물 또는 잠재적으로 유해한 콘텐츠 등도 포함될 수 있음
- 사실 AI 개발자들은 자신들의 훈련 데이터셋의 정확한 세부 정보를 공개하지는 않음
○ 일부 비평가들은 생성형 AI와 공유된 사용자 데이터는 사용자 동의 없이 오용되거나 남용될 수 있는 가능성을 우려함
- 사용자들이 건강, 상담, 치료, 의료, 법률 또는 금융 서비스와 같은 민감한 정보에 대해 챗봇(생성형 AI 응용 프로그램)과 공유했다면, 챗봇은 정보를 저장하여 재훈련하거나 기타 상업적인 목적으로 사용될 수 있다는 사실은 인지하지 못함
○ 의회조사국은 개인정보 보호를 위해 포괄적이고 명시적인 개인 정보 보호 법안을 제안, 데이터 수집에 대한 문제점 언급, 나아가 이에 대한 대안에 대해 다음과 같이 논의
- 기존 데이터 개인정보 및 관련 법률은 이러한 문제를 포괄할 수 있지 않기 때문에 명시적으로 생성형 AI 관련 우려 사항에 대응할 수 있는지 검토가 필요
- 그들의 제안에는 공지 및 공개(개인정보 수집과 사용에 대한 공지나 동의 제공의 필요성), 거부(사용자들이 자신의 데이터 수집을 거부하는 옵션), 삭제 및 최소화(기존 데이터셋에서 자신의 데이터를 삭제할 수 있는 메커니즘 제공, 개인 데이터의 최대 보존 기간 요구)와 같은 요구사항을 포함
- 또한 연방거래위원회(FTC) 등은 개인정보 문제와 관련해 기존 기관의 권한을 강화해 적극적으로 대응하고 있음
- 현재 인터넷에서 공개된 데이터 수집을 금지하는 연방법이 없기 때문에, 인터넷에서 데이터 수집에 대한 규제의 필요성을 설명
- 의회는 개인정보 보호에 대한 대안 기술 모색을 위해 연구개발 지원을 고려하고 있음
* Generative Artificial Intelligence and Data Privacy: A Primer
○ 생성형 AI는 "훈련 데이터셋"을 통해 패턴을 학습한 후, 새로운 데이터를 제공받아 패턴을 인식하거나 결과를 예측함
- 대규모언어모델(LLM)인 생성형 AI는 대량의 데이터를 필요로 함(예: OpenAI의 GPT-3는 웹에서 수집된된 약 3000억 개의 "토큰"(단어조각)으로 훈련되었으며, 1950억 개 이상의 매개변수를 가지고 있음)
○ AI 개발자들은 웹페이지에서 수집된 대규모 데이터셋을 활용하여 생성형 AI를 학습시킴
- 공개적으로 이용가능한 인터넷 사이트에서 수집된 대규모 데이터셋에는 개인 식별 정보(PII), 민감하고 저작권이 있는 콘텐츠, 잘못된 정보, 음란물 또는 잠재적으로 유해한 콘텐츠 등도 포함될 수 있음
- 사실 AI 개발자들은 자신들의 훈련 데이터셋의 정확한 세부 정보를 공개하지는 않음
○ 일부 비평가들은 생성형 AI와 공유된 사용자 데이터는 사용자 동의 없이 오용되거나 남용될 수 있는 가능성을 우려함
- 사용자들이 건강, 상담, 치료, 의료, 법률 또는 금융 서비스와 같은 민감한 정보에 대해 챗봇(생성형 AI 응용 프로그램)과 공유했다면, 챗봇은 정보를 저장하여 재훈련하거나 기타 상업적인 목적으로 사용될 수 있다는 사실은 인지하지 못함
○ 의회조사국은 개인정보 보호를 위해 포괄적이고 명시적인 개인 정보 보호 법안을 제안, 데이터 수집에 대한 문제점 언급, 나아가 이에 대한 대안에 대해 다음과 같이 논의
- 기존 데이터 개인정보 및 관련 법률은 이러한 문제를 포괄할 수 있지 않기 때문에 명시적으로 생성형 AI 관련 우려 사항에 대응할 수 있는지 검토가 필요
- 그들의 제안에는 공지 및 공개(개인정보 수집과 사용에 대한 공지나 동의 제공의 필요성), 거부(사용자들이 자신의 데이터 수집을 거부하는 옵션), 삭제 및 최소화(기존 데이터셋에서 자신의 데이터를 삭제할 수 있는 메커니즘 제공, 개인 데이터의 최대 보존 기간 요구)와 같은 요구사항을 포함
- 또한 연방거래위원회(FTC) 등은 개인정보 문제와 관련해 기존 기관의 권한을 강화해 적극적으로 대응하고 있음
- 현재 인터넷에서 공개된 데이터 수집을 금지하는 연방법이 없기 때문에, 인터넷에서 데이터 수집에 대한 규제의 필요성을 설명
- 의회는 개인정보 보호에 대한 대안 기술 모색을 위해 연구개발 지원을 고려하고 있음




