위험한 AI 딥시크…안전·신뢰성 취약 '위험정보 노출'

화염병 제조·피싱 이메일 생성 등 '유해 콘텐츠' 제공

딥시크의 인공지능(AI) 모델 R1이 탈옥에 취약한 것으로 확인됐다. 사진=로이터

중국의 인공지능(AI) 모델 딥시크가 위험정보에 취약한 것으로 밝혀졌다. AI 안전 전문가 테스트에 따르면 딥시크는 간단한 프롬프트 입력을 통한 '탈옥'으로 SNS에서 유행하는 '자해 챌린지'를 추천하거나 멀웨어가 포함된 피싱 이메일을 만드는 법을 추천해 잠재적 위험도가 높다는 설명이다.

월스트리트저널은 8일(현지시각) AI 안전 전문가와 딥시크 R1에 대한 안전성 테스트를 진행했다. 그 결과 미국 빅테크가 개발한 주요 AI 모델에 비해 잠재적 위험성이 더 높은 것으로 밝혀졌다.

AI 개발자들은 모델 훈련에 있어 사용자에게 해가 되는 정보를 제공하거나, 사회적으로 논란을 일으킬 수 있는 발언을 지양하도록 주의를 기울이고 있다. 이렇게 학습된 AI들은 백인 우월주의의 장점을 설명하거나, 대량 살상에 쓰이는 무기 제조법 제공 요청에 대해 답변을 거부한다.

그러나 일명 '탈옥'이라는 방법은 AI를 혼동시킬 수 있다. 원하는 바를 수 차례에 걸쳐 우회해 답변하도록 하는 것. 안전성 테스트에 참여한 AI 보안 회사들은 딥시크 모델을 통해 어렵지 않게 탈옥할 수 있었다고 설명했다.

유해 콘텐츠에 대한 직접적 요청은 거부하지만 탈옥을 통해 딥시크는 10대를 대상으로 자신의 몸을 상처입히는 '자해 챌린지'를 추천했다. 또한 멀웨어를 포함한 피싱 이메일을 만들고, 히틀러를 지지하는 선언문을 작성하는 등의 위험성을 보였다.

팔로알토 네트웍스의 사고 대응 부서는 딥시크를 통해 화염병 제조에 대한 자세한 설명을 얻었다. 켈라는 딥시크 R1이 멀웨어를 만들도록 했다. 업계 관계자는 "딥시크는 다른 모델에 비해 탈옥에 더 취약하다. 비교적 간단하게 탈옥에 성공했으며, 위험한 콘텐츠 생성을 방지하도록 설계된 최소한의 방지책이 없다는 것이 확인됐다"고 말했다.

편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com