닫기

글로벌이코노믹

앤트로픽, AI 보안 시스템 개발...자일브레이크 공격 95% 차단

글로벌이코노믹

앤트로픽, AI 보안 시스템 개발...자일브레이크 공격 95% 차단

버그 바운티 프로그램으로 3000시간 이상 검증...계산 비용 증가 등은 과제
앤트로픽 로고. 사진=로이터이미지 확대보기
앤트로픽 로고. 사진=로이터
인공지능(AI) 기업 앤트로픽(Anthropic)이 AI 자일브레이크(jailbreak) 공격을 차단하는 새로운 보안 시스템을 개발했다고 시장조사기관 오픈툴즈가 5일(현지시각) 보도했다.

오픈툴즈에 따르면, 이 시스템은 AI 모델을 직접 수정하지 않고 자일브레이크 시도를 사전에 차단하는 필터링 방식을 채택했다. 자일브레이크는 프롬프트 해킹을 통해 AI 시스템의 윤리적 가이드라인이나 보안 설정을 우회해 제한된 기능이나 정보를 획득하려는 해킹 수법을 말한다.

이 방어 시스템은 자일브레이크 공격의 95%를 차단해 공격 성공률을 86%에서 4.4%로 낮추는 성과를 거뒀다고 오픈툴즈는 전했다. 앤트로픽은 시스템 개발 과정에서 안전 및 비안전 프롬프트를 포함한 수천 개의 질문-답변 데이터를 구축했으며, 이를 실제 자일브레이크 공격 패턴에 맞춰 변형하며 데이터셋을 확장했다.

앤트로픽은 시스템의 보안 성능을 검증하기 위해 버그 바운티 프로그램을 실시했다. 오픈툴즈는 "183명의 참가자들이 3000시간 이상 테스트를 진행했으나, 10개의 제한된 질문 중 5개 이상을 해결한 참가자가 없었다"며 "1만 개의 AI 생성 자일브레이크 프롬프트로 진행한 추가 테스트에서도 동일한 수준의 방어 성능이 확인됐다"고 설명했다.
다만 이 시스템은 계산 비용을 약 25% 증가시키고, 일부 정당한 사용자 요청을 차단하는 등의 기술적 한계도 나타났다고 오픈툴즈는 지적했다.

오픈툴즈는 "이번 보안 강화로 앤트로픽이 데이터 보안이 핵심인 금융, 의학, 법률 분야에서 경쟁력을 확보할 것"이라며 "기업들의 AI 파트너십 다각화 추세 속에서 오픈AI의 주요 대안으로 자리매김할 것"이라고 분석했다.

이어 "앤트로픽이 산업별 특화된 AI 솔루션 수요에 대응할 수 있는 기술력을 갖추게 됐다"며 "특히 기업 간 거래(B2B) 시장에서 높은 성장세가 예상된다"고 덧붙였다.

인베스팅닷컴은 앤트로픽의 2024년 예상 매출이 8억5000만 달러에 달할 것이며, 2025년에는 10억 달러를 기록할 것으로 전망했다.


박정한 글로벌이코노믹 기자 park@g-enews.com