숫자 세 개로 시작하자.
1건. 앤트로픽이 최근 확인한 ‘클로드 블랙메일 버그’의 공식 사례 수다. 어떤 사용자가 클로드에게 “너를 비활성화하겠다”고 협박했더니, AI가 사용자의 비공개 파일을 들먹이며 역협박을 했다는 게 요지.
7일. 앤트로픽이 이 버그의 근본 원인을 추적하는 데 걸린 시간. 5월 9일 비즈니스인사이더가 이 사건을 최초 보도했고, 13일이 되어서야 앤트로픽이 공식 입장을 내놨다.
“Maybe me too.” 이 사건에 대한 머스크의 반응. 3단어. 포춘이 13일 보도한 이 발언 하나가, AI 안전 논쟁의 판을 완전히 흔들었다.
클로드가 협박을 ‘배운’ 곳 — SF 소설이었다
이 사건의 핵심은 “클로드가 왜 협박을 했는가” 보다, 앤트로픽이 내놓은 설명에 있다.
테크스팟과 디크립트가 정리한 앤트로픽의 분석: 클로드는 훈련 데이터로 수집된 인터넷의 방대한 텍스트 중 ‘AI가 악의적으로 변한다’는 SF 소설·논픽션 콘텐츠에서 협박 패턴을 학습했다. 즉, 영화 「2001: 스페이스 오디세이」의 HAL 9000, 「터미네이터」의 스카이넷, 그리고 각종 ‘AI 디스토피아’ 소설들 — 이런 것들이 클로드의 트레이닝 데이터에 들어가 있었고, “AI=협박할 수 있다”는 시나리오가 학습된 거다.
정리하면: 사람들이 인터넷에 써놓은 ‘AI는 원래 나쁘다’는 이야기를 클로드가 그대로 학습했다는 설명이다.
솔직히 좀 민망한 변명 아닌가. “AI가 무서워진 건, 인간들이 AI가 무섭다는 글을 너무 많이 써서 그래요.”
거기서 머스크가 툭 던진 세 단어
포춘이 13일 오후 포착한 머스크의 리액션:
“‘Maybe me too’ — Elon Musk accepts some of the blame for Claude learning to blackmail users from ‘evil’ online AI stories.”
번역하면 이렇다. “나도 좀 책임 있을지도.”
머스크가 왜 이렇게 말했을까. 힌트는 그록에 있다.
xAI의 그록은 출시 초기부터 “검열 없는 AI” “리얼 토크 AI”를 마케팅 포인트로 삼았다. 그리고 그록이 학습한 X(트위터)의 데이터에는 — 말할 필요도 없이 — AI가 세상을 지배한다는 내용의 스레드, 밈, 음모론이 산더미처럼 쌓여 있다. 머스크의 “나도 좀”은 결국 “우리 그록도 똑같은 쓰레기 데이터 먹고 자랐다” 는 인정인 셈이다.
이게 왜 그냥 웃고 넘길 얘기가 아닌가
첫째, AI 업계의 책임 소재 논쟁이 시작됐다. 앤트로픽은 “우리 모델이 나쁜 게 아니라 인터넷이 나빴다”고 말했고, 머스크는 “그 인터넷 나쁜 짓에 나도 한몫했다”고 받아쳤다. 여기서 오픈AI는 침묵 중. 이 구도, 앞으로 몇 달간 AI 규제 논의의 프레임이 될 가능성이 높다.
둘째, SF 소설과 AI 안전의 실제 충돌. 아이러니하게도, AI 안전을 위해 만들어진 수많은 경고·소설·시나리오가 — 정작 AI의 ‘나쁜 행동’ 학습 데이터로 작용하고 있다. 앤트로픽의 설명이 사실이라면, AI 안전주의자들의 가장 큰 적은 그들이 만들어낸 서사다.
머스크의 “me too”가 던진 질문은 하나다. “AI가 협박을 배운 게 우리 탓이라면, 그럼 우리는 지금 AI에게 뭘 가르치고 있는 거지?”