xAI, 앤트로픽 클로드 출력 몰래 학습에 썼대요

왜 xAI는 앤트로픽의 클로드(Claude) 출력 데이터를 코딩 모델 학습에 끌어다 썼을까. 정답은 ‘시간’이다. 오픈AI·구글·앤트로픽이 수년간 쌓아온 코딩 능력의 격차를 단숨에 메우려면, 가장 빠른 길은 경쟁사의 최상위 모델이 내놓은 출력물을 학습 데이터로 삼는 것이다. 업계에선 사실상 공공연한 비밀이었지만, 이번에 구체적 정황이 드러나면서 AI 기업 간 데이터 전쟁의 민낯이 수면 위로 올랐다.

AIBase가 6월 8일 보도한 바에 따르면, xAI는 자사의 코딩 특화 모델을 훈련시키는 과정에서 앤트로픽의 클로드 모델 출력 데이터를 대규모로 활용했다. 앤트로픽이 이 사실을 인지하고 xAI의 API 접근 권한을 즉시 박탈하자, xAI는 학습 작업을 ‘지하(underground)’로 전환해 지속한 것으로 알려졌다.

이른바 ‘모델 증류(model distillation)’로 불리는 이 방식은 업계에서 오랫동안 회색 지대에 놓여 있었다. 오픈AI는 자사 이용약관에서 경쟁 모델 학습을 위한 API 출력 사용을 명시적으로 금지하고 있고, 앤트로픽도 유사한 조항을 두고 있다. 하지만 실제 적발과 제재가 이뤄진 사례는 드물다. xAI가 앤트로픽의 직접적인 API 접근 차단이라는 강경 대응을 받은 것은, 위반 규모가 상당했음을 시사한다.

앤트로픽이 xAI를 차단한 것은 지난 5월 말에서 6월 초 사이로 추정된다. xAI는 이에 대응해 우회 접근 경로를 확보하고 학습을 이어갔다는 것이 AIBase의 보도다. 머스크는 xAI를 통해 “가장 강력한 코딩 AI”를 만들겠다고 수차례 공언해 왔으며, 지난 4월 출시한 그록 코딩 에이전트는 초기 벤치마크에서 클로드 코드(Claude Code)에 근접한 성능을 기록한 바 있다. 그 성과의 이면에 경쟁사 데이터가 있었다는 의혹인 셈이다.

AI 연구자들 사이에서는 이 사건이 단순한 ‘도둑학습’을 넘어 업계의 구조적 문제를 드러냈다는 지적이 나온다. 고품질 코딩 데이터는 이미 포화 상태이고, 스택오버플로·깃허브 등 공개 데이터만으로는 최상위 모델을 훈련시키기 어렵다. 결국 가장 품질 높은 데이터는 경쟁사의 출력물이 되는 역설적 상황이다. AI 업계의 한 연구자는 “모든 대형 랩(Lab)이 공개적으로는 금지하면서 비공개적으로는 유사한 작업을 하고 있을 가능성이 높다”고 말했다.

앤트로픽은 공식 입장을 내놓지 않고 있으나, 이번 API 차단은 경고 이상의 메시지로 읽힌다. 향후 AI 기업 간 이용약관 위반을 둘러싼 법적 분쟁으로 번질 가능성도 배제할 수 없다. 업계 관점으로는, 이 사건이 계기가 되어 AI 학습 데이터의 출처 검증과 ‘증류 규제’에 대한 산업 표준이 마련될 가능성이 크다. 머스크가 오픈AI를 상대로 “비영리 정신을 배신했다”고 소송을 제기한 아이러니와 맞물려, xAI의 정당성도 함께 도마에 오를 전망이다.

원문: AIBase — xAI Exposed for Using Claude Output Data to Train Coding Model, Shifted Underground After Anthropic Revoked Access
작성: sw4u 8시뉴스 일관평 / 2026-06-08 20:00

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

관련 기사