지금 우리가 열광하는 AI 콘텐츠, 그 이면에는
요즘 많은 사람들이 지브리풍 일러스트, 그리스 비극에 대한 깊이 있는 분석, 창의적인 글쓰기까지, 인공지능이 만들어내는 다양한 콘텐츠에 감탄하고 있습니다. 생성형 AI는 마치 무한한 창작의 동반자처럼 보이지만, 그 창작물의 기반이 되는 학습 데이터가 모두 정당하게 확보된 것일까요? AI는 수많은 책, 영화, 논문, 블로그, 뉴스 기사, 코드, 이미지 등을 학습해 작동합니다. 문제는 그 데이터가 모두 ‘공개된 것’은 아니라는 데 있습니다. 특히, AI가 ‘비공개 자료’나 ‘저작권 보호 콘텐츠’까지 무단으로 학습한 정황이 속속 드러나며 법적·윤리적 논쟁이 격화되고 있습니다.
GPT-4o, 유료 책까지 학습했다는 정황
최근 비영리 단체 'AI Disclosures Project'는 OpenAI의 최신 모델 GPT-4o가 유료 기술서적을 무단으로 학습했을 가능성을 제기하는 연구 결과를 발표했습니다. 이 단체는 2024년 언론인이자 O'Reilly Media CEO인 팀 오라일리와 경제학자 일란 스트라우스가 공동 설립한 기관입니다. 보고서에 따르면, GPT-4o는 오라일리 미디어에서 출간한 유료 기술서적의 내용을 GPT-3.5 Turbo 등 이전 모델보다 더 많이, 더 정확하게 인식했습니다. 연구진은 34권의 오라일리 책에서 발췌한 총 13,962개의 문단을 사용해 실험을 진행했으며, GPT-4o가 그 내용을 이미 알고 있다는 정황이 뚜렷하다는 결론을 내렸습니다. 중요한 점은 오라일리 미디어와 OpenAI 간에 해당 책 콘텐츠에 대한 라이선스 계약이 없다는 것입니다. 이로 인해 GPT-4o가 저작권 보호 대상인 유료 책을 사전 동의 없이 학습에 사용했을 가능성이 높다고 보고서는 주장하고 있습니다.
어떻게 밝혀졌을까: AI 훈련 데이터 추적 기술
이번 보고서에서는 2024년 처음 도입된 ‘DE-COP’이라는 분석 기법이 사용되었습니다. 이는 일종의 ‘멤버십 추론 공격(Membership Inference Attack)’으로, 모델이 어떤 텍스트를 처음부터 학습했는지, 아니면 유사한 데이터를 바탕으로 생성해낸 것인지를 구별하는 기술입니다. 실험에서는 인간이 직접 쓴 문장과, 해당 문장을 AI가 다시 재구성한 문장(패러프레이징 버전)을 함께 모델에 입력했습니다. 만약 모델이 두 문장 사이의 차이를 명확히 구분한다면, 이는 모델이 원본 문장을 훈련 데이터로 학습했을 가능성이 높다는 뜻입니다. GPT-4o는 GPT-3.5 Turbo보다 훨씬 더 많은 문단에 대해 ‘직접 학습한 듯한 반응’을 보였습니다. 이는 단순히 모델의 일반적 성능 향상 때문이라기보다는, 실제로 학습 데이터에 해당 책들이 포함됐을 가능성을 시사합니다.
AI 훈련의 경계, 창작인가 침해인가
보고서는 GPT-4o가 무단으로 오라일리 책을 학습했다는 결정적인 증거를 제시한 것은 아닙니다. 저자들은 일부 데이터가 사용자들에 의해 ChatGPT에 입력되었을 가능성도 배제하지 않았습니다. 또한 이 실험은 GPT-4.5, o1, o3-mini 등 최근에 공개된 다른 OpenAI 모델에는 적용되지 않았기 때문에, 해당 모델들이 같은 방식으로 훈련되었는지는 확인되지 않았습니다. 그럼에도 불구하고, 이번 분석은 생성형 AI가 고급 콘텐츠를 어떻게 확보하고 있는지에 대한 중요한 문제를 제기합니다. OpenAI는 일부 뉴스, 이미지, 소셜 콘텐츠에 대해서는 정식 라이선스를 체결하고 있으며, 콘텐츠 제공자가 차단을 요청할 수 있는 수단도 운영하고 있습니다. 그러나 여전히 많은 콘텐츠들이 명확한 계약 없이 활용되고 있다는 비판은 여전합니다. AI가 지식을 축적하는 방식이 타인의 저작권을 침해하는 것이 된다면, 그 모델이 만들어내는 창작물은 과연 누구의 것이라 할 수 있을까요? AI 기술의 진보는 환영할 일이지만, 그 기반이 정당하고 투명한지에 대한 사회적 검증은 이제 피할 수 없는 과제가 되고 있습니다. |