AI 훈련 위한 콘텐츠 라이선싱 시장 성장...장기 지속 불확실(Can Content Licensing Opportunities for AI Training Last?)

AI 훈련을 위한 콘텐츠 라이선싱 시장이 성장하고 있지만, 장기적으로 지속될지는 불확실
2023년 이후 개발자들의 관심은 이미 데이터 규모보다는 전문화에 더 쏠리고 있음
라이선싱 수요는 새로운 훈련 기법, 모달리티, 합성 데이터 사용, 공정 이용(fair use)에 관한 판결 등에 달려 있을 전망

“예전에는 5~10개 회사가 엄청난 양의 (AI훈련을 위한) 데이터를 사갔지만, 이제는 훨씬 많은 회사가 적은 양의 데이터를 사게 될 겁니다. 물론 아직도 대규모 데이터를 필요로 하는 기업이 있지만, 앞으로는 합성 데이터와 파인튜닝 중심으로 가게 될 거예요. 예전에는 ‘최대한 많이’가 필요하다 했다면, 이제는 훨씬 더 구체적인 수요를 보이거든요.”.. 베스톨 , 버라이어티 인터뷰

AI 훈련을 위한 데이터 라이선싱은 지난 몇 년간 갑작스럽게 부상하고 빠르게 진화해 온 시장이다. 2023년 이후, AI 기업들은 미디어 권리 보유자들과 라이선싱 계약을 추진하여 텍스트, 이미지, 음악, 비디오 등 어떤 모달리티에서도 AI 모델을 훈련할 수 있는 고품질 데이터를 확보하고 있다.

버라이어티에 따르면, 뉴스 미디어 퍼블리셔, 스톡 이미지 업체 등을 비롯해 총 30건의 콘텐츠 라이선싱 계약이 공표된 바 있다. 이 외에도 비공개 계약이 다수 진행되고 있다.

그러나 AI 훈련을 위한 콘텐츠 라이선싱의 미래와 지속성에 관한 의문도 제기된다.

이런 유형의 라이선싱이 창작자와 권리 보유자들에게 수익을 창출할 수 있는 짧은 기회에 불과한 것인지, 아니면 장기적으로 라이선싱 시장이 계속되고 성장할 수 있을지 말이다.

AI 훈련 데이터 플랫폼 프로테제(Protege)의 시청각 콘텐츠 라이선싱 부문인 프로테제 미디어(Protege Media)에서 제너럴 매니저 데이브 데이비스(Dave Davis)는 버라이어티와의 인터뷰에서 “AI 회사 여러 곳에 이 질문을 던져 봤는데, 한 곳에서는 매우 단호하게 ‘수요는 단기 현상에 그칠 것’이라고 답했다”라며 “그러나 대부분은 어떤 형태로든 AI 훈련 데이터 라이선싱이 매우 오랫동안 대규모로 이어질 것으로 보고 있다”고 전했다.

권리 보유자와 AI 개발자 모두 시각이 엇갈리고 있다. “몇 년 내로 한 번에 끝날 기회”라고 보는 쪽과 “지속적이며 확장될 시장”이라고 보는 쪽이 서로 나뉘어 있다는 것이다.

권리 보유자들은 이러한 라이선싱 기회에 기대를 걸고 있다. 음악 라이선싱 에이전시 라이츠파이(Rightsify)의 CEO이자 창립자 알렉스 베스톨(Alex Bestall)은 “사람들은 [데이터를 라이선싱하는 것]이 매력적인 기회라고 보고, 뒤처지기 싫어 한다”고 설명하며 “처음에는 많은 이들이 ‘소송 결과가 어떻게 나오는지 기다려 보자’고 말했지만, 그게 결론 나려면 아직 시간이 걸린다”고 덧붙였다.

이처럼 결론을 내리기 어려운 이유는, 라이선싱의 근거가 되는 전제들이 여전히 불확실하고 빠르게 변화하며, 언제든 바뀔 수 있기 때문이다.

AI Training Content Licensing Grows, but Its Longevity Remains Uncertain

The market for licensing content used to train artificial intelligence models has exploded over the past two years. What began as a handful of deals between AI developers and media rights holders has rapidly evolved into a wave of partnerships spanning text, image, music, and video. Yet even as more companies look to monetize the use of their works in AI, questions persist about whether this surge in licensing will endure—or if it’s merely a short-lived opportunity.

An Emerging, Fast-Changing Market

At least 30 content-licensing deals have been publicly disclosed since 2023, according to tracking by VIP+, involving publishers, stock-image services, and other rights owners. Yet industry experts say many additional deals are being negotiated behind closed doors.

Some see this as a major moment for creators and media companies. “I’ve spoken with several AI firms,” says Dave Davis, general manager at Protege Media, the audiovisual licensing arm of AI training-data platform Protege. “One told me bluntly that demand for content licensing will be short-lived. But most believe AI training data deals will continue in some form at scale for a very long time.”

향후 콘텐츠 라이선싱 시장을 가를 주요 요인들

AI를 훈련하기 위해 사람(인간)이 만든 콘텐츠를 라이선싱하려는 시장이 오랫 유지되려면, 개발 회사에서 데이터를 꾸준히 필요로 해야 한다. 그러나 AI고도화로 최근 데이터 라이선스 시장은 변하고 있다.

Divergent Views on Future Demand

Perspectives on the longevity of AI training data licensing appear split. One camp believes the market represents a narrow window, potentially lasting just a couple of years. The other envisions a permanent and growing revenue stream, driven by the need to continually improve AI models.

“Initially, a lot of people were sitting on the sidelines, waiting for court cases to clarify the legal issues,” explains Alex Bestall, CEO of music licensing agency Rightsify, which runs the Global Copyright Exchange, a marketplace for opt-in dataset licensing. “But now they see it as an attractive opportunity that they don’t want to miss, even though we may not have legal certainty for some time.”


1. 새로운 모델 개발 방식에 따라 라이선싱 수요가 변동할 것

AI 기업들은 앞으로도 모델 구조나 구축·운영 방식 등 새로운 접근법을 지속적으로 개발해나갈 것으로 보이며, 이는 데이터 필요량에 영향을 줄 수 있다.

방대한 데이터를 써야 고성능의 범용 대형 언어 모델(LLM)을 만들 수 있다는 기존 인식에서 벗어나 더 적은 데이터로도 충분한 효율적 기법이 새롭게 떠오르면, 라이선싱에 대한 개발사들의 관심은 줄어들 수 있다. 대표적으로 중국 헤지펀드 딥시크(DeepSeek)의 R1 모델은 ‘디스틸(distillation)’이라는 기법으로 더 적은 데이터로 학습에 성공했다고 주장했다. 어떤 면에서는 콘텐츠 라이선싱을 완전히 우회하는 것이다.

베스톨은 “지금은 모두가 딥시크 때문에 혼란스러워하는 상황”이라며 “1~2년 뒤엔 또 ‘방대한 데이터 스케일에 새로운 구조를 결합하는 방식이 옳다’는 돌파구가 나올지도 모른다. 너무 빠르게 변해서 예측이 어렵다”고 전했다.

반면 새로운 접근법을 채택하려면, 모델을 처음부터 다시 학습시켜야 하고, 이때 필요한 고품질 데이터를 확보하기 위해 라이선싱 계약 체결 혹은 갱신을 추진할 가능성도 높아진다.

Shifting Approaches to Model Building

The trajectory of this market will partly depend on how AI developers build future models. While early large language models (LLMs) relied on massive data scraping, newer techniques may allow training with fewer inputs—undermining the assumption that endless volumes of content are essential.

Chinese hedge fund DeepSeek’s R1 model, for example, uses a technique called distillation to reduce the need for vast training sets. “Right now, everyone’s thrown off by DeepSeek,” says Bestall. “But it’s hard to predict what the next big breakthrough will be. It could prove that scaling up again is the way forward.”

On the other hand, AI companies frequently retrain or refine their models to boost performance—an effort that can require fresh or more specialized data.


2. 모달리티에 따라 라이선싱 양상이 달라진다

이미 여러 소식통은 영어 텍스트를 다루는 LLM이 충분히 발전하여, 전문적인 주제를 다루지 않는 이상 추가로 방대한 영어 텍스트를 라이선싱할 필요성이 예전만큼 크지 않다고 본다. 다만 검색 기반으로 RAG(Retrieval Augmented Generation)를 도입하는 AI 서비스의 경우, 언론사의 뉴스 콘텐츠 라이선싱은 계속 중요할 것으로 보인다.

마찬가지로 이미지 생성 모델은 웹에 공개된 수십억 장의 이미지를 통해 이미 상당히 높은 성능을 보여주고 있다. “지난 1년 사이에는 이미지 라이선싱이 예전만큼 활발하지 않았다”고 익명을 요청한 한 소식통은 말했다. 반면 동영상 생성 모델은 아직 실제 3D 세계의 움직임을 정교하게 시뮬레이션하기 어려우며, 개발사들은 여전히 더 많고 질 좋은 데이터를 필요로 한다.

Modality Matters

Not all content licensing is created equal. English-language LLMs may no longer need huge text corpora, unless a developer wants extremely specialized material or real-time news data. Meanwhile, image generation models are already advanced, thanks to billions of web-scraped photos.

Video, however, remains a challenge. “Companies still haven’t cracked how to generate realistic 3D motion,” notes Davis. “High-quality or very specialized clips are in demand to train models that can produce crisp, detailed footage.”


3. 데이터 라이선싱은 ‘규모’보다 ‘전문화’가 핵심이 될 것

연구자들은 대규모가 아니라 고품질 데이터(정확하고 완전한 주석이 달린 데이터)의 활용이 모델 성능에 더 중요하다고 주장하고 있다.

물론 대부분의 AI 기업이 인터넷에서 스크래핑한 어떤 공개 콘텐츠도 ‘공정 이용’이라고 주장하고는 있으나, 데이비스와 베스톨 모두 “인터넷에 널려 있지 않거나 인터넷 스크래핑만으로는 부족한, 고품질·특화된 데이터를 확보하기 위해” 라이선싱을 기꺼이 진행하는 기업들이 있다고 지적한다. 이는 파인튜닝이나 데이터 부족 영역( 기존 스톡 라이브러리에 거의 없는 사물·장면에 대한 이미지)에서 모델 성능을 높이기 위한 목적도 있다.

베스톨은 “이제는 ‘데이터 총 몇 시간?’이 아니라 ‘이 카테고리에 몇 시간이나 있나’처럼 특정 범주별 필요 데이터를 파악하는 방식으로 바뀌는 추세”라고 말했다. 데이비스는 인터뷰에서 “더 이상 ‘영화 5만 시간을 달라’가 아니라, ‘말이 평원을 달리는 특정 장면 1,000개가 필요하다’ 식”이라며 “현재 대부분의 모델은 HD 1080p급 영상을 출력할 수 있게 훈련 중인데, 픽셀 품질을 높이려면 HDR이나 돌비 비전(Dolby Vision) 같은 양질의 콘텐츠만 모아서 재훈련할 수도 있다”고 설명했다.

베스톨은 장기적 관점에서 AI 콘텐츠 라이선싱이 “대형 모델을 위해 방대한 데이터를 사들이는 소수 기업”이 아니라, “많은 기업들이 소규모·특화 데이터를 사들이는 롱테일 비즈니스” 형태로 바뀔 것이라고 주장했다

4. 합성 데이터 사용 확대가 인간 데이터 수요를 감소시킬 위험, 동시에 ‘모델 붕괴’ 우려로 상쇄 가능성

AI가 생성한 합성 데이터를 AI 모델 훈련에 활용하는 사례가 늘어나는 것은 인간이 만든 데이터의 라이선싱 시장에 위협이 된다. 일부 개발사들은 합성 데이터도 인간이 만든 데이터만큼 모델 성능을 잘 끌어올릴 수 있다고 믿으며, 향후 사전 훈련 과정에서 일정 비율의 합성 데이터 사용이 불가피하다고 본다.

저작권 세탁 가능성도 제기

저작권이 있는 작품으로 학습한 모델이 생성한 합성 데이터를 활용하면, 원 출처를 알아보기 힘들어 사실상 저작권 ‘세탁’이 될 수 있다는 지적도 나온다.(The production of synthetic data out of a model trained on copyrighted works has been referred to as a form of copyright laundering by disguising the original source material used to create it)

그러나 합성 데이터가 늘어난다 해도, 전문가들은 개발사들이 여전히 다양한 이유로 인간이 만든 데이터(human-created data)를 필요로 할 것이라고 전망하고 있다. 현재로서는 전 과정을 합성 데이터로만 훈련시키는 모델이 거의 없고, 인간 데이터와 AI 생성 데이터를 혼합해 쓰는 경우가 대부분이기 때문이다.

둘째, 연구자들은 저품질 합성 데이터를 과도하게 학습하면 모델 출력이 무의미해지는 ‘모델 붕괴(model collapse)’ 현상을 겪을 수 있다고 경고하고 있다.

특히 동영상 쪽은 아직 AI 생성 시 품질 문제가 크기 때문에, 충분한 양의 인간 데이터를 섞어야 한다. 게다가 베스톨은 “인간이 만든 데이터는 합성 데이터보다 항상 프리미엄 가격에 거래될 것”이라 강조했다.

The Rise of Synthetic Data—and the Risk of Collapse

Synthetic or AI-generated data is emerging as another option for training models, potentially reducing reliance on human-created content. Critics warn, however, that models trained too heavily on AI-generated material can degrade over time, suffering from what researchers term “model collapse.”

Because of that risk, demand for high-quality human-made data persists—even if it’s used in tandem with synthetic data. “Human-created datasets are always going to be seen as more reliable,” Bestall says, “and they’ll maintain a premium price compared to synthetic content.”


5. ‘클린 데이터’ 모델을 만들려는 개발사들은 계속 라이선싱할 것

문밸리(Moonvalley), 어도비(Adobe) 등 일부 개발사들은 소유·라이선싱·퍼블릭 도메인 등 동의가 확보된 데이터만 사용하여 모델을 훈련하는 ‘윤리적으로 조달된(ethically sourced)’ 데이터를 우선시한다.

이런 기준을 충족하는 모델에 대해 비영리 단체 페어리 트레인드(Fairly Trained)처럼 ‘공정하게 훈련되었다’는 인증을 부여하는 시도도 있다.

Central to the future of content licensing is the unsettled legal landscape around using publicly available material for AI training. While AI companies often cite fair use in the United States, recent cases such as Thomson Reuters v. Ross Intelligence—where a court ruled in favor of the publisher—raise the specter of liability for unlicensed training.

“Some developers still feel emboldened by the current administration’s pro-innovation stance,” Bestall notes. “But court rulings could go either way, so we’ll likely see more deals struck preemptively to minimize risk.”


6. ‘무단 AI 훈련’의 합법성 여부가 라이선싱 확대 여부를 좌우할 것

공정 이용 여부 등과 관련된 법적 논란에 대한 의견은 분분하지만, 현재까지 어떠한 소송 결과나 입법·규제도 콘텐츠 라이선싱의 법적 근거를 명확히 확정한 바 없다. 향후 법원이 지적재산권 침해 소송에 대해 판결을 내리면 AI 기업들이 책임을 회피하려고 더 적극적으로 계약을 맺을 가능성이 있다. 최근 톰슨 로이터(Thomson Reuters) 대 로스 인텔리전스(Ross Intelligence) 소송에서는 판사가 출판사(Thomson Reuters)의 손을 들어줬다. 그러나 미국 등 일부 주요 국가의 ‘친(親) AI’ 기조가 강화될 수도 있기 때문에, 상황이 반대로 흐를 수 있다는 견해도 있다.

베스톨은 “새 행정부가 들어선 이후로는, (정책적으로) 공정 이용 쪽에 대한 AI 업체의 자신감이 오히려 더 커졌다는 견해도 있다”면서도 “물론 톰슨 로이터 판결은 출판사 승소였지만, 앞으로 또 어떤 일이 벌어질지 지켜봐야 한다”고 말했다.

From Bulk Licensing to Specialization

Industry insiders note a shift from large-scale acquisitions of general datasets to smaller, niche-focused licensing. Rather than collecting “50,000 hours” of footage, companies now want carefully curated or unique data.

“It’s less about total hours and more about filling in specific gaps,” Davis says. “If a model struggles with certain scenes—like horses running through a prairie at sunset—developers might license high-definition, color-corrected footage of just those shots.”

Data Transparency of AI Foundation Models

Scores noted for each developer

Table with 13 columns and 14 rows.
Fuyu-8BAdept00000000000
Jurassic-2AI21labs11011000116
LuminousAleph Alpha10001000103
Titan Text ExpressAmazon00000000000
Claude 3Anthropic00001000102
StarCoderServicenow111111111110
Gemini 1.0 UltraGoogle00000000000
GraniteIBM11011000116
Llama 2Meta10001000103
Phi-2Microsoft11010000104
Mistral 7BMistral AI00000000101
GPT-4OpenAI00001000102
Stable Video DiffusionStability AI10001000002
Palmyra-XWriter11001000115

Looking Ahead

For now, the licensing market for AI training data is robust and growing more sophisticated, as developers seek specialized, high-value datasets they can’t simply scrape online. But the long-term outlook remains murky, shaped by shifting AI architectures, the evolution of synthetic data, and looming legal battles over fair use and copyright infringement.

In an industry defined by rapid innovation, one thing is certain: as AI capabilities evolve, so too will the terms—and the stakes—of licensing the content that makes those capabilities possible.

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
1 이달에 읽은
무료 콘텐츠의 수

1 month 10,000 won, 3 months 26,000 won, 1 year 94,000 won

유료 구독하시면 비즈니스에 필요한 엔터테크 뉴스, 보고서, 영상 자료를 보실 수 있습니다(Subscribe to get the latest entertainment tech news, reports, and videos to keep your business in the know)

Powered by Bluedot, Partner of Mediasphere
닫기
SHOP