• Log in
  • Subscribe
Cross Border Content Studio& News media with Entertainment Technology

할리우드를 공략하는 AI, AI models that understand video are coming(비디오를 이해하는 AI 모델이 온다)

아마존, 비디오 이해 LLM 모델 개발 착수. 트웰브랩스 등과 경쟁 예상. 이에 앞서 오픈AI는 소라 이용, 할리우드 본격 공략. 메타도 무비젠 등 비디오 생성AI로 할리우드와 협업

Jung Han
- 15분 걸림

수십년 된 콘텐츠 스튜디오와 미디어 기업들은 엄청난 영상 자산을 보유하고 있다. 그러나 오래된 회사일 수록 이들 비디오를 제대로 인덱싱하거나 라벨링해놓은 기업이 드물다. 그래서 오랫동안 근무했던 영상 편집자의 기억에 의존하는 경우가 많다.

영상 이해 비디오 AI 스타트업 트웰브 랩스(Twelve labs)의 창업주 이재성(Jae Lee)는 인포메이션과의 인터뷰에서 “가끔 이런 회사들은(미디어 기업들) 콘텐츠가 너무 많아서 자신이 무엇을 가지고 있는지 모를 때가 있다(Sometimes these companies have so much content that they don’t know what they have)”고 말하기도 했다.

최근 텍스트에 이어 비디오를 이해하는 대규모 언어 모델(LLM) 개발에 나서고 있는 AI 개발 회사들이 본격적으로 할리우드 공략에 나섰다. 비디오의 장면과 제작 위치를 정확히 AI가 파악해 특정 화면을 찾아주거나 보다 고도화된 기능으로 제작의 보조 역할을 하는 AI다.

아마존과 오픈AI는 할리우드나 콘텐츠 기업을 향해 가고 있는 대표적인 AI테크 기업이다.  할리우드를 공략하고 있는 생성 기업들이 목표는 ‘비디오를 이해하는’ AI다.

Decades-old content studios and media companies have tons of video assets. But the older the company, the less likely it is that these videos are properly indexed or labeled. Instead, they often rely on the memories of longtime video editors.

"Sometimes these companies (media companies) have so much content that they don't know what they have," Jae Lee, founder of video AI startup Twelve labs, told Information.

Recently, AI development companies that are working on large-scale language models (LLMs) that understand video in addition to text have begun to target Hollywood in earnest.

AI that knows exactly what's happening in a video and where it's happening, so it can find a specific screen or, with more sophisticated capabilities, act as a production assistant.

Amazon and OpenAI are two of the leading AI tech companies that are targeting Hollywood and content companies. The goal of AI that "understands video" is what the Hollywood creators are aiming for.


[아마존, 비디오를 이해하는 LLM 개발 착수]

아마존(Amazon)이 비디오를 보다 깊게 이해하는 대량 언어모델(LLM)을 개발 중이다. 할리우드 스튜디오 등 대규모 비디오 아카이브를 보유한 미디어 기업에 최적화된 모델으로 비디오를 이해해 특정 맥락을 담은 영상을 정확히 찾아줄 수 있다.  비디오 AI가 보다 정교화된다면 방대한 영상 아카이브를 가진  미디어 기업이나 심해에서 작업하는 석유나 가스 시추 기업들에게도 유용할 수 있다.

실리콘밸리 구독미디어 디인포메이션(The information)은  최근 아마존(Amazon)이 텍스트 외에도 비디오와 이미지의 콘텐츠를 이해할 수 있는 대규모 언어 모델(LLM)을 개발 중인 것이라고 보도했다. 인포메이션은 이 모델은 엔터테인먼트, 미디어, 석유, 가스 산업 분야에서 매우 중요하게 쓰일 것이라고 언급했다.

보도에 따르면 코드명 올림푸스(Olympus)로 명명된 이 새로운 LLM은 오픈AI(OpenAI)와 엔트로픽(Anthropic) 만큼은 발전된 것은 아니다. 그러나 아마존이 외부 AI에 대한 의존도를 줄이고 자체 LLM 개발에 전념하고 있음을 보여주는 사례라고 언급했다.  이 AI가 현실화되면 아마존 웹 서비스(Amazon Web Services)가 경쟁사의 제품 가격보다 훨씬 저렴한 가격으로 자체 칩으로 새로운 LLM을 패키징할 수도 있다.

올림푸스의 핵심 기능은 비디오 이해와 검색이다. 스포츠 분석 회사는 비디오 이해(video understanding) 기술을 사용해 비디오 아카이브에서 승리를 결정 지은  농구 슛이나 필드 골과 같은 특정 장면을 더 쉽게 찾을 수 있을 것으로 보인다.

새로운 AI는 지난 2023년 개발된 아마존의 첫 번째 대규모 언어 모델 타이탄(Titan)에 크게 발전된 모델로 볼 수 있다. 타이탄은 기능의 뛰어남과는 별개로 텍스트 모델이라는 한계로 큰 주목을 받지 못했다.  아마존은 그동안 자체 LLM 모델 개발에 난항을 겪어 왔다. 이에 앤트로픽이나 오픈AI와 같은 다른 스타트업에  LLM을 의존해왔다. 다른 회사의 LLM모델을 기반으로 AI시스템을 클라우드 고객에게 공급하고 고객에게 판매하는 디지털 비서 및 AI 코딩 제품을 구동해 온 것이다. 대신 아마존은 AWS 서버에 탑재된 앤트로픽(Anthropic) 등 외부 AI로부터 탑재의 조건으로 매출의 일부를 수수료로 받는다.

2023년 아마존은 경쟁사 LLM을 따라 잡기 위해 자체 비디오 이해 LLM 모델 개발에 착수했다. 올림푸스 모델 개발을 총괄하는 아마존 수석 부사장 로히트 프라사드(Rohit Prasad)는  2023년  아마존 선임 AI 리더들에게 4,000억 개의 매개변수가 포함된 텍스트 전용 모델과 2조 개의 매개변수(parameter)가 포함된 텍스트 모델 등 4개의 대형 모델을 훈련시키겠다고 말한 것으로 알려졌다.

파라미터(매개변수) 숫자는 AI모델이 질문에 응답하는 방식과 속도를 결정하는 가장 결정적인 지표다. 아마존이 밝힌 파라미터 수는 메타 플랫폼의 오픈소스 LLM 라마(Llama) 모델(4,050억 개)과 오픈AI의 GPT-4 모델(1조 5,000억 개 이상)과 같은 수준이다. 인포메이션은 내부 관계자 말을 이용해 “아마존은 대형 텍스트 모델(large text models)과 더 작은 비전 기반 모델을 결합해, 멀티모달 기능을 제공할 것으로 예상된다”고 보도했다. 그러나 정확히 어떤 모델이 올림푸스에 탑재될지는 아직 알려지지 않았다.


Amazon is developing a large-scale language model (LLM) to better understand video. The model is optimized for media companies with large video archives, such as Hollywood studios, to understand video and pinpoint footage with specific context. As video AI becomes more sophisticated, it could also be useful for media companies with vast video archives or oil and gas drillers working in deep water.


Silicon Valley subscription media The information recently reported that Amazon is developing a large-scale language model (LLM) that can understand content in videos and images in addition to text. The information noted that the model will be crucial in the entertainment, media, and oil and gas industries.


The new LLM, codenamed Olympus, is not as advanced as OpenAI and Anthropic, but it shows that Amazon is reducing its reliance on external AI and is committed to developing its own LLM, according to the report. If this AI materializes, Amazon Web Services could package the new LLM on its own chips at a fraction of the price of competitors' offerings.


Olympus' core capabilities are video understanding and search. Sports analytics companies will be able to use video understanding to more easily find specific moments in video archives, such as game-winning basketball shots or field goals.


The new AI can be seen as a significant improvement on Amazon's first large-scale language model, Titan, which was developed in 2023. Aside from its capabilities, Titan was limited by its limitations as a text model. Amazon has been struggling to develop its own LLM model. Instead, it has relied on other startups like Antropic and OpenAI for LLMs. These other companies' LLM models have been used to power digital assistants and AI coding products that they sell to cloud customers. In exchange, Amazon receives a cut of the revenue from external AIs like Anthropic that run on AWS servers in exchange for hosting them.


In 2023, Amazon began developing its own video understanding LLM model to keep up with competing LLMs. Rohit Prasad, the Amazon senior vice president who oversees the development of the Olympus model, reportedly told senior Amazon AI leaders in 2023 that the company would train four large models, including a text-only model with 400 billion parameters and a text model with 2 trillion parameters.


The number of parameters is the most decisive indicator of how and how fast an AI model will respond to questions. Amazon's number of parameters is on par with MetaPlatform's open-source LLM Llama model (405 billion) and OpenAI's GPT-4 model (more than 1.5 trillion).

"Amazon is expected to combine large text models with smaller vision-based models to provide multimodal capabilities," Information reported, citing an insider. However, it's not yet known exactly which models will be on board Olympus.


비디오 이해 기능, 석유 시추 장비 정비 비용도 대폭 줄여줘

현재까지 알려진 아마존의 새로운 비디오 기능(The new AI video features)은  시간, 위치 데이터와 함께 장면 속 사물을 식별하는 기존 비디오 인식 소프트웨어의 기능을 뛰어넘는 것으로 파악된다. 아마존이 구상하고 있는 비디오 이해 기능은  농구공이 선수의 손을 떠난 시점과 그 궤적을 정확하게 파악할 수 있다. (물론 아직은 세부 사항 분석에서는 사람이 필요하다.)

하지만 고도화딘 비디오 이해 기능은 석유나 가스 기업에도 유용하게 쓰일 수 있다.  석유 및 가스 회사들도 수중 시추 장비 의 상세한 검사를 위해 이 기능 사용에 관심이 있는 것으로 알려졌다.

현재는 심해에 있는 장비의 누수나 침식을 점검하기 위해서는 수중 드론으로 수집한 수천 시간의 비디오를 일일히 분석해야 해야 한다. AI가 비디오를 통해 이상 징후를 파악할 수 있다면 석유나 가스 기업들의 정비 비용이 크게 줄어들 수 있다.  인포메이션은 “새로운 AI가 시추 장비에서 발생하는 기포와 같은 경고 신호를 영상에서 감지하고 직원에게 문제를 해결하도록 경고할 수 있다”고 보도했다.

Video understanding capabilities could drastically reduce oil rig maintenance costs

Amazon's new AI video features, as far as we know, go beyond the ability of existing video recognition software to identify objects in a scene along with time and location data. Amazon's envisioned video understanding capabilities could accurately determine when a basketball leaves a player's hand and its trajectory. (Of course, it still needs a human to analyze the details.)

But sophisticated video understanding could also be useful for oil and gas companies. Oil and gas companies are reportedly interested in using it for detailed inspections of underwater drilling rigs.

Currently, checking for leaks or erosion on equipment in deep water requires manually analyzing thousands of hours of video collected by underwater drones. If AI can identify anomalies from video, it could significantly reduce maintenance costs for oil and gas companies. "The new AI can detect warning signs in video, such as bubbles coming from a drilling rig, and alert personnel to fix the problem," Information reported.

Source: Variety

그러나 AWS는 비디오 이해 AI 개발로 현재 고객과 경쟁 관계에 놓일 수 있다. 대표적인 기업이 AI스타트업 트웰브 랩스(Twelve Labs)다. 이 회사는 수백만 시간 비디오 콘텐츠로 자체 LLM을 훈련시켜 장면에서 일어나는 일(deeply understand what’s happening in scenes)을 정확히 파악하는 기능을 보유하고 있다.

트웰브랩스 공동 창업자인 이재승 CEO(Jae Lee)는 인터뷰에서 “비디오 이해  AI는 미디어 회사가 비디오 아카이브에서 더 많은 수익을 창출하는 데도 도움이 된다”며 “수십년 분량의 비디오 콘텐츠를 보유한 스포츠 리그는 하이라이트 비디오와 다큐멘터리를 제작하는 데 비디오 이해 AI를 사용할 수 있다”고 설명했다.

However, AWS could be competing with its current customers by developing video-understanding AI. A prime example is AI startup Twelve Labs.

It has the ability to train its own LLM with millions of hours of video content to deeply understand what's happening in scenes.


"Video understanding AI can also help media companies monetize their video archives," Twelve Labs co-founder and CEO Jae Lee said in an interview. "Sports leagues with decades of video content can use video understanding AI to create highlight videos and documentaries," he explained.


[오픈AI, 소라 할리우드의 제작을 돕다]

오픈AI는 최근 비디오 생성 AI 소라(Sora)의 성능 테스트를 위해 300명의 비주얼 아티스트들과 영화 제작자들에게 클로즈 베타 이벤트를 진행했다. 소라를 사용해보고 피드백을 받는 형식이다.

이들에게는 조만간 공개될 소라에 조기에 접근할 수 있는 권한을 부여했다. ‘무급 R&D 테스트’라는 일부 개발자들의 비난으로 무료로 전환한 소라를 급히 차단했지만, 할리우드 제작 시스템을 AI로 바꾸려는 소라의 노력이 엿보이는 대목이다.

오픈AI는 텍스트 투 비디오 생성 모델인 소라(Sora)가 최대 60초의 영상을 AI로 만들어낼 수 있다고 밝혔다.

소라는 “여러 캐릭터, 특정 유형의 동작, 피사체와 배경에 대한 정확한 디테일이 포함된 복잡한 장면을 생성할 수 있다”며 “특히, 이 모델은 사용자가 프롬프트에서 요청한 내용뿐만 아니라 실제 세계에 이러한 사물이 어떻게 존재하는지도 이해한다”고 강조했다.

오픈AI는 AI를 활용하는 할리우드 창작자들을 위한 자금도 지원하고 있다. 오픈AI(OpenAI)는 5명의 영화 제작자에게 AI를 활용한 오리지널 단편 영화 제작을 의뢰하는 트라이베카 페스티벌의 소라 쇼츠 프로그램(Tribeca Festival’s Sora Shorts program) 등  여러 아티스트에게 자금을 지원했다.

[OpenAI Helps Sora Hollywood Get Made]


OpenAI recently hosted a closed beta event for 300 visual artists and filmmakers to test the performance of its video creation AI, Sora.

They were invited to try out Sora and get feedback. They were given early access to Sora, which will be available to the public soon. While some developers quickly shut down Sora after it went free due to criticism of "unpaid R&D testing," it's a testament to Sora's efforts to transform Hollywood's production system with AI.


Sora, a text-to-video generation model, can AI-generate up to 60 seconds of video, OpenAI said.
"It can generate complex scenes with multiple characters, specific types of actions, and accurate details about the subject and background," the company said.

"Notably, the model understands not only what the user has asked for in the prompt, but also how these objects exist in the real world."


OpenAI is also funding Hollywood creatives to utilize AI. OpenAI has funded several artists, including the Tribeca Festival's Sora Shorts program, which commissioned five filmmakers to create original short films using AI.


이외 메타(Meta)도 지난 가을 텍스트 프롬프트에 따라 최대 16초 길이 동영상 클립(동기화된 AI 생성 오디오 포함)을 만들 수 있는 새로운 생성 AI 도구 무비 젠(Movie Gen)을 공개했다. 아직은 베일에 쌓여있지만 2025년에 인스타그램(Instagram)과 페이스북(Facebook)에 이를 탑재할 계획이다.

메타 역시 무비젠에 대한 피드백을 얻기 위한 파일럿 프로그램로  제이슨 블룸(Jason Blum)의 호러 스튜디오 블룸하우스(Blumhouse)과 케이시 애플렉(Casey Affleck), 아니쉬 차간티(Aneesh Chaganty), 스펄록 시스터즈( e Spurlock Sisters) 등의 크리에이터와 함께  다양한 생성AI 기능을 실험하고 있다.

In addition, Meta unveiled Movie Gen last fall, a new generative AI tool that can create video clips up to 16 seconds long (with synchronized AI-generated audio) based on text prompts.

The company plans to roll it out to Instagram and Facebook in 2025, though it's still under wraps.


Meta is also experimenting with various generative AI features with Jason Blum's horror studio Blumhouse and creators like Casey Affleck, Aneesh Chaganty, and the e Spurlock Sisters in a pilot program to get feedback on Movie Gen.



AI
1 이달에 읽은
무료 콘텐츠의 수

1 month 10,000 won, 3 months 26,000 won, 1 year 94,000 won

유료 구독하시면 비즈니스에 필요한 엔터테크 뉴스, 보고서, 영상 자료를 보실 수 있습니다(Subscribe to get the latest entertainment tech news, reports, and videos to keep your business in the know)

Powered by Bluedot, Partner of Mediasphere
닫기