Veo2 delivers a knockout blow to OpenAI SORA as much as Deepseek

글로벌 AI시장에서 중국의 딥시크(Deepseek)가 뛰어난 성능으로 충격을 준 가운데 비디오 AI 생성 모델 경쟁에서도 오픈AI를 능가하는 모델들이 나오고 있다.

텍스트를 이용한 비디오 생성 모델에서 오픈AI의 소라(Sora)가 많은 이들을 놀래켰지만 AI의 진화는 끝이 없다.

구글 딥마인드가 지난 2024년 12월에 공개한 베오2(Veo2)는 현존하는 텍스트 투 비디오(Text to Video) 모델 중 가장 인간의 눈에 가깝다는 평가를 받고 있다. 텍스트나 비디오를 통해 영상을 만들어 내는 비디오 생성AI 시장에는  피카 2.0(Pika 2.0), 루마 AI(Luma)의 레이2(Ray2), 오픈AI(OpenAI)의 소라(SoRA) 등이 경쟁하고 있다.

While China's Deepseek has shocked the global AI market with its superior performance, the race for video AI generation models has also seen OpenAI outperform the competition.
While OpenAI's Sora has surprised many with its text-to-video model, the evolution of AI is never-ending.


Veo2, unveiled by Google DeepMind in December 2024, is considered the most human-like text-to-video model to date. Other competitors in the video creation AI market include Pika 2.0, Luma's Ray2, and OpenAI's SoRA, which creates videos from text or video.

베오2로 만든 영상(Credited by Paul Trillo)

현재 동영상 생성 모델을 평가하기 위한 공인된 벤치마크나 모두가 동의하는 표준 방법은 없다. 하지만, 이미 품질과 사실, 프롬푸트 준수 및 해석, 카메라 각도 등에서 다른 모든 비디오 생성 모델을 뛰어넘는다는 이야기다.

비디오 생성AI의 가장 큰 문제점은 프롬푸트를 입력할 때마다 다른 결과가 나온다는 것인데,  베오2는이런 불합치를 어느  정도 해소한 것으로 알려졌다. 영화 제작에도 사용할 수 있는 수준이라는 평가도 있다.


Currently, there are no recognized benchmarks or agreed-upon standard methods for evaluating video generation models. However, it already beats all other video generation models in quality and facts, prompt adherence and interpretation, camera angles, and more.

One of the biggest problems with video-generated AI is that it produces different results every time you type in a prompt, but Beo2 has reportedly addressed this inconsistency to some extent. Some say it's even good enough to be used for movie production.

베오2의 주요 특징

  • 현실감과 세부 표현: 베오2는 4K 해상도까지 지원하며, 사실적인 움직임과 높은 디테일을 구현한다. 이는 복잡한 물리적 동작이나 인간의 표정과 같은 섬세한 표현에서도 돋보인다.
  • 정확한 프롬프트 해석: 사용자가 입력한 텍스트 프롬프트를 충실히 반영하며, 촬영 각도, 렌즈 유형, 영화적 효과 등 구체적인 지시사항을 정확히 따른다. 예를 들어, 특정 렌즈(18mm)나 얕은 심도를 요구하는 경우에도 이를 정확히 재현하는 것으로 알려졌다.
  • 카메라 제어 옵션: 다양한 촬영 스타일과 움직임을 구현할 수 있는 유연한 카메라 제어 기능을 제공합니다. 이는 창작자가 원하는 비주얼 스타일을 세밀하게 조정할 수 있게 한다.
  • 물리적 사실성: 베오2(Veo 2)는 현실 세계의 물리 법칙을 더 잘 이해하여 자연스러운 움직임과 상호작용을 시뮬레이션한다. 이는 복잡한 장면에서도 더 높은 정확도를 보장한다.

베오2에 대한 전문가 평가도 높아

베오2는 메타(Meta) 제공하는 무비젠벤치(MovieGenBench) 데이터셋을 활용한 테스트에서 다른 모델들보다 전반적인 선호도가 높았다. 특히 프롬프트를 정확히 따르는 능력과 전반적인 비디오 품질에서 우위를 점했다.  평가는 사람들이 맡았다.

무비젠벤치는 텍스트-비디오 생성 기능을 평가하기 위한 포괄적인 벤치마크로, 1000개 이상의 프롬프트를 포함하고 있다.

베오2 역시 복잡한 모션을 재현하거나 물리적인 불완전함이 남아있다. 그러나 테스터들은 베오2의 포토리얼리즘과 물리 사실성이 다른 비디오 모델의 결과물을 훨씬 능가한다는 평가를 내렸다. 딥마인드도 첫 번째 버전 Veo에 비해서는 사실적인 모션과 물리, 디테일 충실도가 향상됐다고 공개했다.

영화 제작자이자 AI 스튜디오 시크리트 레벨(Secret Level) 설립자인  제이슨 자다(Jason Zada)는 언론 “비디오 모델을 이용한 출력물은 포스트 프로덕션(Post Production) 편집이 많이 필요한 경우가 많지만 베오2(Veo 2) 원시 출력물은 이미지 정리나 색상 보정이 전혀 필요하지 않았다”고 말했다.

생성AI 사용의 걸림돌
Variety

프롬프트 엔지니어링이 필요 없는 생성AI

AI 생성 영상의 일관성 유지는 프리미엄 제작 환경에 비디오 생성AI툴을 사용할 수 있는지를 결정하는 매우 중요한 요소다. 그래서 그동안 프롬프트를 정교하게 만드는  '프롬프트 엔지니어링'(prompt engineering 사용자가 AI에게 정확한 지시를 주기 위해 프롬프트를 정교하게 작성하는 기술)이 매우 중요했다.

하지만, 베오2의 발전은 프롬프트 엔지니어링이  임시방편에 불과할 수 있다는 것을 의미한다. 텍스트에서 비디오로의 변환 과정에서 발생하는 일관성 부족 문제는 기술적으로 해결 가능한 문제일 수 있다는 것이다.  AI 비디오 생성 기술이 더욱 발전해 베오2는 앞으로 복잡한 프롬프트 작성 없이도 간단한 텍스트 설명만으로 일관성 있는 고품질 비디오를 생성할 수 있게 될 것이라는 가능성을 보여줬다.

Prompt-engineering-free gen AI


Maintaining consistency in AI-generated footage is a critical factor in determining whether a video generative AI tool can be used in a premium production environment.

This is why prompt engineering - the art of elaborating prompts so that users can give precise instructions to the AI - has been so important.


However, advances in Veo2 mean that prompt engineering may only be a stopgap measure. The problem of inconsistency in the text-to-video conversion process may be technically solvable.

 With further advances in AI video generation, Beo2 shows promise that in the future it will be possible to generate consistent, high-quality videos from simple text descriptions without the need for complex prompting.


Newsletter
디지털 시대, 새로운 정보를 받아보세요!
1 이달에 읽은
무료 콘텐츠의 수

1 month 10,000 won, 3 months 26,000 won, 1 year 94,000 won

유료 구독하시면 비즈니스에 필요한 엔터테크 뉴스, 보고서, 영상 자료를 보실 수 있습니다(Subscribe to get the latest entertainment tech news, reports, and videos to keep your business in the know)

Powered by Bluedot, Partner of Mediasphere
닫기
SHOP