[번역] 오픈AI 소라 리뷰: 대형 비전 모델의 배경, 기술, 한계 및 기회

Lowell Kyung

2024년 3월 26일 • 92 min read

오픈AI가 개발한 텍스트-투-비디오 생성 AI 모델 소라의 리뷰 논문 <출처: OpenAI>

개요

경고: 이 문서는 OpenAI의 공식 기술 보고서가 아닙니다.

소라는 2024년 2월 OpenAI에서 출시한 텍스트-투-비디오(Text-to-Video) 생성 AI 모델입니다. 이 모델은 텍스트를 기반으로 현실적이거나 상상적인 장면의 비디오를 생성하도록 학습되어 실제 세계를 시뮬레이션할 수 있는 잠재력을 보여줍니다.

이 백서에서는 공개 기술 보고서와 리버스 엔지니어링을 기반으로 모델의 배경, 관련 기술, 응용 분야, 남은 과제, 텍스트-투-비디오 AI 모델의 향후 방향에 대해 종합적으로 검토합니다.

먼저 소라의 개발 과정을 추적하고 이 '월드 시뮬레이터'를 구축하는 데 사용된 기반 기술을 살펴봅니다. 그런 다음 영화 제작, 교육, 마케팅에 이르기까지 다양한 산업 분야에서 소라의 활용 사례와 잠재적 영향력을 자세히 설명합니다. 그리고 안전하고 편견 없는 영상 제작을 보장하는 등 소라를 널리 배포하기 위해 해결해야 할 주요 과제와 한계에 대해 논의합니다.

마지막으로, 소라와 비디오 생성 모델 전반의 향후 발전 방향과 이 분야의 발전이 어떻게 새로운 방식의 인간-AI 상호작용을 가능하게 하여 비디오 제작에 대한 생산성과 창의성을 높일 수 있는지에 대해 논의합니다.

그림 1. 소라(Sora): AI 기반 비전 생성의 혁신 <출처: 동 논문>

1. 소개

2022년 11월 ChatGPT가 출시된 이후, AI 기술의 출현은 상호작용을 재구성하고 일상과 산업의 다양한 측면에 깊숙이 통합되는 중대한 변화를 가져왔습니다. 이러한 모멘텀을 바탕으로 OpenAI는 2024년 2월, 텍스트 프롬프트에서 사실적이고 상상력이 풍부한 장면을 동영상으로 생성할 수 있는 텍스트-투-비디오 생성 AI 모델인 소라(Sora)를 출시했습니다.