상세 컨텐츠

본문 제목

스태빌리티 AI, '비디오 생성 AI' 출시..."퀄리티는 최고급"

AI, 전고체배터리, 4세대프라임에디터 유전자가위

by 리워디 월렛 Rewardy Wallet 2023. 12. 26. 13:46

본문

반응형

텍스트 입력 제한 등 초기 버전..."향후 상업용으로 업그레이드"

https://youtu.be/G7mihAy691g

 

이미지 생성 인공지능(AI) '스테이블 디퓨전'으로 유명한 스태빌리티 AI가 이번에는 동영상 생성 AI를 내놓았다. 출시 초기라 기능은 많지 않지만, 영상 퀄리티는 최근 등장한 AI 중 최고급이라는 설명이다.

테크크런치는 22일(현지시간) 스태빌리티 AI가 기존 이미지에 애니메이션을 적용해 짧은 비디오를 만들어 내는 '스테이블 비디오 디퓨전(SVD)'을 프리뷰 형식으로 출시했다고 보도했다.

이에 따르면 SVD는 기존 이미지 모델인 스테이블 디퓨전을 기반으로 하며, 오픈 소스로 상업적 사용이 가능하다. 현재는 '연구용'으로 대기자 명단을 접수 중이다.

이미지를 초당 14프레임의 4초짜리 576×1024 비디오로 변환하는 기본 모델(SVD)과 24프레임의 SVD-XT 등 두가지 버전을 공개했다. 둘 다 초당 3~30프레임의 속도로 비디오를 생성할 수 있다.

SVD 생성 영상 (사진=스태빌리티 AI)

이 모델은 수백만개의 공개된 비디오 데이터셋을 학습한 뒤 수십만~100만개의 클립셋으로 미세조정했다.

가장 큰 특징은 품질이다. 스태빌리티 AI는 런웨이나 피카랩스의 모델보다 뛰어난 품질의 영상을 생성했다는 내용의 연구 결과를 허깅페이스를 통해 공개했다. 

반면 텍스트 프롬프트를 아직 지원하지 않으며 영상 내 텍스트도 만들어 내지는 못하는 등 한계도 뚜렷하다.

런웨이 및 피카 랩 모델과의 성능 비교 (사진=스태빌리티 AI)

하지만 향후 업그레이드를 통해 텍스트-비디오로 기능를 확장하는 등 "광고나 교육, 엔터테인먼트 등 다양한 분야에 응용할 수 있는" 서비스를 준비하고 있다고 밝혔다. 

이는 이달 초 공개한 3D 이미지 생성 ‘스테이블 3D(Stable 3D)’ 모델과 같은 맥락이다. 이 모델 역시 그래픽 디자인과 비디오 게임 개발 등 기업 서비스에 초점을 맞춘 서비스다. 즉, 기업 대상으로 돈을 벌자는 의도다.

이미지 생성 AI 분야의 경쟁도 치열해지는 양상이다.  메타도 지난주 텍스트나 이미지를 기반으로 비디오를 만드는 '에뮤 비디오(Emu Video)'를 공개했다. 

이 모델은 텍스트 입력이나 참조 이미지 입력, 또는 둘을 합친 상태로 사용할 수 있으며, 4초 길이의 애니메이션 클립을 생성한다. 대신 아직 개발 중이며, 출시 시기도 공개되지 않았다.

반응형

관련글 더보기