VideoPoet від Google: неймовірний потенціал для роботи з відео

VideoPoet від Google: неймовірний потенціал для роботи з відео

3 хвилини

Google Research представило нову велику мовну модель (LLM), спеціально розроблену для широкого спектру завдань з генерації відео. Нова модель VideoPoet LLM пропонує перетворення тексту в відео, зображення в відео та відео в аудіо, інтегруючи кілька можливостей синтетичного виробництва відео в рамках однієї LLM.

VideoPoet було створено, щоб показати, як одна LLM може виконувати кілька елементів генерації відео високої якості, які можуть виникнути з однієї моделі, а не вимагати окремої моделі для кожного типу завдань. Модель навчається на різноманітних відео, зображеннях, аудіо та текстових даних, використовуючи автоматизовану токенізацію. Це дозволяє гнучке управління та контроль над тим, що виробляє модель, як показано на діаграмі вище.

Тести Google VideoPoet показали вищий рівень точності відповідності текстових підказок та руху порівняно з іншими моделями, незважаючи на використання однієї LLM, а не декількох спеціалізованих моделей. Довші відео також можуть бути створені шляхом ітеративного прогнозування кожної нової секунди. ШІ демонструє послідовну появу об’єктів у часі, навіть через повторні розширення. Google також продемонстрував точне редагування створених кліпів, змінюючи текстові підказки. Це включає маніпуляції з рухами об’єктів та додавання камерних напрямків, таких як “панорамування вліво” або “крановий знімок”.

“Однією з ключових переваг використання LLM для навчання є можливість повторного використання багатьох покращень ефективності масштабування, які були введені в існуючу інфраструктуру навчання LLM. Однак, LLM працюють на дискретних токенах, що може ускладнити генерацію відео,” – пояснили інженери-програмісти Google Research Ден Кондратюк та Девід Росс у своїй статті. “На щастя, існують токенізатори відео та аудіо, які дозволяють кодувати відео та аудіокліпи як послідовності дискретних токенів (тобто цілочисельних індексів), які також можна перетворити назад у первісне представлення.”

Щоб продемонструвати все, що може робити VideoPoet, дослідники зібрали кілька кліпів, вироблених VideoPoet. Вони попросили Google Bard написати історію про єнота, який вирушає в подорож, з розбивкою сцен сценарію та пропонованими підказками. Потім вони поєднали відео для кожної підказки, і ви можете побачити результат нижче.

Читайте також: 
Google Analytics прибирає старі моделі та дає нові можливості маркетологам

“Завдяки VideoPoet ми продемонстрували висококонкурентоспроможну якість генерації відео LLM у широкому спектрі завдань, особливо у виробництві цікавих та високоякісних рухів у відео,” – підсумували Кондратюк та Росс. “Наші результати вказують на обнадійливий потенціал LLM у сфері генерації відео. Щодо майбутніх напрямків, наша система повинна мати можливість підтримувати генерацію “від будь-чого до будь-чого”, наприклад, розширення до перетворення тексту в аудіо, аудіо в відео та відеоопису, серед багатьох інших.”

Хочете дізнатися більше про можливості AI для бізнесу? Відвідайте спеціалізований курс.

Хочеш знати більше про digital?

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент
тексту та натисніть Ctrl+Enter. Дякуємо!

Cвіжі публікації

Як зрозуміти, що текст написав робот?

Як зрозуміти, що текст написав робот?

Meta інтегрує результати пошуку Google і Bing в AI Assistant

Meta інтегрує результати пошуку Google і Bing в AI Assistant

Brave Search представляє систему відповідей AI

Brave Search представляє систему відповідей AI

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: