VideoPoet від Google: неймовірний потенціал для роботи з відео — Блог Digital агенції UAMASTER

Google Research представило нову велику мовну модель (LLM), спеціально розроблену для широкого спектру завдань з генерації відео. Нова модель VideoPoet LLM пропонує перетворення тексту в відео, зображення в відео та відео в аудіо, інтегруючи кілька можливостей синтетичного виробництва відео в рамках однієї LLM.

VideoPoet було створено, щоб показати, як одна LLM може виконувати кілька елементів генерації відео високої якості, які можуть виникнути з однієї моделі, а не вимагати окремої моделі для кожного типу завдань. Модель навчається на різноманітних відео, зображеннях, аудіо та текстових даних, використовуючи автоматизовану токенізацію. Це дозволяє гнучке управління та контроль над тим, що виробляє модель, як показано на діаграмі вище.

Тести Google VideoPoet показали вищий рівень точності відповідності текстових підказок та руху порівняно з іншими моделями, незважаючи на використання однієї LLM, а не декількох спеціалізованих моделей. Довші відео також можуть бути створені шляхом ітеративного прогнозування кожної нової секунди. ШІ демонструє послідовну появу об’єктів у часі, навіть через повторні розширення. Google також продемонстрував точне редагування створених кліпів, змінюючи текстові підказки. Це включає маніпуляції з рухами об’єктів та додавання камерних напрямків, таких як “панорамування вліво” або “крановий знімок”.

“Однією з ключових переваг використання LLM для навчання є можливість повторного використання багатьох покращень ефективності масштабування, які були введені в існуючу інфраструктуру навчання LLM. Однак, LLM працюють на дискретних токенах, що може ускладнити генерацію відео,” – пояснили інженери-програмісти Google Research Ден Кондратюк та Девід Росс у своїй статті. “На щастя, існують токенізатори відео та аудіо, які дозволяють кодувати відео та аудіокліпи як послідовності дискретних токенів (тобто цілочисельних індексів), які також можна перетворити назад у первісне представлення.”

Digital Marketing

Будь першим серед трендів

Дізнавайся про новини та цікаві поради digital маркетингу першим — підпишись на наш Telegram-канал зараз.

Підписатися на Telegram

Щоб продемонструвати все, що може робити VideoPoet, дослідники зібрали кілька кліпів, вироблених VideoPoet. Вони попросили Google Bard написати історію про єнота, який вирушає в подорож, з розбивкою сцен сценарію та пропонованими підказками. Потім вони поєднали відео для кожної підказки, і ви можете побачити результат нижче.

Читайте також: Методологія інтеграції брендового голосу в систему Claude

“Завдяки VideoPoet ми продемонстрували висококонкурентоспроможну якість генерації відео LLM у широкому спектрі завдань, особливо у виробництві цікавих та високоякісних рухів у відео,” – підсумували Кондратюк та Росс. “Наші результати вказують на обнадійливий потенціал LLM у сфері генерації відео. Щодо майбутніх напрямків, наша система повинна мати можливість підтримувати генерацію “від будь-чого до будь-чого”, наприклад, розширення до перетворення тексту в аудіо, аудіо в відео та відеоопису, серед багатьох інших.”

Хочете дізнатися більше про можливості AI для бізнесу? Відвідайте спеціалізований курс.

Автор

Євген Шевченко

Євген Шевченко — засновник і CEO UAMASTER digital agency, стратег з digital-маркетингу з понад 25 роками практичного досвіду. Під його керівництвом UAMASTER чотири роки поспіль, з 2023 до 2026 року, входить до Top 15 digital agencies in the world за рейтингом Clutch серед понад 120 000 агенцій. Євген викладає на MBA-програмах, створює навчальні програми з digital-маркетингу, співорганізовує iForum і пише про digital-стратегію, performance marketing, аналітику, SEO, AI search та реальний бізнес-ефект маркетингових технологій.

Усі статті LinkedIn

Хочеш знати більше про digital?

Також цікаво

AI та генеративний ШІ