Як мультимодальні моделі інтерпретують зображення

Як мультимодальні моделі інтерпретують зображення

10 хвилин

Змiст

Зображення більше не є допоміжним елементом контенту.
Для сучасних мультимодальних моделей вони читаються майже так само, як текст.

Оптичне розпізнавання символів (OCR), візуальний контекст і якість пікселів безпосередньо впливають на те, як AI-системи інтерпретують, узагальнюють і показують контент у пошуку.

Протягом останнього десятиліття image SEO зводився переважно до технічної гігієни:

  • стиснення зображень для швидкого завантаження;
  • написання alt-текстів для доступності;
  • lazy loading для збереження LCP у «зеленій зоні».

Ці практики залишаються базовими, але поява великих мультимодальних моделей — таких як ChatGPT або Gemini — змінила саму логіку оптимізації.

Від оптимізації швидкості — до оптимізації зрозумілості для ШІ

Мультимодальний пошук вбудовує різні типи контенту в спільний векторний простір. Текст, зображення, відео й аудіо більше не обробляються ізольовано — вони стають частинами одного семантичного середовища.

Фактично ми більше не оптимізуємо сторінку лише для користувача. Ми оптимізуємо її для «машинного погляду».

Генеративний пошук робить майже весь контент машинозчитуваним: медіа розбиваються на частинки, а текст витягується із зображень за допомогою OCR.

Якщо AI не може коректно зчитати напис на упаковці через низьку контрастність або «домислює» деталі через погану роздільну здатність — це вже не дрібна технічна помилка, а пряма проблема видимості в пошуку.

Технічна гігієна все ще важлива, але цього недостатньо

Перш ніж оптимізувати зображення для розуміння моделями, потрібно пройти базовий фільтр.

Зображення залишаються об’єктом подвійного ризику:

  • вони підвищують залученість;
  • але часто є головною причиною повільного завантаження та layout shift.

Сьогодні стандарт «достатньо добре» вже давно вийшов за межі формату WebP. Однак після завантаження активу робота лише починається.

Піксельна читабельність як фактор інтерпретації

Для великих мовних моделей зображення — це джерело структурованих даних.

Вони використовують процес візуальної токенізації, розбиваючи зображення на сітку патчів (visual tokens) і перетворюючи пікселі на послідовність векторів.

Саме це дозволяє AI сприймати фразу на кшталт «зображення чашки на столі» як єдину семантичну конструкцію, а не як набір окремих елементів.

Ключову роль тут відіграє OCR. І саме на цьому етапі якість зображення починає впливати на “ранжування” інтерпретації.

Читайте також:  3 GEO-експерименти, які варто спробувати цього року

Сильне стиснення з артефактами створює «шумні» візуальні токени. Низька роздільна здатність змушує модель неправильно інтерпретувати патчі, що може призвести до галюцинацій — коли AI впевнено описує текст або об’єкти, яких насправді немає.

Alt-текст як інструмент семантичного заземлення

Для великих мовних моделей alt-текст виконує нову функцію — grounding.

Він слугує семантичним маяком, який допомагає моделі правильно співвіднести візуальні токени з текстовими та зменшити двозначність інтерпретації.

Дослідження Zhang, Zhu та Tambe показують: додавання текстових токенів поруч із релевантними візуальними патчами підсилює кросмодальну увагу та допомагає моделі точніше «зрозуміти» контент.

Практичний висновок простий: описуючи фізичні характеристики зображення — освітлення, композицію, розміщення тексту, матеріали — ви фактично надаєте високоякісні дані для навчання машинного погляду.

OCR-аудит: де зображення ламаються для ШІ

Пошукові агенти на кшталт Google Lens або Gemini активно використовують OCR для зчитування:

  • складу продуктів;
  • інструкцій;
  • характеристик безпосередньо з фото.

У результаті image SEO виходить за межі сайту й охоплює фізичну упаковку продукту.

Регуляторні норми (FDA 21 CFR 101.2, EU 1169/2011) дозволяють дуже дрібні шрифти — від 4,5 до 6 pt або близько 0,9 мм. Це відповідає вимогам для людини, але не для машинного зчитування.

Для стабільного OCR:

  • висота символів має бути щонайменше 30 пікселів;
  • контраст — не менше 40 градацій сірого;
  • стилізовані або декоративні шрифти створюють високий ризик помилок.

Додаткову проблему створюють глянцеві поверхні. Відблиски й glare можуть повністю перекрити текст. Упаковку варто розглядати не лише як дизайнерський елемент, а як функцію машинної читабельності.
Якщо AI не може коректно прочитати фото продукту, він або «домислить» інформацію, або взагалі виключить товар із відповіді.

Аудит співприсутності об’єктів (co-occurrence audit)

Мультимодальні AI-системи ідентифікують кожен об’єкт на зображенні та аналізують взаємозв’язки між ними, щоб зробити висновки про атрибути бренду, ціновий сегмент і цільову аудиторію.
У результаті сусідство продукту з іншими об’єктами стає окремим сигналом ранжування.

Для оцінки цього сигналу необхідно проводити аудит візуальних сутностей, які присутні у медіаконтенті бренду.

Читайте також:  Нові можливості для eCommerce-брендів від Гугл

Базове тестування можна виконати за допомогою інструментів на кшталт Google Vision API.
Для системного аналізу всієї бібліотеки зображень потрібно отримати сирі JSON-відповіді, використовуючи функцію OBJECT_LOCALIZATION.

API повертає списки розпізнаних об’єктів із відповідними мітками, наприклад: watch, plastic bag, disposable cup.
Офіційна документація Google наводить приклад структури відповіді, яка включає такі параметри:

  • Name — назва об’єкта;
  • mid — машинно згенерований ідентифікатор (MID), що відповідає сутності в Google Knowledge Graph;
  • Score — рівень впевненості моделі;
  • Bounds — координати об’єкта в межах зображення.

Важливо розуміти, що API не визначає, є цей контекст позитивним чи негативним.
Цю інтерпретацію здійснює власник бренду або SEO-фахівець.

Саме тому критично перевіряти, чи розповідають візуальні “сусіди” продукту ту саму історію, що й його позиціонування та цінник.

Семантична узгодженість на прикладі продуктового контексту

Розглянемо приклад бренду Lord Leathercraft і синього шкіряного ремінця для годинника.

Фотографуючи годинник поруч із вінтажним латунним компасом і поверхнею з теплою деревною текстурою, бренд формує чіткий семантичний сигнал — спадковість, дослідження, класичні цінності.
Співприсутність аналогових механізмів, зістареного металу та тактильної замші дозволяє AI вивести образ позачасової пригоди й витонченої «старосвітської» естетики.

Однак якщо той самий годинник сфотографувати поряд із неоновим енергетичним напоєм і пластиковим цифровим секундоміром, семантичний наратив змінюється через дисонанс.
Візуальний контекст починає сигналізувати масмаркетову утилітарність, що безпосередньо знижує сприйману цінність сутності.

Таким чином, co-occurrence об’єктів впливає не лише на інтерпретацію продукту, а й на його конкурентну позицію в AI-пошуку.

Кількісна оцінка емоційного резонансу

Окрім об’єктів, сучасні моделі дедалі точніше зчитують емоційний фон зображень.
API, зокрема Google Cloud Vision, здатні кількісно оцінювати емоційні атрибути, присвоюючи рівні ймовірності таким станам, як joy, sorrow, anger і surprise, на основі аналізу людських облич.

Це формує новий вектор оптимізації — емоційну відповідність пошуковому наміру.

Якщо бренд продає легкий літній одяг, але на зображеннях домінує нейтральний або меланхолійний настрій (поширений прийом у high-fashion-зйомках), AI може знизити пріоритет таких зображень для відповідних запитів через конфлікт між візуальним сигналом і наміром користувача.

Читайте також:  GEO Content Audit: новий підхід до контенту в епоху AI

Для швидкої перевірки без програмування можна скористатися live-демо Google Cloud Vision із drag-and-drop інтерфейсом і переглянути чотири базові емоції.
Для позитивних сценаріїв, наприклад запиту «щаслива сімейна вечеря», показник joy має фіксуватися на рівні VERY_LIKELY.

Значення POSSIBLE або UNLIKELY означають, що сигнал недостатньо сильний, аби система впевнено проіндексувала зображення як емоційно позитивне.

Повноцінний аудит емоційних сигналів

Для глибшого аналізу рекомендується:

  1. Обробити пакет зображень через API.
  2. Надіслати запит із використанням функції FACE_DETECTION.
  3. Проаналізувати об’єкт faceAnnotations у JSON-відповіді.
  4. Перевірити значення полів імовірності.

API повертає емоційні оцінки у вигляді фіксованих категорій:

  • UNKNOWN — відсутність достатніх даних;
  • VERY_UNLIKELY — сильний негативний сигнал;
  • UNLIKELY;
  • POSSIBLE — нейтральний або неоднозначний сигнал;
  • LIKELY;
  • VERY_LIKELY — сильний позитивний сигнал (цільовий рівень).

Основне завдання оптимізації — перевести ключові зображення з рівня POSSIBLE до LIKELY або VERY_LIKELY для цільової емоції.

Порогові значення якості детекції

Оптимізація емоційного резонансу неможлива, якщо AI не може коректно ідентифікувати обличчя.

Якщо показник detectionConfidence нижчий за 0,60, модель відчуває труднощі з розпізнаванням, а всі емоційні оцінки стають статистично ненадійними.

Практичні орієнтири:

  • 0,90+ (ідеально) — висока роздільна здатність, фронтальний ракурс, якісне освітлення;
  • 0,70–0,89 (прийнятно) — достатньо для фонових або другорядних lifestyle-зображень;
  • < 0,60 (незадовільно) — обличчя занадто дрібне, розмите, в профіль або перекрите тінями чи окулярами.

Хоча Google не публікує чітких рекомендацій щодо порогів, документація Amazon Rekognition зазначає, що нижчий рівень (близько 80%) може бути достатнім для окремих сценаріїв, наприклад ідентифікації знайомих осіб на фото.

Закриття семантичного розриву між пікселями та змістом

Візуальні активи слід розглядати з тією ж редакторською точністю й стратегічною увагою, що й основний текстовий контент.

Семантичний розрив між зображенням і текстом стрімко зникає. Зображення обробляються як частина мовної послідовності, а не як допоміжна ілюстрація. Якість, чіткість і семантична точність самих пікселів тепер мають таке саме значення, як і ключові слова на сторінці.

Читайте статтю англійською.

Хочеш знати більше про digital?

Cвіжі публікації
Чому Google видаляє відгуки рекордними темпами

Чому Google видаляє відгуки рекордними темпами

Google інтегрує Maps у Demand Gen

Google інтегрує Maps у Demand Gen

Баланс між AI і базовим SEO

Баланс між AI і базовим SEO

Статті по цій темі
Баланс між AI і базовим SEO

Баланс між AI і базовим SEO

Image SEO для мультимодальних AI-систем

Image SEO для мультимодальних AI-систем

Google Year in Search 2025: Як змінились запити користувачів і що це означає для маркетологів

Google Year in Search 2025: Як змінились запити користувачів і що це означає для маркетологів

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/