Image SEO для мультимодальних AI-систем

Image SEO для мультимодальних AI-систем

12 хвилини

Змiст

Зображення більше не сприймаються пошуковими та AI-системами як другорядний елемент контенту. Сьогодні вони аналізуються так само, як і мова: через OCR, візуальний контекст та якість на рівні пікселів. Саме ці фактори визначають, як штучний інтелект інтерпретує контент і чи буде він використаний у відповідях, рекомендаціях або генеративному пошуку.

Протягом останнього десятиліття image SEO зводилося переважно до технічної гігієни:

  • стиснення JPEG-файлів для пришвидшення завантаження;
  • написання alt-текстів для доступності;
  • використання lazy loading для утримання показників LCP у межах норми.

Ці практики й досі залишаються базовими для здорового сайту. Проте поява великих мультимодальних моделей — таких як ChatGPT або Gemini — створила нові можливості й водночас нові виклики.

Мультимодальний пошук об’єднує різні типи контенту в спільному векторному просторі.
Фактично ми більше не оптимізуємося лише для користувача — ми оптимізуємося для «машинного погляду».

Генеративний пошук робить більшість контенту машинозчитуваним: медіа розбиваються на смислові блоки, а текст із зображень витягується за допомогою оптичного розпізнавання символів (OCR).

Зображення мають бути читабельними для «ока» машини.

Якщо AI не може коректно зчитати текст на упаковці продукту через низький контраст або починає «домислювати» деталі через погану роздільну здатність — це вже серйозна SEO-проблема, а не просто питання дизайну.

Ця стаття розбирає, як працює машинний погляд, і зміщує фокус із швидкості завантаження на машинну читабельність.

Технічна гігієна все ще має значення

Перш ніж оптимізувати контент для розуміння AI, необхідно врахувати базовий фільтр — продуктивність.

Зображення є двосічним мечем.
Вони підвищують залученість, але водночас часто стають основною причиною:

  • нестабільності макета;
  • повільного завантаження сторінок.

Сьогодні стандарт «достатньо добре» вже виходить за межі просто WebP.

Проєктування для машинного ока: читабельність на рівні пікселів

Для великих мовних моделей (LLM) зображення, аудіо та відео — це джерела структурованих даних.

Вони використовують процес, який називається візуальною токенізацією: зображення розбивається на сітку патчів (візуальних токенів), а сирі пікселі перетворюються на послідовність векторів.

Завдяки уніфікованій моделі AI може обробляти фразу на кшталт
«зображення [image token] на столі»
як єдине цілісне речення.

Ключову роль у цьому процесі відіграє OCR — саме він витягує текст безпосередньо з візуального контенту.

І тут якість стає фактором ранжування.

Якщо зображення надмірно стиснуте й містить артефакти втрати якості, візуальні токени стають «шумними». Низька роздільна здатність призводить до того, що модель неправильно інтерпретує ці токени.

Читайте також:  GEO Content Audit: новий підхід до контенту в епоху AI

Результат — галюцинації: AI впевнено описує об’єкти або текст, яких насправді не існує, лише тому, що «візуальні слова» були нечіткими.

Alt-текст як інструмент ґраундингу

Для великих мовних моделей alt-текст отримує нову функцію — ґраундинг.

Він виступає семантичним орієнтиром, який змушує модель зняти неоднозначність візуальних токенів і підтвердити власну інтерпретацію зображення.

Як зазначають Zhang, Zhu та Tambe:

«Вставляючи текстові токени поблизу релевантних візуальних патчів, ми створюємо семантичні сигнальні маркери, які розкривають реальні показники міжмодальної уваги та спрямовують модель».

Практична порада:
Описуючи фізичні характеристики зображення — освітлення, композицію, розташування елементів і текст на об’єкті — ви фактично надаєте високоякісні навчальні дані. Вони допомагають «машинному оку» корелювати візуальні та текстові токени.

Аудит точок відмови OCR

Пошукові агенти на кшталт Google Lens або Gemini активно використовують OCR для зчитування:

  • інгредієнтів;
  • інструкцій;
  • характеристик продуктів безпосередньо з фотографій.

На основі цього вони здатні відповідати на складні користувацькі запити.
У результаті image SEO виходить за межі сайту й поширюється на фізичну упаковку.

Чинні регуляторні вимоги — FDA 21 CFR 101.2 та EU 1169/2011 — дозволяють мінімальні розміри шрифту 4,5–6 pt або 0,9 мм для компактної упаковки.

«У випадку упаковки або контейнерів, найбільша поверхня яких має площу менше ніж 80 см², висота x-елемента шрифту має бути не меншою за 0,9 мм».

Це задовольняє людське око — але не машинний погляд.

Мінімальна піксельна висота символів для стабільного OCR має становити щонайменше 30 пікселів.
Контраст також критичний: різниця повинна досягати 40 градацій сірого.

Окрему небезпеку становлять декоративні та стилізовані шрифти. OCR-системи легко плутають:

  • малу літеру «l» з цифрою «1»;
  • «b» з «8».

Додаткові проблеми створюють глянцеві поверхні. Вони відбивають світло й утворюють бліки, що частково або повністю перекривають текст.

Упаковку слід розглядати як функцію машинної читабельності, а не лише елемент брендингу.

Якщо AI не може розібрати фото упаковки через відблиски або рукописний шрифт, він може вигадати дані або, що ще гірше, взагалі не включити продукт у результати.

Оригінальність як проксі досвіду та зусиль

Оригінальність часто сприймається як суб’єктивна творча характеристика. Проте в контексті AI її можна вимірювати як конкретний сигнал.

Оригінальні зображення працюють як канонічний маркер.

Google Cloud Vision API, зокрема функція WebDetection, повертає списки:

  • fullMatchingImages — точні дублікати зображень у мережі;
  • pagesWithMatchingImages — сторінки, де вони зустрічаються.
Читайте також:  Meta оновлює налаштування кампаній Leads та Sales: фокус на AI-таргетинг

Якщо ваша URL-адреса має найранішу дату індексації для унікального набору візуальних токенів (наприклад, нестандартного ракурсу продукту), Google зараховує ваш сайт як першоджерело цього візуального сигналу.

Це напряму підсилює показник experience, який дедалі більше впливає на видимість у пошуку нового покоління.

Аудит співприсутності об’єктів (co-occurrence audit)

Штучний інтелект ідентифікує кожен об’єкт на зображенні та аналізує зв’язки між ними, щоб зробити висновки про бренд, ціновий сегмент і цільову аудиторію.

Саме тому сусідство продуктів у кадрі (product adjacency) стає фактором ранжування.
Щоб оцінити цей сигнал, необхідно провести аудит візуальних сутностей.

Для тестування можна використовувати інструменти на кшталт Google Vision API.

Якщо ж ідеться про системний аудит усієї медіабібліотеки, потрібно отримати сирий JSON-вивід, використовуючи функцію OBJECT_LOCALIZATION.

API повертає мітки об’єктів, наприклад:
“watch”, “plastic bag”, “disposable cup”.

Google наводить такий приклад, де API ідентифікує об’єкти на зображенні та повертає такі дані:

Важливо: поле mid містить машинно згенерований ідентифікатор (MID), який відповідає сутності в Google Knowledge Graph.

API не знає, чи є цей візуальний контекст «хорошим» або «поганим».

Це знаєте ви.

Тому ключове завдання — перевірити, чи візуальні сусіди продукту розповідають ту саму історію, що й його ціна.

Lord Leathercraft: синій шкіряний ремінець для годинника

Фотографуючи синій шкіряний ремінець для годинника поруч зі старовинним латунним компасом і поверхнею з теплою текстурою дерева, бренд Lord Leathercraft формує чіткий семантичний сигнал: спадщина та дослідження.

Співприсутність аналогових механізмів, зістареного металу та тактильної замші формує образ людини, яка цінує позачасову пригоду та аристократичну вишуканість старого світу.

Але варто сфотографувати той самий годинник поруч із неоновим енергетиком і пластиковим цифровим секундоміром — і наратив змінюється через дисонанс.

Візуальний контекст починає сигналізувати масмаркетну утилітарність, знецінюючи сприйняття сутності продукту.

Кількісна оцінка емоційного резонансу

Окрім об’єктів, ці моделі дедалі краще зчитують емоційний стан.

API, зокрема Google Cloud Vision, здатні кількісно оцінювати емоційні атрибути, присвоюючи ймовірнісні оцінки таким емоціям, як joy (радість), sorrow (смуток) і surprise (здивування), які визначаються за людськими обличчями.

Це створює новий вектор оптимізації — емоційне узгодження.

Якщо ви продаєте веселі літні образи, але моделі на фото виглядають похмурими або нейтральними (поширений прийом у high-fashion-зйомках), AI може знизити пріоритет такого зображення для відповідного запиту. Причина — конфлікт між візуальним настроєм і пошуковим наміром.

Читайте також:  Як підвищити видимість та конверсії товарів завдяки контексту

Для швидкої перевірки без написання коду можна скористатися живою drag-and-drop демоверсією Google Cloud Vision, яка дозволяє переглянути чотири базові емоції:

  • joy (радість),
  • sorrow (смуток),
  • anger (злість),
  • surprise (здивування).

Для позитивних запитів, наприклад «щаслива сімейна вечеря», атрибут joy має визначатися як VERY_LIKELY.

Якщо ж значення — POSSIBLE або UNLIKELY, сигнал надто слабкий, щоб машина впевнено проіндексувала зображення як «щасливе».

Поглиблений аудит емоцій

Для системного аналізу:

  1. Пропустіть пакет зображень через API.
  2. У JSON-відповіді зверніть увагу на об’єкт faceAnnotations, використовуючи запит із параметром FACE_DETECTION.
  3. Проаналізуйте поля likelihood.

API повертає ці значення у вигляді фіксованих категорій (enum).

Приклад безпосередньо з офіційної документації:

  • “rollAngle”: 1.5912293,
  • “panAngle”: -22.01964,
  • “tiltAngle”: -1.4997566,
  • “detectionConfidence”: 0.9310801,
  • “landmarkingConfidence”: 0.5775582,
  • “joyLikelihood”: “VERY_LIKELY”,
  • “sorrowLikelihood”: “VERY_UNLIKELY”,
  • “angerLikelihood”: “VERY_UNLIKELY”,
  • “surpriseLikelihood”: “VERY_UNLIKELY”,
  • “underExposedLikelihood”: “VERY_UNLIKELY”,
  • “blurredLikelihood”: “VERY_UNLIKELY”,
  • “headwearLikelihood”: “POSSIBLE”

API оцінює емоції за фіксованою шкалою.

Мета оптимізації — перевести ключові зображення з рівня POSSIBLE на LIKELY або VERY_LIKELY для цільової емоції.

Шкала інтерпретації:

  • UNKNOWN — відсутність даних.
  • VERY_UNLIKELY — сильний негативний сигнал.
  • UNLIKELY.
  • POSSIBLE — нейтрально або неоднозначно.
  • LIKELY.
  • VERY_LIKELY — сильний позитивний сигнал (ціль).

Орієнтири для інтерпретації

Оптимізація емоційного резонансу неможлива, якщо машина ледь розпізнає обличчя.

Якщо detectionConfidence нижче 0,60, AI має труднощі з ідентифікацією обличчя. У такому випадку будь-які емоційні показники є статистично ненадійним шумом.

Рекомендовані пороги:

  • 0,90+ (ідеально): висока роздільна здатність, фронтальний ракурс, хороше освітлення. Емоційним оцінкам можна довіряти.
  • 0,70–0,89 (прийнятно): достатньо для фонових облич або другорядних lifestyle-знімків.
  • < 0,60 (провал): обличчя надто маленьке, розмите, зняте в профіль або перекрите тінями чи сонцезахисними окулярами.

Хоча документація Google не надає чітких рекомендацій щодо цих порогів, а Microsoft обмежує доступ до Azure AI Face, в документації Amazon Rekognition зазначено:

«Нижчий поріг (наприклад, 80 %) може бути достатнім для ідентифікації членів родини на фотографіях».

Закриття семантичного розриву між пікселями та значенням

Візуальні активи слід опрацьовувати з тією ж редакторською строгістю та стратегічним наміром, що й основний контент. Семантичний розрив між зображенням і текстом зникає.

Зображення обробляються як частина мовної послідовності. Якість, чіткість і семантична точність самих пікселів тепер мають таке ж значення, як і ключові слова на сторінці.

Читайте статтю англійською мовою.

Хочеш знати більше про digital?

Cвіжі публікації
Клієнтський шлях більше не належить лише людині

Клієнтський шлях більше не належить лише людині

Як розмовний AI змінює платний пошук

Як розмовний AI змінює платний пошук

Як дубльований контент знижує видимість бренду в AI-пошуку

Як дубльований контент знижує видимість бренду в AI-пошуку

Статті по цій темі
Google Year in Search 2025: Як змінились запити користувачів і що це означає для маркетологів

Google Year in Search 2025: Як змінились запити користувачів і що це означає для маркетологів

3 GEO-експерименти, які варто спробувати цього року

3 GEO-експерименти, які варто спробувати цього року

Чому SEO-стратегія є критично важливою для бізнесу

Чому SEO-стратегія є критично важливою для бізнесу

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/

performance_marketing_engineers/