Чому Google видаляє відгуки рекордними темпами
Google інтегрує Maps у Demand Gen
Баланс між AI і базовим SEO
10 хвилин
Зображення більше не є допоміжним елементом контенту.
Для сучасних мультимодальних моделей вони читаються майже так само, як текст.
Оптичне розпізнавання символів (OCR), візуальний контекст і якість пікселів безпосередньо впливають на те, як AI-системи інтерпретують, узагальнюють і показують контент у пошуку.
Протягом останнього десятиліття image SEO зводився переважно до технічної гігієни:
Ці практики залишаються базовими, але поява великих мультимодальних моделей — таких як ChatGPT або Gemini — змінила саму логіку оптимізації.
Мультимодальний пошук вбудовує різні типи контенту в спільний векторний простір. Текст, зображення, відео й аудіо більше не обробляються ізольовано — вони стають частинами одного семантичного середовища.
Фактично ми більше не оптимізуємо сторінку лише для користувача. Ми оптимізуємо її для «машинного погляду».
Генеративний пошук робить майже весь контент машинозчитуваним: медіа розбиваються на частинки, а текст витягується із зображень за допомогою OCR.
Якщо AI не може коректно зчитати напис на упаковці через низьку контрастність або «домислює» деталі через погану роздільну здатність — це вже не дрібна технічна помилка, а пряма проблема видимості в пошуку.
Перш ніж оптимізувати зображення для розуміння моделями, потрібно пройти базовий фільтр.
Зображення залишаються об’єктом подвійного ризику:
Сьогодні стандарт «достатньо добре» вже давно вийшов за межі формату WebP. Однак після завантаження активу робота лише починається.
Для великих мовних моделей зображення — це джерело структурованих даних.
Вони використовують процес візуальної токенізації, розбиваючи зображення на сітку патчів (visual tokens) і перетворюючи пікселі на послідовність векторів.
Саме це дозволяє AI сприймати фразу на кшталт «зображення чашки на столі» як єдину семантичну конструкцію, а не як набір окремих елементів.
Ключову роль тут відіграє OCR. І саме на цьому етапі якість зображення починає впливати на “ранжування” інтерпретації.
Сильне стиснення з артефактами створює «шумні» візуальні токени. Низька роздільна здатність змушує модель неправильно інтерпретувати патчі, що може призвести до галюцинацій — коли AI впевнено описує текст або об’єкти, яких насправді немає.
Для великих мовних моделей alt-текст виконує нову функцію — grounding.
Він слугує семантичним маяком, який допомагає моделі правильно співвіднести візуальні токени з текстовими та зменшити двозначність інтерпретації.
Дослідження Zhang, Zhu та Tambe показують: додавання текстових токенів поруч із релевантними візуальними патчами підсилює кросмодальну увагу та допомагає моделі точніше «зрозуміти» контент.
Практичний висновок простий: описуючи фізичні характеристики зображення — освітлення, композицію, розміщення тексту, матеріали — ви фактично надаєте високоякісні дані для навчання машинного погляду.
Пошукові агенти на кшталт Google Lens або Gemini активно використовують OCR для зчитування:
У результаті image SEO виходить за межі сайту й охоплює фізичну упаковку продукту.
Регуляторні норми (FDA 21 CFR 101.2, EU 1169/2011) дозволяють дуже дрібні шрифти — від 4,5 до 6 pt або близько 0,9 мм. Це відповідає вимогам для людини, але не для машинного зчитування.
Для стабільного OCR:
Додаткову проблему створюють глянцеві поверхні. Відблиски й glare можуть повністю перекрити текст. Упаковку варто розглядати не лише як дизайнерський елемент, а як функцію машинної читабельності.
Якщо AI не може коректно прочитати фото продукту, він або «домислить» інформацію, або взагалі виключить товар із відповіді.
Мультимодальні AI-системи ідентифікують кожен об’єкт на зображенні та аналізують взаємозв’язки між ними, щоб зробити висновки про атрибути бренду, ціновий сегмент і цільову аудиторію.
У результаті сусідство продукту з іншими об’єктами стає окремим сигналом ранжування.
Для оцінки цього сигналу необхідно проводити аудит візуальних сутностей, які присутні у медіаконтенті бренду.
Базове тестування можна виконати за допомогою інструментів на кшталт Google Vision API.
Для системного аналізу всієї бібліотеки зображень потрібно отримати сирі JSON-відповіді, використовуючи функцію OBJECT_LOCALIZATION.
API повертає списки розпізнаних об’єктів із відповідними мітками, наприклад: watch, plastic bag, disposable cup.
Офіційна документація Google наводить приклад структури відповіді, яка включає такі параметри:
Важливо розуміти, що API не визначає, є цей контекст позитивним чи негативним.
Цю інтерпретацію здійснює власник бренду або SEO-фахівець.
Саме тому критично перевіряти, чи розповідають візуальні “сусіди” продукту ту саму історію, що й його позиціонування та цінник.
Розглянемо приклад бренду Lord Leathercraft і синього шкіряного ремінця для годинника.
Фотографуючи годинник поруч із вінтажним латунним компасом і поверхнею з теплою деревною текстурою, бренд формує чіткий семантичний сигнал — спадковість, дослідження, класичні цінності.
Співприсутність аналогових механізмів, зістареного металу та тактильної замші дозволяє AI вивести образ позачасової пригоди й витонченої «старосвітської» естетики.
Однак якщо той самий годинник сфотографувати поряд із неоновим енергетичним напоєм і пластиковим цифровим секундоміром, семантичний наратив змінюється через дисонанс.
Візуальний контекст починає сигналізувати масмаркетову утилітарність, що безпосередньо знижує сприйману цінність сутності.
Таким чином, co-occurrence об’єктів впливає не лише на інтерпретацію продукту, а й на його конкурентну позицію в AI-пошуку.
Окрім об’єктів, сучасні моделі дедалі точніше зчитують емоційний фон зображень.
API, зокрема Google Cloud Vision, здатні кількісно оцінювати емоційні атрибути, присвоюючи рівні ймовірності таким станам, як joy, sorrow, anger і surprise, на основі аналізу людських облич.
Це формує новий вектор оптимізації — емоційну відповідність пошуковому наміру.
Якщо бренд продає легкий літній одяг, але на зображеннях домінує нейтральний або меланхолійний настрій (поширений прийом у high-fashion-зйомках), AI може знизити пріоритет таких зображень для відповідних запитів через конфлікт між візуальним сигналом і наміром користувача.
Для швидкої перевірки без програмування можна скористатися live-демо Google Cloud Vision із drag-and-drop інтерфейсом і переглянути чотири базові емоції.
Для позитивних сценаріїв, наприклад запиту «щаслива сімейна вечеря», показник joy має фіксуватися на рівні VERY_LIKELY.
Значення POSSIBLE або UNLIKELY означають, що сигнал недостатньо сильний, аби система впевнено проіндексувала зображення як емоційно позитивне.
Для глибшого аналізу рекомендується:
FACE_DETECTION.faceAnnotations у JSON-відповіді.API повертає емоційні оцінки у вигляді фіксованих категорій:
Основне завдання оптимізації — перевести ключові зображення з рівня POSSIBLE до LIKELY або VERY_LIKELY для цільової емоції.
Оптимізація емоційного резонансу неможлива, якщо AI не може коректно ідентифікувати обличчя.
Якщо показник detectionConfidence нижчий за 0,60, модель відчуває труднощі з розпізнаванням, а всі емоційні оцінки стають статистично ненадійними.
Практичні орієнтири:
Хоча Google не публікує чітких рекомендацій щодо порогів, документація Amazon Rekognition зазначає, що нижчий рівень (близько 80%) може бути достатнім для окремих сценаріїв, наприклад ідентифікації знайомих осіб на фото.
Візуальні активи слід розглядати з тією ж редакторською точністю й стратегічною увагою, що й основний текстовий контент.
Семантичний розрив між зображенням і текстом стрімко зникає. Зображення обробляються як частина мовної послідовності, а не як допоміжна ілюстрація. Якість, чіткість і семантична точність самих пікселів тепер мають таке саме значення, як і ключові слова на сторінці.
Читайте статтю англійською.
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
performance_marketing_engineers/
Послуги digital маркетингу для середнього та великого бізнесу. Digital стратегія. Performance маркетинг. Веб-аналітика.
Ми зосереджені на створенні креативних стратегій, бренд-комунікацій, нестандартних механік і діджиталу.
School of Digital Advertising UAMASTER – навчаємо новим цифровим дисциплінам. Переходь на сайт і знайомся з програмою курсу "Digital маркетинг"
Все, що маркетологу необхідно знати про веб-аналітику у 2023 році
Професійне налаштування Google Analytics 4 Коректний збір даних в GA4. Зрозуміла та корисна звітність.
Для пошуку введіть назву або слово