Як Google вдосконалює рекомендаційні системи — Блог Digital агенції UAMASTER

Компанія Google опублікувала статтю, присвячену вдосконаленню рекомендаційних систем шляхом глибшого розуміння семантичного наміру користувачів. Дослідження орієнтоване на підвищення якості персоналізації в таких продуктах, як Google Discover, YouTube та Google News.

Метою запропонованого підходу є подолання обмежень сучасних рекомендаційних систем, які переважно ґрунтуються на поверхневих поведінкових сигналах, та забезпечення більш точного розуміння індивідуальних уподобань користувачів щодо контенту для читання, перегляду або прослуховування.

Обмеження традиційних рекомендаційних підходів

Рекомендаційні системи використовуються для прогнозування контенту, який може зацікавити користувача, зокрема в медіа-, новинних та відеоплатформах, а також у сфері електронної комерції. Традиційно такі системи аналізують дані про кліки, перегляди, оцінки та покупки з метою формування подальших рекомендацій.

У межах дослідження ці сигнали визначаються як примітивний користувацький зворотний зв’язок, оскільки вони не дозволяють коректно враховувати суб’єктивні оцінки користувача, зокрема сприйняття гумору, естетичної привабливості або рівня зацікавленості.

Персоналізована семантика як новий підхід

Автори дослідження зазначають, що розвиток великих мовних моделей (LLM) створює передумови для використання природної мови як джерела більш інформативного зворотного зв’язку. Це дозволяє рекомендаційним системам краще інтерпретувати наміри користувачів на основі семантичного аналізу їхніх запитів, описів та взаємодій.

У роботі підкреслюється, що інтерактивні рекомендаційні системи надають користувачам можливість висловлювати свої уподобання, обмеження та контекст у розширеній формі, зокрема через діалогові інтерфейси та фасетний пошук. Водночас ключовим викликом залишається коректне визначення семантичного наміру користувача, особливо з огляду на відкритий і неформалізований характер природної мови.

Значення семантичного наміру для персоналізації

У дослідженні наголошується, що здатність рекомендаційних систем точно інтерпретувати семантичний намір є критично важливою умовою для підтримки інтуїтивної взаємодії користувачів із цифровими платформами. Такий підхід дозволяє системам більш ефективно адаптувати результати рекомендацій відповідно до реальних очікувань користувачів, а не лише до історії їхньої поведінки.

Проблема «м’яких» атрибутів у рекомендаційних системах

У дослідженні автори розрізняють «жорсткі» (hard) атрибути та «м’які» (soft) атрибути. До жорстких атрибутів належать об’єктивні характеристики контенту, зокрема жанр, виконавець або режисер, які мають однозначне тлумачення та можуть бути безпосередньо використані рекомендаційними системами.

Читайте також: Core-оновлення Discover, реклама в AI Mode та політика сканування

Натомість м’які атрибути мають суб’єктивний характер і не пов’язані з чітко визначеними «еталонними» значеннями. У науковій роботі зазначається, що такі атрибути характеризуються відсутністю єдиного джерела істинності, нечіткістю інтерпретацій та залежністю від індивідуального сприйняття користувачів. Саме ця проблема стала ключовою мотивацією для дослідження, присвяченого виявленню персоналізованої семантики м’яких атрибутів у рекомендаційних системах.

Використання Concept Activation Vectors для інтерпретації намірів користувачів

У роботі запропоновано нове застосування Concept Activation Vectors (CAVs) — методу аналізу внутрішніх векторних представлень моделей машинного навчання. Традиційно CAVs використовуються для інтерпретації того, як модель кодує певні концепти. Проте в цьому дослідженні напрямок застосування методу було змінено: CAVs використовуються для інтерпретації користувачів, а не самої моделі.

Зокрема, метод дозволяє трансформувати суб’єктивні м’які атрибути, виражені природною мовою, у математичні представлення, придатні для використання в рекомендаційних системах. Автори продемонстрували, що така адаптація CAVs дає змогу моделям виявляти тонкі відмінності у намірах користувачів та враховувати індивідуальні інтерпретації суб’єктивних характеристик.

Подолання семантичного розриву між людиною та системою

Однією з ключових задач дослідження є подолання семантичного розриву між тим, як люди формулюють свої уподобання, і тим, як рекомендаційні системи оперують даними. Люди зазвичай мислять концептуально, використовуючи нечіткі та описові формулювання, тоді як рекомендаційні системи працюють із числовими векторами у багатовимірному просторовому представленні.

Запропонований підхід дозволяє зменшити цю неоднозначність без необхідності модифікації або повторного навчання базової моделі рекомендаційної системи. За словами дослідників, семантика м’яких атрибутів виводиться безпосередньо з представлень, уже засвоєних моделлю під час навчання.

Переваги запропонованого підходу

Автори дослідження виокремлюють чотири ключові переваги запропонованої методології:

Обчислювальні ресурси моделі зосереджуються на прогнозуванні уподобань користувачів, без необхідності навчання додаткових допоміжних характеристик, які зазвичай не підвищують ефективність рекомендацій.
Рекомендаційна система може інтегрувати нові м’які атрибути без повторного навчання у разі появи нових тегів, ключових слів або формулювань.
Метод дозволяє оцінювати релевантність окремих м’яких атрибутів для прогнозування вподобань користувачів, що є важливим для пояснення рекомендацій та збору зворотного зв’язку.
Семантика м’яких атрибутів може бути навчена з використанням обмеженого обсягу розмічених даних, що відповідає підходам попереднього навчання та few-shot learning.

Читайте також: Як правильно будувати URL для SEO: поради від Google

Загальна архітектура рішення

На концептуальному рівні запропонована система базується на двох основних компонентах: рекомендаційній моделі з колаборативною фільтрацією, яка формує латентні представлення користувачів і об’єктів, та обмеженому наборі міток м’яких атрибутів, наданих користувачами для частини контенту.

Застосування Concept Activation Vectors до латентного простору моделі дозволяє визначати ступінь прояву м’якого атрибуту для кожного об’єкта, а також виявляти персоналізовані відмінності в його інтерпретації. Це має вирішальне значення для коректного визначення справжніх намірів користувачів та підвищення якості рекомендацій.

Оцінка ефективності запропонованої системи

Результати експериментів підтвердили працездатність запропонованого підходу. Зокрема, тестування штучно створеного тегу, що не має реального семантичного навантаження (наприклад, «непарний рік»), продемонструвало рівень точності лише незначно вищий за випадковий вибір. Це підтвердило гіпотезу дослідників про те, що Concept Activation Vectors є ефективними саме для виявлення атрибутів, пов’язаних із реальними користувацькими вподобаннями, а не довільних характеристик.

Окрім цього, застосування CAVs у рекомендаційних системах показало позитивний ефект у сценаріях взаємодії, заснованих на так званій critiquing-based поведінці, коли користувач уточнює або коригує рекомендації шляхом суб’єктивних описів. У таких випадках якість рекомендацій суттєво зростала.

Ключові переваги з погляду практичного застосування

У межах дослідження автори визначили чотири основні практичні переваги підходу:

Використання представлень колаборативної фільтрації для виявлення атрибутів, найбільш релевантних безпосередньо для задачі рекомендацій.
Можливість розрізняти об’єктивне та суб’єктивне використання тегів і атрибутів.
Виявлення персоналізованої, користувацько-специфічної семантики суб’єктивних атрибутів.
Пов’язування семантики атрибутів із представленнями вподобань, що дозволяє використовувати м’які атрибути у сценаріях прикладної критики та інших формах збору користувацьких переваг.

Зазначений підхід продемонстрував найкращі результати в контекстах, де критично важливим є виявлення та інтерпретація м’яких атрибутів. Водночас можливість його застосування в середовищах, де домінують жорсткі атрибути, зокрема в електронній комерції, визначена як перспективний напрям подальших досліджень.

Тестування на реальних даних та інтеграція з production-системами

Для валідації методології дослідники використали відкритий датасет MovieLens20M, що містить 20 мільйонів користувацьких оцінок, а також власний рекомендаційний алгоритм Google — Weighted Alternating Least Squares (WALS), який застосовується у продуктах Google Cloud.

Читайте також: 7 ключових SEO-переваг, які бізнес отримує завдяки відгукам у Google з ключовими словами

У примітках до роботи зазначається, що частина експериментів виконувалася з використанням внутрішнього production-коду Google, який не підлягає публічному розповсюдженню. Водночас сам факт застосування цього підходу в промисловому середовищі свідчить про його сумісність з існуючими рекомендаційними системами без необхідності їх повторного навчання або архітектурних змін.

Аналітичні висновки та можливі наслідки для екосистеми Google

Попри те що дослідження було опубліковане ще у 2024 році, воно залишалося малопомітним для ширшої спільноти фахівців із пошуку та цифрового маркетингу. Водночас отримані результати вказують на потенційно важливий зсув у розвитку рекомендаційних систем.

Здатність працювати із семантикою м’яких атрибутів відкриває можливість значно точнішої персоналізації рекомендацій на основі суб’єктивних уподобань користувачів. Оскільки Google Discover розглядається компанією як частина ширшої пошукової екосистеми, існує ймовірність, що подібні підходи можуть бути інтегровані у рекомендаційні продукти Google в майбутньому.

У разі практичного впровадження це означатиме підвищену чутливість рекомендацій до індивідуальної семантики користувачів, зокрема до того, як саме вони інтерпретують поняття на кшталт «цікавий», «корисний» або «розважальний».

Авторство та наукова кооперація

Дослідження було виконано за участі кількох провідних організацій галузі. Основний внесок належить Google Research (близько 60%), а також компаніям Amazon, Midjourney та Meta AI, що підкреслює міжкорпоративний характер розробки та її значущість для всієї індустрії рекомендаційних систем.

Читайте статтю англійською мовою.

How Google is improving recommendation systems

Хочеш знати більше про digital?

Також цікаво

Digital-маркетинг

Google