Чому Google не індексує сторінки вашого сайту і що з цим робити ⋆ Блог Digital агенції UAMASTER

Причина може бути не в контенті чи технічних помилках, а в так званому crawl budget — бюджеті на сканування вашого сайту Googlebot’ом.

Googlebot — це робот-пошуковик, який регулярно заходить на сайт, сканує сторінки й вирішує, які з них варто показувати в пошуковій видачі. Але цей процес не є безмежним: у кожного сайту є обмеження на кількість сторінок, які Google готовий переглянути за певний період часу.

Що таке crawl budget

Crawl budget — це обмеження на кількість сторінок, які Googlebot готовий сканувати на вашому сайті протягом певного часу. Це ніби візит користувача з дуже обмеженим часом: він не зможе переглянути все, тож мусить пріоритезувати, що подивитися насамперед.

Наприклад, якщо у вас 10 000 URL, але crawl budget дозволяє сканувати лише 2 000, решта сторінок просто не потраплять у поле зору Googlebot’а. А якщо ці 2 000 сторінок — це фільтри товарів або технічні дублікати, важливий контент, як-от головна сторінка чи новий лендінг, може залишитись поза увагою.

Як це виглядає на практиці

Уявімо інтернет-магазин із 6 000 сторінок. Половина з них — це варіації одного товару за кольором, розміром чи інші незначні відмінності:

/product/red
/product/blue
/product/xl

Для користувача це корисно. Але для Googlebot — це майже однакова інформація. І поки бот сканує ці схожі сторінки, він може пропустити:

оновлену головну сторінку
нову сезонну кампанію
актуальний блог-пост, який вже набирає перегляди у соцмережах

Тобто навіть якісний і готовий до публікації контент не буде швидко індексовано, якщо crawl budget витрачається неефективно.

Crawlability vs. crawl budget: у чому різниця

Поняття crawlability і crawl budget можуть здаватися схожими, але насправді вони відповідають за різні аспекти сканування сайту. Обидва фактори важливі: якщо Googlebot не має доступу або не вважає сторінку пріоритетною, навіть найкращий контент може залишитися непоміченим і не з’явитись у пошуку.

Crawlability — це доступ

Crawlability відповідає на просте запитання: чи має Googlebot доступ до цієї сторінки?

Якщо відповідь — ні, то сторінка просто не буде сканована, незалежно від її важливості. Наприклад, сторінка фізично існує, але вказівка в robots.txt або мета-тегах сигналізує: «вхід заборонено». У такому випадку Googlebot її пропускає, а crawl budget витрачається на інші ділянки сайту.

Crawl budget — це пріоритет і вибір

Crawl budget починає діяти тільки після того, як сторінка стала доступною для сканування. Це вже не питання «чи можу я зайти», а «чи варто мені заходити саме зараз».

Навіть якщо сторінка технічно доступна, Googlebot може вирішити, що витрачати на неї crawl budget не має сенсу. Наприклад, у вас досі доступна сторінка події з 2017 року. Вона не заблокована, але неактуальна і не має трафіку. У такому випадку Googlebot може просто її проігнорувати або відкласти сканування на невизначений термін.

Таким чином, crawlability і crawl budget — це два незалежні, але взаємопов’язані процеси. Якщо сторінка недоступна, її взагалі не буде виявлено. Якщо доступна, але не пріоритетна — може пройти багато часу, перш ніж вона потрапить до індексу.

Чому crawl budget має значення — і коли про нього варто хвилюватися

Поки Googlebot не просканував сторінку, вона не може з’явитися в пошуку. У деяких випадках Google навіть не знає, що така сторінка існує, або ж показує її застарілу версію в результатах пошуку.

Читайте також: Google відкриває завісу над розробкою AI Mode: що варто знати маркетологам

Саме crawl budget визначає, чи побачить Google вашу сторінку та коли. А від цього напряму залежить, чи з’явиться вона в пошуку — і наскільки високо.

Наприклад, ви запускаєте нову сторінку продукту. Якщо Googlebot її не просканував — вона просто не з’явиться в результатах. Або ж ви оновили ціни на сторінках послуг, але бот не встиг їх перезавантажити — тоді користувачі побачать стару інформацію у видачі.

У таких випадках crawl budget стає критично важливим.

Коли crawl budget — справжня проблема

Хоча бюджет сканування впливає на всі сайти, особливо актуальний він для:

великих сайтів з тисячами або мільйонами сторінок
новинних і медіаресурсів, які регулярно публікують нові матеріали
e-commerce сайтів із великою кількістю фільтрів, категорій і варіацій товарів

Якщо Googlebot не встигає все сканувати, то саме найважливіший або найсвіжіший контент може залишитися поза увагою.

А якщо сайт невеликий?

Малі сайти (до 500–1 000 сторінок, що індексуються) зазвичай не мають серйозних проблем із crawl budget. У таких випадках Googlebot, як правило, встигає охопити всі сторінки. Тут варто більше звертати увагу не на crawl budget, а на те, що саме заважає індексації.

Часті причини проблем:

сторінки заблоковані через noindex або канонікали
слабкі внутрішні посилання
дублікати чи неякісний контент

Рекомендація: перевірте звіт Pages у Google Search Console. Він покаже, які сторінки виключені з індексу та чому.

Як Google визначає crawl budget

Google орієнтується на два головні фактори:

попит на сканування
обмеження на навантаження, яке може витримати сервер

Обидва ці чинники формують остаточний обсяг crawl budget.

Що впливає на попит

Попит на сканування залежить від того, наскільки цінним або свіжим Google вважає ваш контент. З обмеженими ресурсами бот обирає те, що здається йому пріоритетним.

Фактори, які впливають на попит:

Уявна кількість сторінок: якщо у вашій карті сайту 40 000 URL, але внутрішні лінки ведуть лише на 3 000, Google може вважати, що решта сторінок — неважливі або взагалі не існують.
Популярність: сторінки з хорошими зворотними лінками або високою активністю скануються частіше.
Застарілість: сторінки, які не оновлювались роками, поступово втрачають пріоритет. А ті, що регулярно редагуються, перевіряються частіше.

Що обмежує Google у скануванні

Навіть якщо Google хоче сканувати всі сторінки, він не буде цього робити, якщо бачить ознаки технічної нестабільності. Crawl budget можуть зменшувати:

повільний хостинг
тайм-аути або помилки сервера
перевищення внутрішніх обмежень Google на сканування одного домену

Якщо один із факторів просідає — загальний crawl budget знижується. Це можна уявити як формулу:

попит × технічна здатність сайту = crawl budget

Crawl signals: як впливати на пріоритет Googlebot’а

Google не сканує всі сторінки однаково. Він визначає, що виглядає актуальним, важливим або цікавим для користувачів, і надає цьому пріоритет.

Ось які сигнали можуть впливати на розподіл crawl budget:

robots.txt — файл, який вказує, що саме не потрібно сканувати. Наприклад, сторінки входу або подяк після заповнення форм.
noindex — тег, який каже: скануй, але не додавай у пошук. Якщо він присутній тривалий час, сторінка може зовсім втратити crawl-перевагу.
канонікали — вказують, яку версію з кількох схожих сторінок вважати основною. Це особливо важливо для e-commerce сайтів із фільтрами чи UTM-параметрами.
sitemap — карта сайту, яка підказує, які сторінки є ключовими. Її потрібно тримати оновленою і актуальною.
внутрішня структура посилань — сторінки, до яких можна дістатись у кілька кліків із головної, отримують більше уваги. Якщо доступ до сторінки можливий лише через 6–7 кроків — вона втрачає пріоритет.

Читайте також: Як покращити ROAS у Performance Max

Для порівняння:

Сторінка з відгуками, посиланнями й великою кількістю внутрішніх лінків, імовірно, буде скануватися часто. А от фільтрована версія тієї ж сторінки без посилань і з дубльованим контентом може бути повністю проігнорована.

Що марнує crawl budget і як це виправити

Уявіть, що Googlebot переглядає сторінки вашого сайту з обмеженим запасом енергії. Чим більше часу він витрачає на непотрібні сторінки, тим менше уваги лишається для важливого контенту.

Перш ніж переходити до найпоширеніших витратників crawl budget, варто зробити базовий аудит сайту, щоб перевірити, чи не маєте ви таких проблем уже зараз.

Ось основні причини марнування crawl budget і способи їх усунення.

Дублікати сторінок

Це ситуація, коли різні URL показують однаковий або дуже схожий контент.

Для людини такі сторінки виглядають однаково, але для Googlebot це окремі сторінки, які треба окремо сканувати. У результаті бот знову і знову читає одне й те саме.

Це втомлює систему і знижує ефективність сканування.

Що робити:

Використовуйте canonical-теги, які вказують на основну версію сторінки.
Якщо сторінка неважлива — встановіть для неї тег noindex, щоб Google не витрачав час на її сканування.

Несправні посилання та soft 404

Це сторінки, яких уже не існує, але вони залишилися у внутрішніх посиланнях або карті сайту.

Наприклад, видалена сторінка товару досі є в sitemap або посилання в блозі веде на сторінку з повідомленням “Сторінку не знайдено”.

Google продовжує намагатися зайти на ці сторінки знову і знову, витрачаючи час даремно.

Що робити:

Очистіть внутрішні посилання та видаліть ті, що ведуть у нікуди.
Встановіть 301-редиректи на актуальні сторінки.
У sitemap включайте лише “живі” та корисні сторінки.

Сирітські сторінки (orphan pages)

Це сторінки, які існують, але до них ніхто не веде. Вони як привиди на сайті — присутні, але ніхто їх не бачить.

Наприклад, блоговий пост 2019 року, на який не веде жодне посилання з головної, з рубрик чи тегів.

Google може випадково натрапити на таку сторінку, але вона забирає crawl budget, не приносячи жодної користі.

Що робити:

Перевірте, щоб усі сторінки були пов’язані з іншими: з меню, футера або суміжних статей.
Якщо сторінка застаріла або неактуальна — видаліть її або додайте тег noindex.

Фасетна навігація (faceted navigation)

Це сторінки, створені фільтрами або сортуванням, що генерують тисячі схожих URL.

Наприклад:

/shoes?color=blue&size=7&sale=true
/shoes?size=7&sale=true&color=blue

Ці сторінки показують той самий товар, але з різними параметрами. Googlebot може зациклитися в такій навігації, витрачаючи ресурси на неінформативні варіації.

Що робити:

Заблокуйте такі URL у файлі robots.txt.
Встановіть правила для параметрів у Google Search Console, вказавши, які фільтри ігнорувати.
Додайте canonical-тег на основну категорійну сторінку, щоб уникнути дублювання.

Читайте також: Як поєднати дані вашої реклами з генеративним ШІ

Це допоможе скоротити час на сканування зайвих сторінок і зосередити увагу Googlebot на справді цінному контенті.

Як перевірити активність сканування сайту

Після того як ви розібралися з поняттям crawl budget, наступним кроком є його моніторинг. Google Search Console (GSC) дає змогу безпосередньо побачити, як Googlebot взаємодіє з вашим сайтом.

Цей інструмент показує:

Як часто Googlebot відвідує ваш сайт
Які типи сторінок він сканує
Чи справляється ваш сервер із навантаженням

Загальний звіт у GSC

Зайдіть у свій обліковий запис GSC:

Натисніть «Налаштування» в бічному меню
Прокрутіть до розділу «Сканування»
Натисніть «Відкрити звіт»

У звіті про статистику сканування ви отримаєте знімок активності за останні 90 днів. Це як міні-аудит здоров’я вашого crawl budget.

Як зрозуміти, що ви досягли ліміту сканування?

Зверніть увагу на повідомлення в GSC:

«Виявлено — наразі не індексується»
«Проскановано — наразі не індексується»

Це ознаки того, що Google знає про сторінки, але не пріоритетизує їх для індексації. Якщо у вас багато URL, це серйозний сигнал, що crawl budget потребує уваги.

Діаграма змін із часом

У верхній частині звіту відображається графік активності сканування за 90 днів. Під ним є три основні показники:

Загальна кількість запитів сканування: різке падіння може свідчити про зниження пріоритету сайту
Загальний обсяг завантажень: високі значення можуть вказувати на «важкі» сторінки або медіа
Середній час відповіді: зростання означає проблеми з сервером

Стан хостингу

Цей блок показує, як ваш сервер справляється з роботою Googlebot.

Усе добре — побачите повідомлення типу: «Хост працює стабільно».

Є проблеми — буде попередження: «У хосту були труднощі».

Деталізований звіт покаже:

Помилки під час завантаження robots.txt
DNS-проблеми
Проблеми з підключенням до сервера

Якщо Google не може надійно отримати доступ до сайту, він буде сканувати його рідше.

Деталізація запитів сканування

Цей розділ розбиває всі запити Googlebot за категоріями:

За кодом відповіді: 200 (OK), 404 (не знайдено), 301 (редирект)
За типом файлів: HTML, зображення, скрипти, CSS
За метою запиту: Discovery (виявлення нових сторінок) або Refresh (оновлення відомих)
За типом Googlebot: десктопний, мобільний, для зображень тощо

При натисканні на будь-який елемент можна побачити конкретні сторінки, які відповідають цьому типу.

Для великих сайтів і ecommerce-проєктів з десятками тисяч URL доцільно провести повноцінний аудит crawl budget за допомогою таких інструментів, як Semrush Log File Analyzer, Botify або OnCrawl.

Ці інструменти допомагають виявити:

Як поводиться Googlebot на сайті
Де витрачається crawl budget
Які сторінки не отримують достатньої уваги

Це дозволяє швидко знаходити точки для оптимізації, що забезпечує кращу індексацію найважливішого контенту.

Якщо ваші сторінки довго не потрапляють до індексу або важлива інформація не відображається у пошуку, варто провести SEO-аудит. Ми проаналізуємо, як ефективно ваш сайт використовує crawl budget, перевіримо технічний стан, внутрішню структуру, індексацію та виявимо, що заважає Google швидко й повноцінно сканувати ваш контент. Звертайтесь — допоможемо зробити ваш сайт не лише видимим, а й пріоритетним для пошукових систем.

Ця стаття досупна англійською мовою.

Why Google is not indexing your site pages and what to do about it

Хочеш знати більше про digital?

Також цікаво

Digital-маркетинг SEO

crawl budget

Google

індексація