Robots.txt і SEO: що потрібно знати у 2025 році ⋆ Блог Digital агенції UAMASTER

Від блокування небажаних ботів до точного налаштування доступу — robots.txt відіграє ключову роль у SEO. Дізнайтеся, як ефективно ним користуватися.

Чому robots.txt має значення

Robots.txt — це набір інструкцій для веб-сканерів, який вказує, що вони можуть і не можуть робити на вашому сайті.

Він допомагає приховати певні частини сайту або уникати індексації непотрібних сторінок. Завдяки цьому можна покращити SEO та забезпечити стабільну роботу сайту.

Налаштування файлу robots.txt

Створити robots.txt досить просто. Він використовує основні команди для керування тим, як сканери взаємодіють із сайтом.

Основні команди:

User-agent — визначає, для якого бота застосовуються правила.
Disallow — забороняє доступ до певних сторінок чи папок.

Ось два базових приклади використання robots.txt:

Цей файл дозволяє всім ботам сканувати весь сайт:

User-agent: *
Disallow:

А цей — забороняє доступ до папки “Keep Out”:

User-agent: *
Disallow: /keep-out/

Також можна заборонити доступ окремим ботам:

User-agent: Googlebot
Disallow: /

Цей приклад повністю забороняє Googlebot індексувати сайт (що не рекомендується, але показує принцип роботи).

Використання символів-замінників

Як видно з прикладів, символ “*” дозволяє створювати гнучкі правила. Він застосовується до багатьох ботів або сторінок без потреби вказувати їх окремо.

Контроль на рівні окремих сторінок

Якщо потрібно заблокувати не всю папку, а лише окремі сторінки, можна зробити так:

User-agent: *
Disallow: /keep-out/file1.html
Disallow: /keep-out/file2.html

Так ви збережете доступність важливого контенту.

Комбінування команд

Раніше була доступна лише команда Disallow, і Google застосовував найсуворіші правила у файлі.

Тепер з’явилася команда Allow, що дає більше гнучкості у налаштуванні доступу.

Наприклад, щоб дозволити ботам індексувати лише папку “Important”, а решту сайту заблокувати:

User-agent: *
Disallow: /
Allow: /important/

Можна поєднувати команди для створення складних правил:

User-agent: *
Disallow: /private/
Allow: /private/public-file.html

Це дозволяє залишити доступними лише певні файли.

Просунуті конфігурації

Іноді потрібні складніші налаштування. Наприклад, якщо сайт генерує дублі через параметри URL, можна використати robots.txt для їх виключення:

User-agent: *
Disallow: /*?*

Або, якщо на сайті з’являються випадкові низькоякісні URL, можна заблокувати всі папки, крім потрібних:

User-agent: *
Disallow: /
Allow: /essential-content/
Allow: /valuable-content-1/
Allow: /valuable-content-2/

Коментарі у файлі robots.txt

Коментарі (позначаються знаком #) допомагають зробити файл більш зрозумілим. Наприклад, можна додати дату останнього оновлення:

#robots.txt для www.example-site.com – оновлено 22.03.2025
User-agent: *
#Забороняємо низькоякісний контент
Disallow: /bogus-folder/

Керування швидкістю сканування

Щоб запобігти перевантаженню сервера, можна встановити затримку між запитами ботів:

User-agent: *
Crawl-delay: 10

Це просить ботів чекати 10 секунд між запитами.

Читайте також: Google блокує SEO-інструменти через JavaScript: що змінилося?

Додавання XML-карти сайту

Google і Bing рекомендують надсилати XML-карту сайту через відповідні сервіси. Але можна також додати її у robots.txt:

User-agent: *
Disallow:
Sitemap: https://www.my-site.com/sitemap.xml

Головне — вказати повний URL.

Типові помилки у robots.txt

Неправильний синтаксис. Команди мають бути правильно відформатовані, щоб не допустити помилок.
Занадто жорсткі обмеження. Якщо блокувати занадто багато сторінок, це може зашкодити індексації сайту.
Незахищеність від “поганих” ботів. Не всі сканери дотримуються robots.txt, тож для повного блокування потрібно використовувати інші методи.
Хибне уявлення про конфіденційність. Якщо сторінка має зовнішні посилання, її можуть все одно індексувати. Для повного виключення слід використовувати мета-тег noindex.