Що таке robots.txt та навіщо він потрібен на сайті?
- Legit Digital
- 30 січ. 2023 р.
- Читати 2 хв

Файл robots.txt — текстовий файл у форматі .txt, що обмежує пошукові роботи доступ до вмісту на httpы-сервері. Він складається з набору вказівок для пошукових роботів, які рекомендують до заборони на індексацію певних файлів, сторінок або каталогів на сайті. Проте, вказівки в файлі не є обов'язковим обмеженням для пошукових систем.
Якщо robots.txt неправильно налаштований чи зовсім відсутній, сайт може не індексуватися і повністю пропасти з результатів пошуку в Google та інших пошукових систем.
Правильне налаштування robots.txt дозволяє уникнути попадання приватної інформації в результати пошуку.
Основні параметри та налаштування robots.txt
Disallow: - основний параметр для заборони сканування окремих файлів, посилань чи навіть категорій. Назви файлів та папок, до яких потрібно обмежити доступ, вказують після символу "/"
Наприклад:
User-agent: * - показуємо для якого пошукового робота вказівки нижче (* означає для всіх)
Disallow: /page.html - закриваємо конкретну сторінку сайту.
Disallow: /*.pdf - закриваємо усі файли формату .pdf
Disallow: / - закриваємо увесь сайт від індексації.
Disallow: /category/ - закриваємо усю категорію від індексації
Allow: - параметр для відкриття до індексації окремих файлів чи сторінок.
Наприклад, нам потрібно відкрити усі зображення в папці /wp-admin/ . Проте це системна папка у Wordpress, де можуть бути технічні сторінки, які не потрібно індексувати. Тому ми вказуємо так:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/*.jpeg
Allow: /wp-admin/*.webp
Allow: /wp-admin/*.png
Allow: /wp-admin/*.jpg
Allow: /wp-admin/*.gif
Таким чином, ми відкрили усі зображення в папці.
Sitemap: - Команда sitemap у robots.txt вказує на шлях до карти сайту.
Приклад:
Sitemap: https://site.com.ua/sitemap2023.xml
Приклад robots.txt на сайті

Використання декількох юзер-агентів свідчить про те, що Розетка закриває свій сайт від індексації окремих роботів інших компаній, що моніторять інформацію з метою подальшого використання у своїх цілях (ціни, контент, SEO-методи і т.д.).
Як перевірити свій robots.txt на корректність?
Перевіряємо наявність файлу robots.txt у корені сайту.
Переконуємося, що:
всі корисні для відвідувача сторінки доступні для індексації, технічні та порожні - приховані, дублі - приклеєні через rel="canonical", заповнені в Google Search Console дані про те, що робить той чи інший get-параметр;
файл містить директиву Sitemap (вказує на розташування файлу карти сайту. Помилки призводять до того, що робот індексує сторінки некоректно, тому вони не відображаються в пошуку);
шлях site.ru/robots.txt коректно відкриває необхідний файл.
За допомогою Screaming Frog SEO Spider, вкладка Response Codes: Blocked by Robots.txt можна відразу визначити, що закрито на даний момент.
У Screaming Frog SEO Spider вибираємо Bulk Exports -> Response Codes -> by Robots.txt - це посилання на сторінках сайту, що ведуть на закриті за допомогою robots.txt сторінки.
Додаткова інформація
Синтаксис та директиви для файлу Robots.txt:
Перевірка файлу robots.txt у Google: https://www.google.com/webmasters/tools/robots-testing-tool
Comments