Що таке robots.txt та навіщо він потрібен на сайті?

Файл robots.txt — текстовий файл у форматі .txt, що обмежує пошукові роботи доступ до вмісту на httpы-сервері. Він складається з набору вказівок для пошукових роботів, які рекомендують до заборони на індексацію певних файлів, сторінок або каталогів на сайті. Проте, вказівки в файлі не є обов'язковим обмеженням для пошукових систем.

Якщо robots.txt неправильно налаштований чи зовсім відсутній, сайт може не індексуватися і повністю пропасти з результатів пошуку в Google та інших пошукових систем.

Правильне налаштування robots.txt дозволяє уникнути попадання приватної інформації в результати пошуку.

Основні параметри та налаштування robots.txt

Disallow: - основний параметр для заборони сканування окремих файлів, посилань чи навіть категорій. Назви файлів та папок, до яких потрібно обмежити доступ, вказують після символу "/"

Наприклад:

User-agent: * - показуємо для якого пошукового робота вказівки нижче (* означає для всіх) 
Disallow: /page.html - закриваємо конкретну сторінку сайту.
Disallow: /*.pdf - закриваємо усі файли формату .pdf
Disallow: / - закриваємо увесь сайт від індексації.
Disallow: /category/ - закриваємо усю категорію від індексації

Allow: - параметр для відкриття до індексації окремих файлів чи сторінок.

Наприклад, нам потрібно відкрити усі зображення в папці /wp-admin/ . Проте це системна папка у Wordpress, де можуть бути технічні сторінки, які не потрібно індексувати. Тому ми вказуємо так:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/*.jpeg
Allow: /wp-admin/*.webp
Allow: /wp-admin/*.png
Allow: /wp-admin/*.jpg
Allow: /wp-admin/*.gif

Таким чином, ми відкрили усі зображення в папці.

Sitemap: - Команда sitemap у robots.txt вказує на шлях до карти сайту.

Приклад:

Sitemap: https://site.com.ua/sitemap2023.xml

Приклад robots.txt на сайті

Використання декількох юзер-агентів свідчить про те, що Розетка закриває свій сайт від індексації окремих роботів інших компаній, що моніторять інформацію з метою подальшого використання у своїх цілях (ціни, контент, SEO-методи і т.д.).

Як перевірити свій robots.txt на корректність?

Перевіряємо наявність файлу robots.txt у корені сайту.

Переконуємося, що:

всі корисні для відвідувача сторінки доступні для індексації, технічні та порожні - приховані, дублі - приклеєні через rel="canonical", заповнені в Google Search Console дані про те, що робить той чи інший get-параметр;
файл містить директиву Sitemap (вказує на розташування файлу карти сайту. Помилки призводять до того, що робот індексує сторінки некоректно, тому вони не відображаються в пошуку);
шлях site.ru/robots.txt коректно відкриває необхідний файл.

За допомогою Screaming Frog SEO Spider, вкладка Response Codes: Blocked by Robots.txt можна відразу визначити, що закрито на даний момент.

У Screaming Frog SEO Spider вибираємо Bulk Exports -> Response Codes -> by Robots.txt - це посилання на сторінках сайту, що ведуть на закриті за допомогою robots.txt сторінки.

Додаткова інформація

Синтаксис та директиви для файлу Robots.txt:

https://support.google.com/webmasters/answer/6062596

Перевірка файлу robots.txt у Google: https://www.google.com/webmasters/tools/robots-testing-tool

Що таке robots.txt та навіщо він потрібен на сайті?

Основні параметри та налаштування robots.txt

Приклад robots.txt на сайті

Як перевірити свій robots.txt на корректність?

Додаткова інформація

Останні пости

Comments

ОТРИМАЙТЕ ПРОПОЗИЦІЮ ДЛЯ ВАШОГО САЙТУ