Еще больше про SEO, сайты и маркетинг
+секретные методики в нашем телеграм канале!
Пара файлов на сервере — и поисковая система уже знает, что показывать, а что аккуратно обойти стороной. Это не магия, а простая техника: robots.txt говорит роботам, куда не ходить, а sitemap подсказывает, что именно вы хотите, чтобы проиндексировали. Разберёмся, как настроить оба файла, чтобы Google понял вас без лишних вопросов.
Ясно и по делу: правильный robots.txt и корректный sitemap ускоряют индексацию и экономят ресурсы сервера. Ниже — практические правила и примеры, которые реально работают на большинстве сайтов.
Robots.txt — текстовый файл в корне сайта (пример: https://example.com/robots.txt). Он содержит инструкции для роботов поисковых систем: какие разделы можно сканировать, а какие — нет. Google читает этот файл перед началом обхода.
Важно понимать границы: robots.txt запрещает сканирование, но не всегда — индексацию. Если сторонние страницы ссылаются на закрытый URL, он может появиться в выдаче без сниппета. Для надёжного исключения используйте мета-тег noindex на самой странице или заголовок X-Robots-Tag.
Составить понятный robots.txt несложно, но мелочи важны: регистр символов, путь и расположение файла. Ниже — таблица с базовыми директивами.
| Директива | Назначение | Пример |
|---|---|---|
| User-agent | Кому адресуется правило | User-agent: Googlebot |
| Disallow | Запретить доступ к пути | Disallow: /private/ |
| Allow | Разрешить доступ (работает в Google) | Allow: /public/image.jpg |
| Sitemap | Указание на карту сайта | Sitemap: https://example.com/sitemap.xml |
Поддерживаются шаблоны: * соответствует любому набору символов, $ — конец строки. Google применяет наиболее специфичное правило (longest match) при противоречиях.
Sitemap — это файл в формате XML, который перечисляет URL-адреса сайта и опционально добавляет метаданные: дату изменения, приоритет, частоту обновления. Он помогает Google быстрее найти важные страницы, особенно если у сайта сложная структура или мало внешних ссылок.
Ключевые ограничения: до 50 000 URL в одном файле и не более 50 МБ в несжатом виде. При превышении используйте sitemap index — файл, который ссылается на несколько карт сайта.
Сжатие gzip уменьшит размер файла и ускорит загрузку; Google поддерживает .xml.gz.
Простой и эффективный приём: добавьте в robots.txt строку Sitemap: https://ваш-сайт/sitemap.xml. Тогда Googlebot найдёт карту автоматически при посещении robots.txt.
Дальше — зарегистрируйте сайт в Google Search Console и отправьте sitemap вручную. Это ускорит первичную обработку и даст отчёт о найденных ошибках индексации.
Частые промахи: случайно закрыть весь сайт (Disallow: /), забыть обновить sitemap после крупного редизайна, или положить robots.txt в подпапку. Следующее поможет избежать проблем.
И наконец: проверяйте результаты в Search Console. Там видно, какие URL обнаружены, какие проиндексированы и где ошибки. Немного внимания сейчас сэкономит массу времени потом.