Логин
Пароль
Войти как пользователь
Зарегистрироваться
После регистрации на сайте вам будет доступно отслеживание состояния заказов, личный кабинет и другие новые возможности

Настраиваем robots.txt в 1С-Битрикс для СЕО-оптимизации: "Некоторые страницы сайта дублируют друг друга"

06.09.2021
Для поисковых систем, адреса страниц, которые даже незначительно отличаются, но при этом содержат одну и ту же информацию - это разные страницы. А, как известно, дубли страниц - это плохо: это не уникальная информация, вес и значимость основной страницы снижается, если присутствуют дубли этой страницы. А это негативно влияет на продвижение страницы и сайта в целом для поисковых систем.

Для поисковых систем, адреса страниц, которые даже незначительно отличаются, но при этом содержат одну и ту же информацию - это разные страницы. А, как известно, дубли страниц - это плохо: это не уникальная информация, вес и значимость основной страницы снижается, если присутствуют дубли этой страницы. А это негативно влияет на продвижение страницы и сайта в целом для поисковых систем.

Если в Яндекс.Вебмастере, вы обнаружили ошибку "Некоторые страницы сайта дублируют друг друга", то вероятно ваш 1С-Битрикс генерирует однотипные страницы (дубли). Почему это происходит?

Например, это могут быть различные виды отображения каталога (в виде списка или плиткой). Для пользователя - страницы разные, выглядят по разному. Но для поисковой системы - страницы содержат одну и ту же информацию. Например: https://artano.ru/catalog/sites_1s_bitriks/ и  https://artano.ru/catalog/sites_1s_bitriks/index.php?view=list. Одна и таже страница, только во втором случае, Битрикс явно указывает, что каталог нужно отобразить в виде списка.

Также в ряде случаев, нежелательно чтобы поисковые системы индексировали некоторые разделы сайта, например раздел администратора, личный кабинет пользователя, поиск по сайту (который также может создавать дубли страниц).

Чтобы этого избежать, необходимо правильно настроить файл robots.txt, который задает правила индексирования для поисковых роботов.

Как исправить ошибку "Некоторые страницы сайта дублируют друг друга"

Текст в ссылке в виде ?view=list, или любой другой текст после знака вопроса - это get-параметры. Они используются для передачи внутри системы каких-либо данных. Чтобы Яндекс или Google не индексировали ссылки с такими параметрами, есть специальное правило для очистки ссылок от get-параметров: Clean-param.

Пример работы:

User-Agent: * #указывает, для каких роботов установлены директивы, звездочка означает - для всех роботов.

Clean-param: view * # убираем из индексации все get-параметры, которые начинаются со слова view. Звездочка означает, что это правило будет работать для всех страниц сайта. Если нужно убрать get-параметр только, например, для каталога, то вместо звездочки нужно прописать /catalog/* (Clean-param: view /catalog/*)

В результате, вместо страниц вида https://artano.ru/catalog/sites_1s_bitriks/index.php?view=list будут индексироваться страницы вида https://artano.ru/catalog/sites_1s_bitriks/.

Яндекс.Вебмастер позволяет увидеть примеры страниц-дублей. Вы можете просмотреть эти страницы, и определить get-параметры, которые создают дубли.

Пример списка очистки параметров Clean-param для 1С-Битрикс в robots.txt

User-Agent: * #указывает, для каких роботов установлены директивы

Disallow:

Clean-param: sort * /не будут индексироваться страницы с сортировкой

Clean-param: view * /не будут индексироваться страницы с видом списка

Clean-param: WEB_FORM_ID * /не будут индексироваться страницы с указанием id-формы

Clean-param: back_url_admin * /игнорировать технический параметр back_url_admin

Clean-param: bitrix_include_areas * /игнорировать технический параметр bitrix_include_areas

Clean-param: clear_cache * /игнорировать технический параметр clear_cache

Clean-param: order * /игнорировать свойства заказа, лучше раздел оформления заказа вообще исключить из индексаци

Запрет индексации определенных разделов сайта 1С-Битрикс

Некоторые разделы сайта, которые могут создавать дубли страниц или не несут полезной информации, лучше запретить для индексации поисковыми системами. Например страницы поиска, административного раздела.

Для это в robots.txt прописываем следующий код:

User-Agent: * #указывает, для каких роботов установлены директивы

Disallow: /bitrix/admin/ # запрещает индексирование административного раздела

Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска

Подключение карты сайта sitemap.xml в robots.txt на 1С-Битрикс

Необходимо также указать поисковым роботам, где находится файл sitemap.xml с картой сайта. Если он располагается у вас в корне сайта и имеет стандартное название, то поисковые роботы найдут его самостоятельно. Но явно указать его местонахождение лишним не будет. Для этого прописываем в файле robots.txt код:

Sitemap: https://artano.ru/sitemap.xml # указывает роботу на файл Sitemap для сайт

Указать поисковым роботам главное зеркало сайта в robots.txt

Иногда сайт может быть доступен по разным адресам. Например для Яндекса - адреса - http://www.artano.ru, https://www.artano.ru, http://artano.ru и https://artano.ru - это все разные сайты, несмотря на то, что для пользователя - это один и тот же сайт.

Поэтому для указания, какой адрес считать главным зеркалом, нужно добавить в файл robots.txt код:

Host: https://artano.ru # указывает, то artano.ru - главное зеркало сайт

Пример всего кода файла robots.txt для 1С-Битрикс

User-Agent: * #указывает, для каких роботов установлены директивы

Host: https://artano.ru

Sitemap: https://artano.ru/sitemap.xml # указывает роботу на файл Sitemap для сайта

Disallow: /bitrix/admin/ # запрещает ссылки из "Корзины с товарами".

Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска

Disallow:

Clean-param: sort * # не индексировать get-параметры.

Clean-param: view *

Clean-param: WEB_FORM_ID *

Clean-param: back_url_admin *

Clean-param: bitrix_include_areas *

Clean-param: clear_cache *

Clean-param: order 

Это основные настройки файла robots.txt. Для его корректной настройки, нужно проанализировать страницы сайта, выявить те, которые не нужно индексировать, и добавить их в исключения согласно данной инструкции.

Настройка файлов robots.txt и .htaccess входит в услугу по базовой поисковой оптимизации сайта в Студии Артано. Если не хотите разбираться самостоятельно, можно заказать у нас)).


#Решения для сайта
#Заметки программиста
#Для интернет-магазина
Читайте также
Мы не будем с Вами работать!
#Заметки менеджера
14.05.2021
Что такое композитный сайт?
#Решения для сайта
#Для интернет-магазина
14.05.2021