Настройка индексации средствами файла robots.txtФайл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).
Обязательно изучите:Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса.
скрин как проверять отдельные адреса в ЯВМ
То же самое вы можете проверить и для Google в своей панели для вебмастера.
Как узнать - что закрывать, а что разрешать роботам?!Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
в Яндексе:
host:domen.ru | host:www.domen.ru в Google:
site:domen.ruскриншот: Как искать 100% дубли страниц сайта!
Для этого скопируйте кусок текста со страницы и вставьте в поисковую строку
в кавычках, нажмите на "Расширенный поиск" и укажите адрес вашего сайта, далее вы можете увидеть все дубли если таковые имеются (проиндексированы)

В
Google можно проверить так -
site:domen.ru "в кавычках укажите искомый кусок текста"*вместо domen.ru укажите адрес вашего сайта
Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.
Примеры.Внимание! Не рекомендуется копировать примеры, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.1. Robots.txt для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)
User-agent: * #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /includes/ # #Не помню
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto #Форма отправки писем
Disallow: /*pop= # #Всплывающие окна
Disallow: /*lang=ru # #Не помню
Disallow: /*format= # #Не помню
Disallow: /*print= # #Ссылка вывода на печать
Disallow: /*task=vote # #Голосования
Disallow: /*=watermark #Идиотская ссылка на водяные знаки
Disallow: /*=download # #Ссылки на скачивание
Disallow: /*user/ # #Не помню
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем Flash. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Host: site.ru # # #Прописываем ваш сайт
Sitemap: http://сайт/sitemap.xml ### укажите адрес своей карты сайта
2. Robots.txt для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )
User-agent: * # #К какому роботу обращаемся (по умолчанию ко всем)
Allow: /sitemap-xml.html?sitemap=1 # #Разрешаем доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category #разрешаем доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product #разрешаем доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword= #Поиск по ключевому слову на сайте
Disallow: /*pop=0 #Косяк sh404
Disallow: /*product-search #Результаты поиска
Disallow: /*flypage= #Адреса страниц карточек из результатов поиска по сайту
Disallow: /*cart #Корзина
Disallow: /*feed #Также запрещается RSS и atom
Disallow: /404
Disallow: /*? #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% #запрещает индексацию кириллических url
Crawl-delay: 3 #задает таймаут в 3 секунды
Host: site.ru # # #Прописываем ваш сайт
Sitemap: http://сайт/sitemap.xml #### укажите адрес своей карты сайта
3. Robots.txt для JoomShoppingСтрока -
Disallow: /*% # Запрещает индексацию
кириллических url
Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем
User-agent: *
Disallow: /
Идентификаторы роботовДиректива Host.С
9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.
Несколько полезных примеров:1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
Disallow: /*search
2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
например запретить site.ru/blog , но не закрывать site.ru/blog/article/
Disallow: /blog$
3. разрешить индексировать документы в определенном разделе только с расширением .html
Allow: /blog/*.html
Disallow: /blog/
3. запрет на индексацию pdf
Disallow: /*.pdf
4. для уменьшения нагрузки на сервер (для Яндекса,
Google не учитывает) можно указать ботам временной интервал в секундах между запросами на загрузку страниц (от 1 до 10)
Crawl-delay: 3
для западных ботов можно использовать -
Request-rate : 1/10
( интервал в 10 сек )
Из часто задаваемых вопросов:1. Нужно ли закрывать ссылки от индексации, у которых на конце
#bla_bla_blaОтвет: Нет. Ссылки с разными якорями являются одной страницей, т.е. site.ru/article и site.ru/article#bla_bla_bla не являются дублями, ПСы расценивают их как один и тот же документ.
-------------------------------------------------------------------------------------------------------------------------------------------
Примечание:
Если robots.txt не помогает то что делать?!