LiveInternetMail.ru
Форум русской поддержки Joomla!® CMS
27.05.2012, 15:01:47 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
   
   Начало   Поиск Joomla 1.7 FAQ Joomla 1.5 FAQ Joomla 1.0 FAQ Правила форума Новости Joomla Войти Регистрация Помощь  
Страниц: [1]   Вниз
  Добавить закладку  |  Печать  
Автор Тема: FAQ: robots.txt для Joomla!  (Прочитано 8306 раз)
0 Пользователей и 4 Гостей смотрят эту тему.
ELLE
Moderator
*****

Репутация: +207/-0
Offline Offline

Пол: Женский
Сообщений: 1394



« : 15.12.2011, 21:26:32 »

Настройка индексации средствами файла robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).

Обязательно изучите:


Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса.
скрин как проверять отдельные адреса в ЯВМ
То же самое вы можете проверить и для Google в своей панели для вебмастера.

Как узнать - что закрывать, а что разрешать роботам?!
Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
в Яндексе: host:domen.ru | host:www.domen.ru
в Google: site:domen.ru
скриншот: Как искать 100% дубли страниц сайта!

Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.

Примеры.
Внимание! Не рекомендуется копировать примеры, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.

1. Файл для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)
Joomla+родной SEF

2. Файл для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )
J!+VM+sh404

3. Robots.txt для JoomShopping

Строка -
Disallow: /*%        # Запрещает индексацию кириллических url      

Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем
Код:
User-agent: *
Disallow: /

Идентификаторы роботов

Директива Host.
С 9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.

Несколько полезных примеров:
1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
    Disallow: /*search

2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
    например запретить site.ru/blog , но не закрывать site.ru/blog/article/
    Disallow: /blog$

3. разрешить индексировать документы в определенном разделе только с расширением .html
    Allow: /blog/*.html
    Disallow: /blog/

3. запрет на индексацию pdf
    Disallow: /*.pdf

4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах       между запросами на загрузку страниц (от 1 до 10)
   Crawl-delay: 3

   для западных ботов можно использовать -
   Request-rate : 1/10  
( интервал в 10 сек )
  
« Последнее редактирование: 19.03.2012, 00:38:19 от ELLE » Записан
 
skai
Moderator
*****

Репутация: +103/-4
Offline Offline

Пол: Мужской
Сообщений: 1120


слушаю 4duk.ru


« Ответ #1 : 16.12.2011, 14:30:31 »

верхний пост обновляемый.

Вопросы по вашим файлам robots.txt задавайте в теме:
 - Правильный robots.txt?

Предлагайте свои решения, связанные с Joomla и сторонними расширениями!
« Последнее редактирование: 16.12.2011, 14:41:51 от skai » Записан
ELLE
Moderator
*****

Репутация: +207/-0
Offline Offline

Пол: Женский
Сообщений: 1394



« Ответ #2 : 08.03.2012, 22:00:29 »

08.03.2012г

Надеюсь все видели уведомление в панели Яндекс.Вебмастер о новых правилах обработки директив 'Allow' и 'Disallow'...
для тех кто в танке :-)
Смотрим что изменилось здесь - http://help.yandex.ru/webmaster/?id=996567#996571

Расскажу подробнее на примере карты сайта и ее адреса:
Раньше директиву 'Allow' необходимо было прописывать первой. Например имеем адрес карты сайта по такому адресу -
site.ru/index.php?option=com_xmap&sitemap=1&view=xml
Так как те у кого отсутствуют адреса с 'index.php?' (т.е. включен mod_rewrite и переименован файл .htaccess) в своем robots.txt прописывали такую строчку - Disallow: /index.php? (чтобы скрыть не SEF ссылки Joomla, которые попали уже в индекс), а в самом начале необходимо было прописать Allow: /index.php?option=com_xmap&sitemap=1&view=xml чтобы бот имел возможность загрузить карту.
То есть было необходимо всегда сначала указывать все 'Allow' (то есть всё, что разрешаем), и только после этого все 'Disallow'....
Код
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта
Disallow: /index.php?
 
Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml
 

Теперь такой необходимости нет. Теперь не важен порядок использования, т.е будет работать и так -
Код
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Disallow: /administrator/ #Закрываем доступ к админке  
....
Disallow: /index.php?
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта
 
Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml ### укажите адрес своей карты сайта

В любом случае, так как некоторые используют свои индивидуальные файлы robots.txt, проверьте доступность важных для вас адресов или наоборот запрет на не нужные директории в своих панелях ЯВМ!

И как всегда все вопросы по роботсу, в том числе связанные с нововведением, обсуждаем в теме -
 Правильный robots.txt? [вопросы/обсуждение]
« Последнее редактирование: 08.03.2012, 22:48:05 от ELLE » Записан
Страниц: [1]   Вверх
  Добавить закладку  |  Печать  
 
Перейти в:  

Рейтинг@Mail.ru Rambler Top100 Powered by SMF 1.1.16 | SMF © 2006, Simple Machines

Joomlaforum.ru is not affiliated with or endorsed by the Joomla! Project or Open Source Matters.
The Joomla! name and logo is used under a limited license granted by Open Source Matters
the trademark holder in the United States and other countries.

LiveInternet