Форум русской поддержки Joomla!® CMS
24.03.2017, 21:51:57 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
   
   Начало   Поиск Joomla 3.0 FAQ Joomla 2.5 FAQ Joomla 1.5 FAQ Правила форума Новости Joomla Реклама Войти Регистрация Помощь  
Страниц: [1]   Вниз
  Добавить закладку  |  Печать  
Автор

FAQ : robots.txt для Joomla!

 (Прочитано 91559 раз)
0 Пользователей и 1 Гость смотрят эту тему.
ELLE
Support Team
*****

Репутация: +864/-0
Offline Offline

Пол: Женский
Сообщений: 4753



« : 15.12.2011, 21:26:32 »

Вопросы по вашим файлам robots.txt задавайте в теме: Правильный robots.txt?

---------------------------------------------------------------------------------------------------------

Настройка индексации средствами файла robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).

Обязательно изучите:


Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса.
скрин как проверять отдельные адреса в ЯВМ
То же самое вы можете проверить и для Google в своей панели для вебмастера.

Как узнать - что закрывать, а что разрешать роботам?!
Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
в Яндексе: host:domen.ru | host:www.domen.ru
в Google: site:domen.ru
скриншот: Как искать 100% дубли страниц сайта!

Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.

Примеры.
Внимание! Не рекомендуется копировать примеры, так как в каждом конкретном случае файл robots.txt может отличаться от приведенных ниже. В частности это может зависеть от ваших настроек, а так же от того какие дополнительные расширения для Joomla (напр. компоненты) вы используете.

1. Robots.txt для сайтов Joomla + родной SEF. (при условии, что включен mod_rewrite и переименован файл .htaccess)
Joomla+родной SEF

2. Robots.txt для сайтов Joomla + VirtueMart + SH404 (при условии, что включен mod_rewrite и переименован файл .htaccess, отсутствуют адреса с 'index.php' )
J!+VM+sh404

3. Robots.txt для JoomShopping

Строка -
Disallow: /*%        # Запрещает индексацию кириллических url      

Если вас донимают какие-либо активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google, - а всем остальным ниже пропишем
Код:
User-agent: *
Disallow: /

Идентификаторы роботов

Директива Host.
С 9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.

Несколько полезных примеров:
1. запретить индексировать адреса имеющие какое-либо регулярное выражение, например 'search'
    Disallow: /*search

2. может возникнуть ситуация когда нужно закрыть какую-либо страницу, но разрешить индексировать вложенность,
    например запретить site.ru/blog , но не закрывать site.ru/blog/article/
    Disallow: /blog$

3. разрешить индексировать документы в определенном разделе только с расширением .html
    Allow: /blog/*.html
    Disallow: /blog/

3. запрет на индексацию pdf
    Disallow: /*.pdf

4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах       между запросами на загрузку страниц (от 1 до 10)
   Crawl-delay: 3

   для западных ботов можно использовать -
   Request-rate : 1/10  
( интервал в 10 сек )

Из часто задаваемых вопросов:

1. Нужно ли закрывать ссылки от индексации, у которых на конце #bla_bla_bla
Ответ: Нет. Ссылки с разными якорями являются одной страницей, т.е. site.ru/article и site.ru/article#bla_bla_bla не являются дублями, ПСы расценивают их как один и тот же документ.


-------------------------------------------------------------------------------------------------------------------------------------------

Примечание: Если robots.txt не помогает то что делать?!  
« Последнее редактирование: 28.03.2015, 22:51:50 от ELLE » Записан
 
ELLE
Support Team
*****

Репутация: +864/-0
Offline Offline

Пол: Женский
Сообщений: 4753



« Ответ #1 : 08.03.2012, 22:00:29 »

08.03.2012г

Надеюсь все видели уведомление в панели Яндекс.Вебмастер о новых правилах обработки директив 'Allow' и 'Disallow'...
для тех кто в танке :-)
Смотрим что изменилось здесь - http://help.yandex.ru/webmaster/?id=996567#996571

Расскажу подробнее на примере карты сайта и ее адреса:
Раньше директиву 'Allow' необходимо было прописывать первой. Например имеем адрес карты сайта по такому адресу -
site.ru/index.php?option=com_xmap&sitemap=1&view=xml
Так как те у кого отсутствуют адреса с 'index.php?' (т.е. включен mod_rewrite и переименован файл .htaccess) в своем robots.txt прописывали такую строчку - Disallow: /index.php? (чтобы скрыть не SEF ссылки Joomla, которые попали уже в индекс), а в самом начале необходимо было прописать Allow: /index.php?option=com_xmap&sitemap=1&view=xml чтобы бот имел возможность загрузить карту.
То есть было необходимо всегда сначала указывать все 'Allow' (то есть всё, что разрешаем), и только после этого все 'Disallow'....
Код
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта
Disallow: /index.php?
 
Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml
 

Теперь такой необходимости нет. Теперь не важен порядок использования, т.е будет работать и так -
Код
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Disallow: /administrator/ #Закрываем доступ к админке  
....
Disallow: /index.php?
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта
 
Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml ### укажите адрес своей карты сайта

В любом случае, так как некоторые используют свои индивидуальные файлы robots.txt, проверьте доступность важных для вас адресов или наоборот запрет на не нужные директории в своих панелях ЯВМ!

И как всегда все вопросы по роботсу, в том числе связанные с нововведением, обсуждаем в теме -
 Правильный robots.txt? [вопросы/обсуждение]
« Последнее редактирование: 08.03.2012, 22:48:05 от ELLE » Записан
ELLE
Support Team
*****

Репутация: +864/-0
Offline Offline

Пол: Женский
Сообщений: 4753



« Ответ #2 : 26.08.2012, 03:06:43 »

Если robots.txt не помогает, то что делать?!

Не смотря на то, что есть некие стандарты по роботсу и индексации, разные поисковые машины работают несколько по-разному.
Если для ПС Яндекс запрещающие инструкции в robots.txt это фактически закон, то ПС Google ведет себя по-другому. Думаю, ни для кого не секрет, что robots.txt для него носит лишь рекомендательный характер.

Справка из ПС Google.
 - по robots.txt
Цитировать
Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

- по мета тегу <meta name="robots" content="noindex">
Цитировать
Чтобы полностью исключить вероятность появления содержания страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

При этом вы должны выбрать только один из способов - или роботс, или мета-тег. Если вы добавите мета тег на страницу, и при этом она закрыта в роботсе, но ее url уже есть в индексе, то эффекта не будет пока вы не откроете ее в robots.txt, в противном случае гуглбот не сможет просканировать содержание страницы и не увидит запрещающий мета-тег noindex, который как раз и приводит к полному выпадению документа из выдачи.

Управление индексацией контента в Joomla средствами мета-тега

Теперь приведу пару примеров - каким образом можно добавлять этот мета-тег на дублирующие или просто нежелательные страницы в Joomla
1. в index.php шаблона после <head>, если вставить следующее
Код:
<?php if ($_SERVER['QUERY_STRING']):?>
<meta name="robots" content="noindex"/>
<?php endif; ?>
то это приведет к появлению мета-тега на страницах, типа site.ru/article?bla_bla_bla (если после знака '?' не используются реальные параметры, допустим для страницы печати не сработает)

2. закрываем результаты поиска (иногда на такие страницы ставят ссылки)
Код
<?php if ($option == 'com_search')  : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>
*в начале нужно определить переменную
Код:
$option = JRequest::getVar('option', null);
впрочем, больше примеров переменных тут http://joomlaforum.ru/index.php/topic,67278.0.html

3. закрыть страницы печати или дубль документа, где на конце ?tmpl=component или &print=1, можно через файл component.php (обычно есть во всех шаблонах Joomla или берете из папки system), прописав в нем также этот мета-тег в <head></head>

4. закрыть от индексации страницы пагинации,
 в index.php в начале
Код:
$limit = JRequest::getVar('limitstart', 0);
в head
Код:
<?php if ($limit) : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

В компонентах можно использовать API Joomla (также определив необходимые условия для вывода)
Код:
<?php $document->setMetaData( 'robots', 'noindex'); ?>

Также для самостоятельного изучения:JRequest :: getVar, $_SERVER

http://docs.joomla.org/JDocument/setMetaData

Внимание! Все примеры приведены лишь в качестве примера альтернативных решений, а не инструкция к действию! Если вы не уверены в своих действиях и плохо понимаете о чем речь, настоятельно рекомендую обойтись настройками robots.txt!
« Последнее редактирование: 03.03.2013, 13:13:37 от ELLE » Записан
Страниц: [1]   Вверх
  Добавить закладку  |  Печать  
 
Перейти в:  

Powered by SMF 1.1.21 | SMF © 2006, Simple Machines

Joomlaforum.ru is not affiliated with or endorsed by the Joomla! Project or Open Source Matters.
The Joomla! name and logo is used under a limited license granted by Open Source Matters
the trademark holder in the United States and other countries.

LiveInternet