FAQ : robots.txt для Joomla!

ELLE

Глобальный модератор
4505
893 / 0

FAQ : robots.txt для Joomla!

« : 15.12.2011, 21:26:32 »

« Последнее редактирование: 28.03.2015, 21:51:50 от ELLE »

Записан

Быстрый просмотр товаров для Joomshopping
Бесконечный скроллинг для Joomla

ELLE

Глобальный модератор
4505
893 / 0

Re: FAQ: robots.txt для Joomla!

« Ответ #1 : 08.03.2012, 22:00:29 »

08.03.2012г

Надеюсь все видели уведомление в панели Яндекс.Вебмастер о новых правилах обработки директив 'Allow' и 'Disallow'...
[spoiler title=для тех кто в танке :-) ]
Добрый день!
Уведомляем вас об изменениях в обработке директивы 'Allow' файла robots.txt, с помощью которого вы можете разрешить или запретить индексирование сайта поисковым роботом Яндекса.
По новым правилам, если страница сайта попадает под действие нескольких директив 'Allow' и/или 'Disallow', то будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.
Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам. В этом вам поможет наша форма проверки robots.txt.
Подробнее об использовании директив вы можете прочитать в Помощи.[/spoiler]
Смотрим что изменилось здесь - http://help.yandex.ru/webmaster/?id=996567#996571

Расскажу подробнее на примере карты сайта и ее адреса:
Раньше директиву 'Allow' необходимо было прописывать первой. Например имеем адрес карты сайта по такому адресу -
site.ru/index.php?option=com_xmap&sitemap=1&view=xml
Так как те у кого отсутствуют адреса с 'index.php?' (т.е. включен mod_rewrite и переименован файл .htaccess) в своем robots.txt прописывали такую строчку - Disallow: /index.php? (чтобы скрыть не SEF ссылки Joomla, которые попали уже в индекс), а в самом начале необходимо было прописать Allow: /index.php?option=com_xmap&sitemap=1&view=xml чтобы бот имел возможность загрузить карту.
То есть было необходимо всегда сначала указывать все 'Allow' (то есть всё, что разрешаем), и только после этого все 'Disallow'....

Код: robots

User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml  	#разрешает доступ к карте сайта
Disallow: /index.php?

Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml

Теперь такой необходимости нет. Теперь не важен порядок использования, т.е будет работать и так -

Код: robots

User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Disallow: /administrator/	#Закрываем доступ к админке  
....
Disallow: /index.php?
Allow: /index.php?option=com_xmap&sitemap=1&view=xml  	#разрешает доступ к карте сайта

Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml ### укажите адрес своей карты сайта

В любом случае, так как некоторые используют свои индивидуальные файлы robots.txt, проверьте доступность важных для вас адресов или наоборот запрет на не нужные директории в своих панелях ЯВМ!

И как всегда все вопросы по роботсу, в том числе связанные с нововведением, обсуждаем в теме -
Правильный robots.txt? [вопросы/обсуждение]

« Последнее редактирование: 08.03.2012, 22:48:05 от ELLE »

Записан

Быстрый просмотр товаров для Joomshopping
Бесконечный скроллинг для Joomla

ELLE

Глобальный модератор
4505
893 / 0

Re: faq: robots.txt для Joomla!

« Ответ #2 : 26.08.2012, 03:06:43 »

Если robots.txt не помогает, то что делать?!

Не смотря на то, что есть некие стандарты по роботсу и индексации, разные поисковые машины работают несколько по-разному.
Если для ПС Яндекс запрещающие инструкции в robots.txt это фактически закон, то ПС Google ведет себя по-другому. Думаю, ни для кого не секрет, что robots.txt для него носит лишь рекомендательный характер.

Справка из ПС Google.
- по robots.txt

Цитировать

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

- по мета тегу <meta name="robots" content="noindex">

Цитировать

Чтобы полностью исключить вероятность появления содержания страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

При этом вы должны выбрать только один из способов - или роботс, или мета-тег. Если вы добавите мета тег на страницу, и при этом она закрыта в роботсе, но ее url уже есть в индексе, то эффекта не будет пока вы не откроете ее в robots.txt, в противном случае гуглбот не сможет просканировать содержание страницы и не увидит запрещающий мета-тег noindex, который как раз и приводит к полному выпадению документа из выдачи.

Управление индексацией контента в Joomla средствами мета-тега

Теперь приведу пару примеров - каким образом можно добавлять этот мета-тег на дублирующие или просто нежелательные страницы в Joomla
1. в index.php шаблона после <head>, если вставить следующее

Код

<?php if ($_SERVER['QUERY_STRING']):?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

то это приведет к появлению мета-тега на страницах, типа site.ru/article?bla_bla_bla (если после знака '?' не используются реальные параметры, допустим для страницы печати не сработает)

2. закрываем результаты поиска (иногда на такие страницы ставят ссылки)

Код: php

<?php if ($option == 'com_search')  : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

*в начале нужно определить переменную

Код

$option = JRequest::getVar('option', null);

впрочем, больше примеров переменных тут http://joomlaforum.ru/index.php/topic,67278.0.html

3. закрыть страницы печати или дубль документа, где на конце ?tmpl=component или &print=1, можно через файл component.php (обычно есть во всех шаблонах Joomla или берете из папки system), прописав в нем также этот мета-тег в <head></head>

4. закрыть от индексации страницы пагинации,
в index.php в начале

Код

$limit = JRequest::getVar('limitstart', 0);

в head

Код

<?php if ($limit) : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

В компонентах можно использовать API Joomla (также определив необходимые условия для вывода)

Код

<?php $document->setMetaData( 'robots', 'noindex'); ?>

Также для самостоятельного изучения:JRequest :: getVar, $_SERVER

http://docs.joomla.org/JDocument/setMetaData

Внимание! Все примеры приведены лишь в качестве примера альтернативных решений, а не инструкция к действию! Если вы не уверены в своих действиях и плохо понимаете о чем речь, настоятельно рекомендую обойтись настройками robots.txt!

« Последнее редактирование: 03.03.2013, 13:13:37 от ELLE »

Записан

Быстрый просмотр товаров для Joomshopping
Бесконечный скроллинг для Joomla

WT SEO Meta templates плагин сео-шаблонов для Joomla Автор sergeytolkachyov	Ответов: 25 Просмотров: 5268	24.11.2023, 10:24:11 от sergeytolkachyov
Нет позиций в Google Joomla 3 Автор Benderalfa	Ответов: 1 Просмотров: 3093	20.09.2022, 20:53:56 от darkghost
Роботу Googlebot заблокирован доступ в файле robots.txt Автор illimited	Ответов: 3 Просмотров: 3954	29.05.2022, 14:57:55 от web1
Расширенные описания страниц в Joomla (микроданные, микроформаты, RDFa, schema.org) Автор ELLE	Ответов: 151 Просмотров: 113212	20.11.2021, 18:15:42 от Byzi
Вопрос по отличию SEO MODx и Joomla Автор vovafit	Ответов: 7 Просмотров: 1941	20.11.2021, 18:15:09 от Byzi

FAQ : robots.txt для Joomla! - Поисковая оптимизация, продвижение сайтов на Joomla (SEO)

Новости Joomla

Обзор нововведений в Joomla 6.0.0. Статья на Хабре.14 октября 2025 года вышла Joomla 6.0.0

Первый выпуск журнала NorrNext в честь 20-й годовщины Joomla™

Joomla 6.0 и Joomla 5

ELLE

FAQ : robots.txt для Joomla!

ELLE

Re: FAQ: robots.txt для Joomla!

ELLE

Re: faq: robots.txt для Joomla!

Похожие темы