0 Пользователей и 1 Гость просматривают эту тему.
  • 2 Ответов
  • 101201 Просмотров
*

ELLE

  • Глобальный модератор
  • 4512
  • 883 / 0
FAQ : robots.txt для Joomla!
« : 15.12.2011, 21:26:32 »
« Последнее редактирование: 28.03.2015, 21:51:50 от ELLE »
*

ELLE

  • Глобальный модератор
  • 4512
  • 883 / 0
Re: FAQ: robots.txt для Joomla!
« Ответ #1 : 08.03.2012, 22:00:29 »
08.03.2012г

Надеюсь все видели уведомление в панели Яндекс.Вебмастер о новых правилах обработки директив 'Allow' и 'Disallow'...
[spoiler title=для тех кто в танке :-) ]
Добрый день!
Уведомляем вас об изменениях в обработке директивы 'Allow' файла robots.txt, с помощью которого вы можете разрешить или запретить индексирование сайта поисковым роботом Яндекса.
По новым правилам, если страница сайта попадает под действие нескольких директив 'Allow' и/или 'Disallow', то будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.
Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам. В этом вам поможет наша форма проверки robots.txt.
Подробнее об использовании директив вы можете прочитать в Помощи.[/spoiler]
Смотрим что изменилось здесь - http://help.yandex.ru/webmaster/?id=996567#996571

Расскажу подробнее на примере карты сайта и ее адреса:
Раньше директиву 'Allow' необходимо было прописывать первой. Например имеем адрес карты сайта по такому адресу -
site.ru/index.php?option=com_xmap&sitemap=1&view=xml
Так как те у кого отсутствуют адреса с 'index.php?' (т.е. включен mod_rewrite и переименован файл .htaccess) в своем robots.txt прописывали такую строчку - Disallow: /index.php? (чтобы скрыть не SEF ссылки Joomla, которые попали уже в индекс), а в самом начале необходимо было прописать Allow: /index.php?option=com_xmap&sitemap=1&view=xml чтобы бот имел возможность загрузить карту.
То есть было необходимо всегда сначала указывать все 'Allow' (то есть всё, что разрешаем), и только после этого все 'Disallow'....
Код: robots
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта
Disallow: /index.php?

Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml

Теперь такой необходимости нет. Теперь не важен порядок использования, т.е будет работать и так -
Код: robots
User-agent: *	#К какому роботу обращаемся (по умолчанию ко всем)
Disallow: /administrator/ #Закрываем доступ к админке  
....
Disallow: /index.php?
Allow: /index.php?option=com_xmap&sitemap=1&view=xml   #разрешает доступ к карте сайта

Sitemap: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml ### укажите адрес своей карты сайта

В любом случае, так как некоторые используют свои индивидуальные файлы robots.txt, проверьте доступность важных для вас адресов или наоборот запрет на не нужные директории в своих панелях ЯВМ!

И как всегда все вопросы по роботсу, в том числе связанные с нововведением, обсуждаем в теме -
 Правильный robots.txt? [вопросы/обсуждение]
« Последнее редактирование: 08.03.2012, 22:48:05 от ELLE »
*

ELLE

  • Глобальный модератор
  • 4512
  • 883 / 0
Re: faq: robots.txt для Joomla!
« Ответ #2 : 26.08.2012, 03:06:43 »
Если robots.txt не помогает, то что делать?!

Не смотря на то, что есть некие стандарты по роботсу и индексации, разные поисковые машины работают несколько по-разному.
Если для ПС Яндекс запрещающие инструкции в robots.txt это фактически закон, то ПС Google ведет себя по-другому. Думаю, ни для кого не секрет, что robots.txt для него носит лишь рекомендательный характер.

Справка из ПС Google.
 - по robots.txt
Цитировать
Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс.

- по мета тегу <meta name="robots" content="noindex">
Цитировать
Чтобы полностью исключить вероятность появления содержания страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

При этом вы должны выбрать только один из способов - или роботс, или мета-тег. Если вы добавите мета тег на страницу, и при этом она закрыта в роботсе, но ее url уже есть в индексе, то эффекта не будет пока вы не откроете ее в robots.txt, в противном случае гуглбот не сможет просканировать содержание страницы и не увидит запрещающий мета-тег noindex, который как раз и приводит к полному выпадению документа из выдачи.

Управление индексацией контента в Joomla средствами мета-тега

Теперь приведу пару примеров - каким образом можно добавлять этот мета-тег на дублирующие или просто нежелательные страницы в Joomla
1. в index.php шаблона после <head>, если вставить следующее
Код
<?php if ($_SERVER['QUERY_STRING']):?>
<meta name="robots" content="noindex"/>
<?php endif; ?>
то это приведет к появлению мета-тега на страницах, типа site.ru/article?bla_bla_bla (если после знака '?' не используются реальные параметры, допустим для страницы печати не сработает)

2. закрываем результаты поиска (иногда на такие страницы ставят ссылки)
Код: php
<?php if ($option == 'com_search')  : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>
*в начале нужно определить переменную
Код
$option = JRequest::getVar('option', null);
впрочем, больше примеров переменных тут http://joomlaforum.ru/index.php/topic,67278.0.html

3. закрыть страницы печати или дубль документа, где на конце ?tmpl=component или &print=1, можно через файл component.php (обычно есть во всех шаблонах Joomla или берете из папки system), прописав в нем также этот мета-тег в <head></head>

4. закрыть от индексации страницы пагинации,
 в index.php в начале
Код
$limit = JRequest::getVar('limitstart', 0);
в head
Код
<?php if ($limit) : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

В компонентах можно использовать API Joomla (также определив необходимые условия для вывода)
Код
<?php $document->setMetaData( 'robots', 'noindex'); ?>

Также для самостоятельного изучения:JRequest :: getVar, $_SERVER

http://docs.joomla.org/JDocument/setMetaData

Внимание! Все примеры приведены лишь в качестве примера альтернативных решений, а не инструкция к действию! Если вы не уверены в своих действиях и плохо понимаете о чем речь, настоятельно рекомендую обойтись настройками robots.txt!
« Последнее редактирование: 03.03.2013, 13:13:37 от ELLE »
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

[Решено] rel="canonical" Joomla 3 как удалить

Автор GraD

Ответов: 110
Просмотров: 38107
Последний ответ 13.05.2019, 23:03:57
от ChaosHead
Настройка title к страницам пагинации на Joomla 3

Автор robotwerder

Ответов: 4
Просмотров: 2104
Последний ответ 02.02.2019, 12:12:45
от Gerostrat
Есть ли в Joomla 3.9 проблема с дублями страниц?

Автор shop-user

Ответов: 13
Просмотров: 584
Последний ответ 08.01.2019, 14:30:39
от zikkuratvk
Как сделать код ответа сервера 404 у страницы ошибки в Joomla?

Автор Dim

Ответов: 0
Просмотров: 197
Последний ответ 20.12.2018, 19:59:32
от Dim
Joomla подходит ли для создания поисковика с большой базой данных

Автор websaps

Ответов: 7
Просмотров: 385
Последний ответ 20.12.2018, 11:54:07
от zikkuratvk