LiveInternetMail.ru
Форум русской поддержки Joomla!® CMS
26.05.2012, 04:12:11 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
   
   Начало   Поиск Joomla 1.7 FAQ Joomla 1.5 FAQ Joomla 1.0 FAQ Правила форума Новости Joomla Войти Регистрация Помощь  
Страниц: 1 [2] 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18   Вниз
  Добавить закладку  |  Печать  
Автор Тема: Правильный robots.txt? [вопросы/обсуждение]  (Прочитано 46910 раз)
0 Пользователей и 3 Гостей смотрят эту тему.
фобос
Осваиваюсь на форуме
***

Репутация: +14/-1
Offline Offline

Пол: Мужской
Сообщений: 193



« Ответ #30 : 14.11.2010, 20:29:43 »

site.ru/index.php
Можно сделать редирект на site.ru
Записан
imisterio
Осваиваюсь на форуме
***

Репутация: +0/-0
Offline Offline

Сообщений: 28


« Ответ #31 : 14.11.2010, 21:16:47 »

Можно сделать редирект на site.ru
Пробовал в htaccess, но редирект не работает, т.к. уже есть один редирект которые перенаправляет с index.php страниц на SEF страницы(Стандартный mod_rewrite joomla)
Записан
Rocknrostov
Осваиваюсь на форуме
***

Репутация: +0/-0
Offline Offline

Пол: Мужской
Сообщений: 118


Joomla наше всё)


« Ответ #32 : 04.12.2010, 06:48:27 »

Блин уже кучу тем на форуме перечитал, но единого мнения так и не увидел. Вообщем мне нужно сделать хороший роботс тхт для сайта. пока он выглядит так

Показать текстовый блок

Но интересуют следующие вещи, у некоторых видел Disallow: /component/ не такой а Disallow: /component/* так и не нашёл инфы что означает звёздочка. И у кого-то видел какие-то конкретные подпапки в папке /component/ скрыты. Может я зря скрыл эту мнимую папку? У меня Alphacontent  дублировал материалы со ссылкой сожержащей  /component/ бла бля бла, вот и решил что это нужно.
СТоит стандартный SEF, вот и хочу сделать окончательно нормальный роботс тхт.
Ещё стоят kunena, K2, Myblog. МОжет у кого есть директивы под эти компоненты, от них тоже появился мусор в Яндекс вебмастере. Если не найду готовые решения - придётся по мере появления ненужных страниц в вебмастере исключать их Disallow: ом.
Ещё хотел спросить про теги. Я так понял они дают кучу неуникальных страниц. Кто-нибудь запрещает индексацию таких страниц. и если можно примеры)
« Последнее редактирование: 05.11.2011, 02:13:16 от skai » Записан
Pianistka
Осваиваюсь на форуме
***

Репутация: +1/-0
Offline Offline

Сообщений: 30


« Ответ #33 : 05.12.2010, 18:38:07 »

Объясните, пожалуйста, зачем что-то запрещать роботам? Пусть они всё индексируют, ведь тогда больше шанс вылезти на первую страницу в яндексе. Или я что-то не понимаю?
Записан
SmokerMan
Профи
********

Репутация: +520/-20
Offline Offline

Пол: Мужской
Сообщений: 5195



« Ответ #34 : 05.12.2010, 18:48:23 »

Объясните, пожалуйста, зачем что-то запрещать роботам? Пусть они всё индексируют, ведь тогда больше шанс вылезти на первую страницу в яндексе. Или я что-то не понимаю?
если одна и та же страница будет проиндексирована с разными url, то тогда больше шанса будет попасть в попу, а не на первую Azn
Для этого и пишутся запреты, чтобы поисковик не индексировал "дубли" страниц.
Записан
Pianistka
Осваиваюсь на форуме
***

Репутация: +1/-0
Offline Offline

Сообщений: 30


« Ответ #35 : 05.12.2010, 19:02:58 »

То есть нужно открыть сайт для роботов по максимуму, но при этом следить чтоб не было дублей? Конкретно для яндекса это нужно делать перебором и проверкой на наличие дублей вот тут: http://webmaster.yandex.ru/robots.xml, я правильно понимаю?
Подскажите кто-нибудь из профи, какие папки нужно обязательно добавлять? И какие обязательно удалять из индексирования?
Записан
zikkuratvk
Разработчик расширений для Joomla 1.5
*

Репутация: +102/-8
Offline Offline

Пол: Мужской
Сообщений: 1959


Разрабатываем для Joomla


« Ответ #36 : 05.12.2010, 22:48:26 »

все таки я бы еще добавил Disallow: /index.php?
Но если вы используете Xmap то надо будет сделать небольщой хак.
Сделать редирект сайтмап
Код:
RewriteRule ^sitemap/([^/]*)\.xml$ /index.php?option=com_xmap&sitemap=$1&view=xml [L]

на выходе получится что-то типа такого /sitemap/1.xml
Записан
SmokerMan
Профи
********

Репутация: +520/-20
Offline Offline

Пол: Мужской
Сообщений: 5195



« Ответ #37 : 05.12.2010, 23:08:12 »

Но если вы используете Xmap то надо будет сделать небольщой хак.
в robots.txt есть такая штука как Allow:
Записан
zikkuratvk
Разработчик расширений для Joomla 1.5
*

Репутация: +102/-8
Offline Offline

Пол: Мужской
Сообщений: 1959


Разрабатываем для Joomla


« Ответ #38 : 06.12.2010, 09:20:17 »

в robots.txt есть такая штука как Allow:
:-) за то так мы еще получили красивый адрес :-)
Записан
Edward
Осваиваюсь на форуме
***

Репутация: +2/-0
Offline Offline

Сообщений: 51


« Ответ #39 : 19.12.2010, 23:21:53 »

в моем случае, правильный такой

Показать текстовый блок

яндекс, действительно, тупой.
« Последнее редактирование: 05.11.2011, 02:17:43 от skai » Записан
4ertinog
Захожу иногда
**

Репутация: +0/-0
Offline Offline

Сообщений: 6


« Ответ #40 : 13.01.2011, 13:47:41 »

Можно ли в robots.txt сделать запись вида:
Код:
Disallow: *com_virtuemart*
И будут ли запрещены url где встречается это сочетание? В яндексе проверял, url блокируются. Для Google это правило тоже действует?
Записан
kipexpert
Захожу иногда
**

Репутация: +0/-0
Offline Offline

Сообщений: 6


« Ответ #41 : 24.01.2011, 18:17:10 »

в моем случае, правильный такой

Показать текстовый блок

яндекс, действительно, тупой.

Вроде Disallow: /? закрывает от индексации все что  с ? идет зачем отдельно ставить:
Disallow: /?option=
Disallow: /?replyto=
Disallow: /?mosmsg=
непойму, разъясните пожалуйста.
« Последнее редактирование: 05.11.2011, 02:18:24 от skai » Записан
SmokerMan
Профи
********

Репутация: +520/-20
Offline Offline

Пол: Мужской
Сообщений: 5195



« Ответ #42 : 24.01.2011, 18:57:18 »

/? - это изврат какой-то.
как минимум нельзя закрывать параметры, т.е. все что идет после "?", так как не будет индексироваться, допустим, пагинация (разбиение на страницы) и еще может много чего.
Записан
armid
Осваиваюсь на форуме
***

Репутация: +0/-2
Offline Offline

Сообщений: 59


« Ответ #43 : 30.01.2011, 14:14:51 »

Но если вы используете Xmap то надо будет сделать небольщой хак.
Сделать редирект сайтмап
Код:
RewriteRule ^sitemap/([^/]*)\.xml$ /index.php?option=com_xmap&sitemap=$1&view=xml [L]
на выходе получится что-то типа такого /sitemap/1.xml
У меня что то хак не работает. Карта по здоровому адресу так и открывается.

Хотя RewriteRule с www на без www работает.

Т.е. настройки сервера как понимаю нормальные
Записан
Edward
Осваиваюсь на форуме
***

Репутация: +2/-0
Offline Offline

Сообщений: 51


« Ответ #44 : 30.01.2011, 15:35:36 »

Вроде Disallow: /? закрывает от индексации все что  с ? идет зачем отдельно ставить:
Disallow: /?option=
Disallow: /?replyto=
Disallow: /?mosmsg=
непойму, разъясните пожалуйста.
у меня easy SEF на сайте.. ссылки - чистые.
Записан
crepej
Гость
« Ответ #45 : 02.02.2011, 21:10:38 »

Хелп ми почему такой робо текс может его сократить как то?

Показать текстовый блок
« Последнее редактирование: 05.11.2011, 02:19:52 от skai » Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #46 : 11.02.2011, 05:02:10 »

Хочу подвести итог всего сказанного, так как сам в первый раз пишу robots.txt Народ если не в облом, ответе коротко еще разок на все вопросы:
1) Нужно ли писать User-agent: Yandex когда уже есть User-agent: *?
2) Что точно означает Host: www.site.ru, что мол это главный вид ссылки и что происходит редирект с site.ru на www.site.ru?
3) Если прописать Disallow: /images/ то картинки не будут индексироваться и с тем самым не будут выдаваться поисковиком? А ведь в robots.txt эта опция стоит по умолчанию.
4) Что точно дает значение Sitemap:, карту сайта же и так индексируют роботы как часть сайта?
5) Не возникнет ли проблем с индексацией если при использовании стандартного SEF добавить в robots.txt значение Disallow: /index.php?
6) Что такое опции Crawl-delay:, Request-rate: и Allow:?
7) Где это на сайте встречается такое расширение Disallow: /*.doc?
8 Нормальный ли адрес имеет моя карта сайта http://site.ru/karta-sajta.html? Такое имя получил в результате использования стандартного ЧПУ и не прибегал к разным хакам и хитростям.
9) Как запретить в robots.txt индексировать все кроме карты сайта? Так как из-за структуры Joomla создаются дубли (главная-раздел-категория-материал + все еще разок повторяется в карте сайта) Кароче нужно чтобы в индекс попадали только "оригинальные страницы" без дублей
10) Нужно ли скрывать от индексации остальные файлы расположенные в корневой директории (не папки)?
11) Может ли как то помешать в robots.txt опция Disallow: /installation/ ее нужно удалять или же все таки можно оставить на всякий случай?
12) Почему некоторые пишут Disallow: /*print а некоторые Disallow: /*print=1 в чем тут разница?

P.S Кстати можно еще добавить опцию Disallow: /*mailto/ для скрытия мыла
Записан
FU11M
Осваиваюсь на форуме
***

Репутация: +4/-2
Offline Offline

Пол: Мужской
Сообщений: 31



« Ответ #47 : 16.02.2011, 22:21:21 »

У меня стоит Joomla Tags, выводится список тегов на главной странице. Кроме того, в главном меню есть кнопка Показать все теги. В итоге, на одну и ту же страницу я могу попасть по двум разным ссылкам:
...component/tag/tag1
и
...alltags/tag1
Что лучше запретить в robots.txt: /components/com_tag/ или ссылку на теги из главного меню, и можно ли вообще запретить внутреннюю ссылку в robots.txt?

И ещё один вопрос. Я правильно понимаю, что для поддомена вида ру.сайт.ком нужен ровно такой же robots.txt, только ссылки в "Host" и "Sitemap" нужно поменять?
« Последнее редактирование: 16.02.2011, 22:40:29 от FU11M » Записан
VOVKA772007
Захожу иногда
**

Репутация: +1/-0
Offline Offline

Пол: Мужской
Сообщений: 5


Ёжики кололись, плакали...и, всё равно ели кактус.


« Ответ #48 : 17.02.2011, 12:05:58 »

Народ ну что ни кто не поможет? Я готов даже подкинуть несколько баксов тому человеку, который хорошо разбирается в robots.txt и поможет мне составить более полный и правильный роботс и также который ответит на ряд вопросов. Связаться можно через Асю, она в моем профиле. Smiley
Почитайте здесь, может поможет
<a href="http://www.netshop24.ru/joomla-blogs/n-n-n-robotstxt.html"> robot.txt </a>
Ссылку скрипт режет, берите что в кавычках, мне помогло на 2-х сайтах Azn
« Последнее редактирование: 17.02.2011, 12:16:16 от VOVKA772007 » Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #49 : 17.02.2011, 16:32:28 »

VOVKA772007, Спасибо за ссылку Smiley

Цитировать
Хочу подвести итог всего сказанного, так как сам в первый раз пишу robots.txt Народ если не в облом, ответе коротко еще разок на все вопросы
Отвечу сам себе на некоторые вопросы, как это и бывает в половине случаев:
1) Нет
2) В Host: указывается главное зеркало сайта
3) Если прописать Disallow: /images/ то картинки не будут индексироваться
4) Sitemap: дает более быструю и полную индексацию сайта
5) Нет, для не индексации не сео ссылок нужно прописать Disallow: /index.php?*
6) Allow: это обратно от Disallow:., Crawl-delay: применяется при сильной загруженности сервера., Request-rate: ?
7) Наверное у кого то и встречается
8 Нет, так как нужно копировать название .xml ссылки из компонента и его уже прописывать в robots.txt
9) Дубли это страницы с одинаковым контентом и разными адресами, необходимо добавить Sitemap: ссылка карты сайта.xml в robots.txt
12) Скорее всего у каждого свои адреса для опции "print"(есть еще и такие /name.php?action=print)

Не смог найти ответы только на 10 и 11 вопрос, а также не совсем понятно как задать карте сайта вид http://имя-сайта/sitemap.xml  а не http://имя-сайта/index.php?option=com_xmap&sitemap=1&view=xml

Вот ссылка на описание robots.txt http://help.yandex.ru/webmaster/?id=996567
А вот на проверку самого файла robots.txt http://webmaster.yandex.ru/robots.xml
« Последнее редактирование: 17.02.2011, 17:05:00 от ABCroNews » Записан
VOVKA772007
Захожу иногда
**

Репутация: +1/-0
Offline Offline

Пол: Мужской
Сообщений: 5


Ёжики кололись, плакали...и, всё равно ели кактус.


« Ответ #50 : 17.02.2011, 19:30:15 »

По моему разумению (по крайней мере на всех своих сайтах я так делаю):

Показать текстовый блок

1. Если желаете проблем с индексацией пс Яндекс, то "Нет": система законы не соблюдает!
2. Если же не нужен выхлоп с пс Яндекс, Host не пишите - директива придумана пс Яндексом: остальной мир её не использует!
3. Абсолютно верно
4. Верно
5. Верно
6. Понимает только пс Яндекс
7. Это ж Офис от Мелкомягких!
8. Нет, все поисковики кушают *.xml, ставьте компонент xmap
9. Верно, иначе попадёте под фильтр, а то и в "бан" ПС
10. Нужно, на выбор
11. Если используете компоненты бэкапа сайта, типа Akeba Core, супротив кражи бэкапа и взлома сайта - надо Однозначно!
12. Полностью с Вами согласен
Это моё мнение, Вы вольны делать как угодно на своих сайтах, на свой страх и риск!  
« Последнее редактирование: 05.11.2011, 02:22:32 от skai » Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #51 : 17.02.2011, 21:46:54 »

VOVKA772007,
1) Значит получается что лучше прописать один User-agent: Yandex и указать все только для Яндекса, а другой User-agent: * для остальных поисковиков., как у вас?
Но с другой стороны замете, что самим Яндексом (http://help.yandex.ru/webmaster/?id=996567) даются примеры где используются "якобы только его" атрибуты в User-agent: * (те для всех ПС)
10) Какие точно файлы или может даже все, нужно скрыть для безопасности сайта, можете уточнить?
11) Ну тогда директорию /installation/ тоже можно прописать на всякий случай, проблем не будет?

P.S Может знаете, как задать ссылке от карты сайта вид http://имя-сайта/sitemap.xml а не http://имя-сайта/index.php?option=com_xmap&sitemap=1&view=xml
« Последнее редактирование: 17.02.2011, 21:51:41 от ABCroNews » Записан
VOVKA772007
Захожу иногда
**

Репутация: +1/-0
Offline Offline

Пол: Мужской
Сообщений: 5


Ёжики кололись, плакали...и, всё равно ели кактус.


« Ответ #52 : 18.02.2011, 00:09:09 »

1. Думаю, для Яндекс отдельно, для всех остальных отдельно: как у меня
Сам Яндекс меняет правила каждый день: то url для домена 2-го уровня надо добавить с www, то без...
Google и компания работают почти по стандартам, но к сожалению более 80% русских начинающих юзеров пользуют не Гугль...
2. Если бэкап делаете каким - либо компонентом, то /installation/ и папку где бэкап хранится: у меня /backup/
3. Ссылке от карты сайта вид http://имя-сайта/sitemap.xml зачем задавать? Вы карту в *.xml видели? На фронт, для пользователей делаете HTML: красиво и удобно, а для роботов в *.xml....
Красиво и удобно.
Задать ссылке от карты сайта вид http://имя-сайта/sitemap.xml, насколько я знаю, можно сторонним компонентом, например SEF, но зачем вам лишняя нагрузка на сервер я не пойму...
Ссылку как у меня в роботс тхт нормально скушал и Яндекс и мсн, рамблер, гугль....Юзеры её ж не увидят, только СуперАдмин в админке и роботы... Желаю Вам успехов Azn
P.S. Админы, видимо, осваивают Joomla 1.6, потрудились на славу!
« Последнее редактирование: 05.11.2011, 02:23:15 от skai » Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #53 : 18.02.2011, 02:20:26 »

Цитировать
2. Если бэкап делаете каким - либо компонентом, то /installation/ и папку где бэкап хранится: у меня /backup/
папка /installation/ удаляется после установки, то есть в robots.txt будет прописана не существующая папка
Цитировать
3. Ссылке от карты сайта вид http://имя-сайта/sitemap.xml зачем задавать? Вы карту в *.xml видели? На фронт, для пользователей делаете HTML: красиво и удобно, а для роботов в *.xml....
Но опять же получается что создается дубль карты сайта, так как на сайте осталась карта вида http://имя-сайта/karta-sajta.html и ее ПС же тоже индексируют? Или же для карты сайта http://имя-сайта/karta-sajta.html можно просто установить значение "только для зарегистрированных пользователей" и ее ПС просто не увидят?
Цитировать
Задать ссылке от карты сайта вид http://имя-сайта/sitemap.xml, насколько я знаю, можно сторонним компонентом, например SEF, но зачем вам лишняя нагрузка на сервер я не пойму...
Абсолютно с вами согласен так как сам пользуюсь обычным ЧПУ Smiley
Записан
VOVKA772007
Захожу иногда
**

Репутация: +1/-0
Offline Offline

Пол: Мужской
Сообщений: 5


Ёжики кололись, плакали...и, всё равно ели кактус.


« Ответ #54 : 18.02.2011, 08:46:48 »

папка /installation/ удаляется после установки, то есть в robots.txt будет прописана не существующая папкаНо опять же получается что создается дубль карты сайта, так как на сайте осталась карта вида http://имя-сайта/karta-sajta.html и ее ПС же тоже индексируют? Или же для карты сайта http://имя-сайта/karta-sajta.html можно просто установить значение "только для зарегистрированных пользователей" и ее ПС просто не увидят?Абсолютно с вами согласен так как сам пользуюсь обычным ЧПУ Smiley
2. Роботу же написано: Disallow = не входи! в папку /installation/, а если директории и нет то это проблемы Админа, а не ПС
3. Сначала взгляните на обе карты сайта, а потом пишите! Вы что в HTML карте выставляете приоритет "как часто заходить пользователю на сайт, сколько раз в месяц"? HTML и XML карта - два абсолютно разных документа! и ПС об этом знают.   
Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #55 : 22.02.2011, 18:03:10 »

Как узнать, или что прописаь в robots.txt если нужно скрыть pdf, print, doc, mailto итп ссылки., вот например мои ссылки:
/component/mailto/?tmpl=component&link=aHR0cDovL2FsbDRuZS53cy9ob21lLmh0bWw%3D
/index.php?view=article&id=1:2011-01-15-15-47-33&tmpl=component&print=1&layout=default&page=
/index.php?view=article&id=1:2011-01-15-15-47-33&format=pdf
Что именно мне прописать в robots.txt что бы скрыть все что касается мыла, печати и PDF файлов?

Так же не совсем понятно, будет ли мешать ПС роботу лишние команды, например папка  Disallow: /installation/ которой в принципе нет на хостинге?
Записан
doctorgrif
Живу я здесь
******

Репутация: +80/-1
Offline Offline

Пол: Мужской
Сообщений: 1304


Нудный доктор


« Ответ #56 : 22.02.2011, 18:10:25 »

исходя из логики - следующее:

Код:
Disallow: /*mailto*
Disallow: /*&print=*
Disallow: /*&format=pdf
но опять же - это исходя из логики
« Последнее редактирование: 05.11.2011, 02:25:11 от skai » Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #57 : 22.02.2011, 18:54:48 »

А можно ли например составить такой robots.txt?

User-agent: Yandex
Disallow: / (то есть запретить индексировать весь сайт)
А потом просто с помощью опции "Allow:" прописать страницы которые нужно индексировать., нужные страницы, разделы, категории со * для того что бы не прописывать в Allow: адрес каждой новой страницы И все геморрой решен., Поисковик индексирует то что вам нужно и в индекс не попадают всякие там дубли, не информативные страницы и много другого таинственного мусора.

Или может можно сделать так:?
User-agent: Yandex
Disallow: / (то есть запретить индексировать весь сайт)
Sitemap: http://имя-сайта/index.php?option=com_xmap&sitemap=1&view=xml
То есть запретить индексировать весь сайт, а что бы индексировалась только карта сайта

P.S Для всех остальных ПС роботов придется писать нормальный robots.txt так как на сколько я понял опцию "Allow:" понимает только Яндекс
« Последнее редактирование: 22.02.2011, 19:00:16 от ABCroNews » Записан
NeZ
Завсегдатай
*****

Репутация: +20/-4
Offline Offline

Пол: Мужской
Сообщений: 477


Большой программе - большие глюки


« Ответ #58 : 22.02.2011, 19:04:02 »

Цитировать
Для всех остальных ПС роботов придется писать нормальный robots.txt так как на сколько я понял опцию "Allow:" понимает только Яндекс
До словно Allow - разрешать
Disallow - запрещать.
http://robotstxt.org.ru/robotsexclusion/guide Почитайте, много полезной информации написано
Записан
ABCroNews
Давно я тут
****

Репутация: +4/-0
Offline Offline

Сообщений: 356


Строим новый дом из старых кубиков)


« Ответ #59 : 22.02.2011, 19:14:22 »

До словно Allow - разрешать
Disallow - запрещать.
http://robotstxt.org.ru/robotsexclusion/guide Почитайте, много полезной информации написано
Это все понятно, только вот не понятно можно ли файл robots.txt составлять по выше описаной мною схеме? Ну разумеется только для Яндекса
Записан
Страниц: 1 [2] 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18   Вверх
  Добавить закладку  |  Печать  
 
Перейти в:  

Рейтинг@Mail.ru Rambler Top100 Powered by SMF 1.1.16 | SMF © 2006, Simple Machines

Joomlaforum.ru is not affiliated with or endorsed by the Joomla! Project or Open Source Matters.
The Joomla! name and logo is used under a limited license granted by Open Source Matters
the trademark holder in the United States and other countries.

LiveInternet