|
wishlight
|
 |
« : 29.05.2010, 19:34:53 » |
|
Кто подскажет, этот robots.txt будет правильным для поисковиков? User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /go.php Host: www.mysite.com
Sitemap: http://www.mysite.com/sitemap/xml
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /go.php Host: www.mysite.com
Sitemap: http://www.mysite.com/sitemap/xml Яндекс претензий не имеет. Видит правда 2 ссылки на карту сайта, но не жалуется. ------------------------------------------------------------------------------------------- Примечание модератора:Прежде чем задать вопрос - внимательно изучите FAQ: robots.txt для Joomla, а также Использование robots.txt (помощь от Яндекса)Все вопросы задаем здесь, вновь созданные темы о robots.txt будут отправлены на свалку.
|
|
|
|
« Последнее редактирование: 31.10.2012, 22:32:20 от ELLE »
|
Записан
|
|
|
|
|
profiX0808
|
 |
« Ответ #1 : 29.05.2010, 19:45:27 » |
|
Вроде все правильно. Только зачем для яндекса отдельные "указания", если они идентичные как и для всех "*" ?
Sitemap: http://www.mysite.com/sitemap/xml - здесь имелось ввиду Sitemap: http://www.mysite.com/sitemap.xml ?
Добавьте сайт в панель вебмастера от яндекса, там есть "Анализ robots.txt". Если есть какие проблемы, то там будет написано.
|
|
|
|
« Последнее редактирование: 29.05.2010, 19:52:38 от profiX0808 »
|
Записан
|
|
|
|
|
wishlight
|
 |
« Ответ #2 : 29.05.2010, 21:15:17 » |
|
http://www.mysite.com/sitemap/xml формат карты именно такой с SEF . Чем это может помешать? Яндекс претензий не имеет. Видит правда 2 ссылки на карту сайта, но не жалуется.
Да наверно личные указания для яндекса это лишнее Формат карты такой, потому что для страниц на сайте не указываются расширения. Указывать их на данном этапе развития поисковых систем лишнее и в Яндекс вебмастер (и Google) проблем с картой сайта нет. Думаете убрать личные указания для яндекса? User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /go.php Host: www.mysite.com
Sitemap: http://www.mysite.com/sitemap/xml
вот это для меня верное.... А то, что вверху насоветовали. Сайт редиректит на страницы с www. автоматом по этому такой хост Папку с изображенями открыл, лишнее удалил. Открыл для участия в поиске с картинками
|
|
|
|
« Последнее редактирование: 05.11.2011, 01:53:40 от skai »
|
Записан
|
|
|
|
voland
JComments Tester
Репутация: +268/-42
Online
Пол: 
Сообщений: 3973
любит наш народ всякое гавно...
|
 |
« Ответ #3 : 29.05.2010, 21:20:19 » |
|
http://www.mysite.com/sitemap/xml формат карты именно такой с SEF . Чем это может помешать? Да наверно личные указания для яндекса это лишнее Формат карты такой, потому что для страниц на сайте не указываются расширения. Указывать их на данном этапе развития поисковых систем лишнее и в Яндекс вебмастер (и Google) проблем с картой сайта нет. Думаете убрать личные указания для яндекса? User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /go.php Host: www.mysite.com
Sitemap: http://www.mysite.com/sitemap/xml
вот это для меня верное.... А то, что вверху насоветовали. Сайт редиректит на страницы с www. автоматом по этому такой хост Папку с изображенями открыл, лишнее удалил. Открыл для участия в поиске с картинками Я не просто от балды написал вверху как верно - директива host верна только для Яндекса поэтому и сделана в отдельной секции, если сами считаете как вам правильно - зачем спрашивать?
|
|
|
|
« Последнее редактирование: 05.11.2011, 01:53:53 от skai »
|
Записан
|
|
|
|
kafelplitka
Осваиваюсь на форуме
 
Репутация: +0/-0
Offline
Сообщений: 47
|
 |
« Ответ #4 : 02.07.2010, 12:25:47 » |
|
народ подскажите, для индексации картинок в VirtueMart сделал такой робот, насколько он верный и какие замечания? User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index2.php?page=shop Disallow: /components/com_banners Disallow: /components/com_contact Disallow: /components/com_content Disallow: /components/com_csvimproved Disallow: /components/com_jce Disallow: /components/com_mailto Disallow: /components/com_media Disallow: /components/com_newsfeeds Disallow: /components/com_pol Disallow: /components/com_quckfaq Disallow: /components/com_search Disallow: /components/com_user Disallow: /components/com_virtuemart/js Disallow: /components/com_virtuemart/themes Disallow: /components/com_virtuemart/fetchscript.php Disallow: /components/com_virtuemart/show_image_in_imgtag.php Disallow: /components/com_virtuemart/virtuenart.php Disallow: /components/com_virtuemart/virtuemart_parser.php Disallow: /components/com_virtuemart/shop_image/ps_image Disallow: /components/com_virtuemart/shop_image/vendor Disallow: /components/com_virtuemart/shop_image/JSCookTree.js Disallow: /components/com_virtuemart/shop_image/blank.gif Disallow: /components/com_virtuemart/shop_image/index.html Disallow: /components/com_weblinks Disallow: /components/com_wrapper Disallow: /components/com_com_xmap Disallow: /components/index.html Allow: /components/com_virtuemart/shop_image/category Allow: /components/com_virtuemart/shop_image/product
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /components/com_banners Disallow: /components/com_contact Disallow: /components/com_content Disallow: /components/com_csvimproved Disallow: /components/com_jce Disallow: /components/com_mailto Disallow: /components/com_media Disallow: /components/com_newsfeeds Disallow: /components/com_pol Disallow: /components/com_quckfaq Disallow: /components/com_search Disallow: /components/com_user Disallow: /components/com_virtuemart/js Disallow: /components/com_virtuemart/themes Disallow: /components/com_virtuemart/fetchscript.php Disallow: /components/com_virtuemart/show_image_in_imgtag.php Disallow: /components/com_virtuemart/virtuenart.php Disallow: /components/com_virtuemart/virtuemart_parser.php Disallow: /components/com_virtuemart/shop_image/ps_image Disallow: /components/com_virtuemart/shop_image/vendor Disallow: /components/com_virtuemart/shop_image/JSCookTree.js Disallow: /components/com_virtuemart/shop_image/blank.gif Disallow: /components/com_virtuemart/shop_image/index.html Disallow: /components/com_weblinks Disallow: /components/com_wrapper Disallow: /components/com_com_xmap Disallow: /components/index.html Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index2.php?page=shop Allow: /components/com_virtuemart/shop_image/category Allow: /components/com_virtuemart/shop_image/product Host: www.site.ru
Sitemap: http://www.site.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
|
|
|
|
« Последнее редактирование: 05.11.2011, 01:49:54 от skai »
|
Записан
|
|
|
|
art22
Осваиваюсь на форуме
 
Репутация: +0/-0
Offline
Пол: 
Сообщений: 151
|
 |
« Ответ #5 : 16.08.2010, 14:14:23 » |
|
Привет всем вот мой робот правильный все сделано? и еще так стоит сделать User-agent: Yandex ? это как то влияет на индексацию?у меня уже почти 2 недели сайт стоит на очереди в яндексе не индексирует((( User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /templates/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*.pdf Disallow: /*.doc Disallow: /*print
|
|
|
|
|
Записан
|
|
|
|
|
GDV
|
 |
« Ответ #6 : 16.08.2010, 14:46:31 » |
|
Для Yandex отдельно пишем данные команды. Как показано выше. Два столба один для всех поисковиков а другой для яндекса. отдельный.
у kafelplitka уникальный. Вы еще на каждый отдельный файл сделайте запред. Как раз на томик война и мир выйдет. Достаточно давать запред на папку. Все что в папке роботы смотреть не будут.
|
|
|
|
|
Записан
|
|
|
|
annushka
Осваиваюсь на форуме
 
Репутация: +1/-0
Offline
Пол: 
Сообщений: 97
Во что веришь, то и имеешь. И точка...
|
 |
« Ответ #7 : 07.10.2010, 18:17:05 » |
|
Ну раз пошла такая пьянка.  Для стандартного новостного сайта со стандартным включенным SEF такое подойдет? User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php?* Disallow: /*.pdf Disallow: /*.doc Disallow: /*print User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php?* Disallow: /*.pdf Disallow: /*.doc Disallow: /*print
Host: site.ru
Sitemap: http://site.ru/sitemap
|
|
|
|
« Последнее редактирование: 05.11.2011, 02:01:21 от skai »
|
Записан
|
|
|
|
MaRt
Давно я тут
  
Репутация: +20/-2
Offline
Пол: 
Сообщений: 387
SEO master
|
 |
« Ответ #8 : 07.10.2010, 18:54:24 » |
|
Ну раз пошла такая пьянка.  Для стандартного новостного сайта со стандартным включенным SEF такое подойдет? User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php?* Disallow: /*.pdf Disallow: /*.doc Disallow: /*print User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php?* Disallow: /*.pdf Disallow: /*.doc Disallow: /*print
Host: site.ru
Sitemap: http://site.ru/sitemap если у вас Disallow: /installation/ такая папка есть. то удалите ее из роботса и с сайта ))) ну и сефовский дубликат главной закройте
|
|
|
|
« Последнее редактирование: 05.11.2011, 02:02:09 от skai »
|
Записан
|
|
|
|
n_i_x
Осваиваюсь на форуме
 
Репутация: +5/-0
Offline
Сообщений: 116
|
 |
« Ответ #9 : 12.11.2010, 12:53:07 » |
|
вот мой Robots.txt User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /component/attachments/download/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /xmlrpc/ Host: www.supernew.org Crawl-delay: 1 Request-rate: 1/1
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /component/attachments/download/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /xmlrpc/ Host: www.supernew.org Crawl-delay: 1 Request-rate: 1/1 Что показывает Яндекс.вебмастер: Используемые секции Строка 19-35 User-agent: Yandex Disallow: /administrator/ ... Request-rate: 1/1 Отсюда делайте свои выводы, стоит ли прописывать User-agent: Yandex Disallow: /components/ Disallow: /component/attachments/download/ разве Disallow: /components/ не достаточно? это же вроде как корневая, которая если закрыта, то и закрыто всё, что в ней и папки installation у тебя вроде не должно быть, получается лишняя строка
|
|
|
|
« Последнее редактирование: 05.11.2011, 03:39:09 от skai »
|
Записан
|
|
|
|
фобос
Осваиваюсь на форуме
 
Репутация: +14/-1
Offline
Пол: 
Сообщений: 184
|
 |
« Ответ #10 : 12.11.2010, 13:01:34 » |
|
Disallow: /components/ Disallow: /component/attachments/download/ разве Disallow: /components/ не достаточно? это же вроде как корневая, которая если закрыта, то и закрыто всё, что в ней
Это два совершенно разных адресса. component s/ - это системная папка, где собственно лежат все компоненты component/ - это сформированная ссылка через стандартный SEF и папки installation у тебя вроде не должно быть, получается лишняя строка
Это на всякий случай, чтобы во время каких-либо установок не трогали эту папку.
|
|
|
|
|
Записан
|
|
|
|
|
SmokerMan
|
 |
« Ответ #11 : 24.01.2011, 18:57:18 » |
|
/? - это изврат какой-то. как минимум нельзя закрывать параметры, т.е. все что идет после "?", так как не будет индексироваться, допустим, пагинация (разбиение на страницы) и еще может много чего.
|
|
|
|
|
Записан
|
|
|
|
ABCroNews
Давно я тут
  
Репутация: +6/-0
Offline
Сообщений: 325
Строим новый дом из старых кубиков)
|
 |
« Ответ #12 : 11.02.2011, 05:02:10 » |
|
Хочу подвести итог всего сказанного, так как сам в первый раз пишу robots.txt Народ если не в облом, ответе коротко еще разок на все вопросы: 1) Нужно ли писать User-agent: Yandex когда уже есть User-agent: *? 2) Что точно означает Host: www.site.ru, что мол это главный вид ссылки и что происходит редирект с site.ru на www.site.ru? 3) Если прописать Disallow: /images/ то картинки не будут индексироваться и с тем самым не будут выдаваться поисковиком? А ведь в robots.txt эта опция стоит по умолчанию. 4) Что точно дает значение Sitemap:, карту сайта же и так индексируют роботы как часть сайта? 5) Не возникнет ли проблем с индексацией если при использовании стандартного SEF добавить в robots.txt значение Disallow: /index.php? 6) Что такое опции Crawl-delay:, Request-rate: и Allow:? 7) Где это на сайте встречается такое расширение Disallow: /*.doc? 8 Нормальный ли адрес имеет моя карта сайта http://site.ru/karta-sajta.html? Такое имя получил в результате использования стандартного ЧПУ и не прибегал к разным хакам и хитростям. 9) Как запретить в robots.txt индексировать все кроме карты сайта? Так как из-за структуры Joomla создаются дубли (главная-раздел-категория-материал + все еще разок повторяется в карте сайта) Кароче нужно чтобы в индекс попадали только "оригинальные страницы" без дублей 10) Нужно ли скрывать от индексации остальные файлы расположенные в корневой директории (не папки)? 11) Может ли как то помешать в robots.txt опция Disallow: /installation/ ее нужно удалять или же все таки можно оставить на всякий случай? 12) Почему некоторые пишут Disallow: /*print а некоторые Disallow: /*print=1 в чем тут разница?
P.S Кстати можно еще добавить опцию Disallow: /*mailto/ для скрытия мыла
|
|
|
|
|
Записан
|
|
|
|
Gramoj
Осваиваюсь на форуме
 
Репутация: +1/-0
Offline
Сообщений: 67
|
 |
« Ответ #13 : 19.03.2011, 19:28:58 » |
|
ABCroNews, вот тут вроде об этом написано ссылка. Я сделал - вроде работает. Только я указал не только для яндекса, а для всех. Незнаю насколько это правильно. В общем я добавил в .htaccess сразу за директивой «RewriteEngine On» следущее: ### Little Hack for XMAP RewriteCond %{REQUEST_URI} ^/sitemap.xml RewriteRule .* /index.php?option=com_xmap&view=xml&no_html=1
|
|
|
|
|
Записан
|
|
|
|
diks13
Давно я тут
  
Репутация: +9/-0
Offline
Пол: 
Сообщений: 265
|
 |
« Ответ #14 : 28.07.2011, 20:29:38 » |
|
в поиске не нашел ответа, Как запретить индексацию всех поисковиков кроме ЯНДЕКСА,ГУГЛА,РАМБЛЕРА? у меня всегда куча разных ботов которые не понятно что там делают а хостер ругается из за нагрузки.
|
|
|
|
|
Записан
|
|
|
|
skai
Moderator
   
Репутация: +144/-1
Offline
Пол: 
Сообщений: 1221
skaiseo
|
 |
« Ответ #15 : 28.07.2011, 21:33:20 » |
|
User-agent: * Disallow: / User-agent: Yandex перечисляем правила для Яндекса User-agent: Googlebot перечисляем правила для Google (не забудьте про роботов картинок и т.п.) и так далее.. http://robotstxt.org.ru/
|
|
|
|
« Последнее редактирование: 05.11.2011, 03:33:08 от skai »
|
Записан
|
|
|
|
klara7
Давно я тут
  
Репутация: +2/-1
Offline
Пол: 
Сообщений: 268
|
 |
« Ответ #16 : 27.10.2011, 06:55:21 » |
|
У меня вопросы по поводу доменов - как правильно включить в robot.txt. 1. Если домен в зоне рф? 2. 2 домена на одном сайте 3. нужно ли писать host c www и без него? Пример: Host:www.site.ru Host:site.ru
|
|
|
|
|
Записан
|
|
|
|
strannik-yura
Завсегдатай
   
Репутация: +44/-1
Offline
Пол: 
Сообщений: 556
:)
|
 |
« Ответ #17 : 27.10.2011, 11:03:49 » |
|
3 если сайты разные (с WWW один, без совсем другой), то для каждого robots.txt нужно прописывать свой, если у вас сайт один и тот же что с WWW что без, то тогда надо писать тот который вы сделали главным или хотите что бы он был главным обычно поисковики сами склеивают их.
|
|
|
|
|
Записан
|
|
|
|
Xuga
Давно я тут
  
Репутация: +121/-0
Offline
Пол: 
Сообщений: 245
Интернет-Маркетолог
|
 |
« Ответ #18 : 22.11.2011, 15:45:54 » |
|
Граждане, добрый день! Пугаете вы меня своими роботами, если честно. На мой, странный, взгляд они у вас не очень полные. Попробую расписать свой с пояснениями. Робот для тех, кто пользуется ЧПУ, если не пользуетесь, то вам пока рано читать этот раздел =) ЭТОТ ФАЙЛ ДЛЯ САЙТОВ С РОДНЫМ СЕФ И БЕЗ ИНТЕРНЕТ МАГАЗИНА! User-agent: Yandex #К какому роботу обращаемся Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта Disallow: /administrator/ #Закрываем доступ к админке Disallow: /cache/ #Закрываем доступ к кеш Disallow: /cli/ #Не помню зачем писал :) Disallow: /components/ #Закрываем доступ к компонентам Disallow: /go.php # #Не помню Disallow: /images/ # #Закрываем доступ к картинкам. Опция нужна не всем Disallow: /includes/ # #Не помню Disallow: /installation/ # #Закрываем папку инсталляции Disallow: /language/ # #Языки Disallow: /libraries/ # #Закрываем библиотеки Disallow: /logs/ # # #Закрываем логи Disallow: /media/ # # #Закрываем медиа Disallow: /modules/ # #Закрываем модули Disallow: /plugins/ # #Плагины Disallow: /templates/ # #Папка с шаблонами Disallow: /tmp/ # # #Не помню Disallow: /xmlrpc/ # # #Не помню Disallow: /*com_mailto* #Форма отправки писем Disallow: /*pop=* # #Всплывающие окна Disallow: /*lang=ru* # #Не помню Disallow: /*format=* # #Не помню Disallow: /*print=* # #Ссылка вывода на печать Disallow: /*task=vote* # #Голосования Disallow: /*=watermark* #Идиотская ссылка на водяные знаки Disallow: /*=download* # #Ссылки на скачивание Disallow: /*user/* # #Не помню Disallow: /.html # # #На всякий случай Disallow: /404 # # #Закрываем 404 ошибку Disallow: /index.php? Disallow: /index.html Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются ! Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются ! Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются ! Disallow: /index2.php # #Закрываем дубли Disallow: /index.php # #Закрываем дубли Disallow: /*tag # # #Закрываем облака тегов Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению Disallow: /*print=1 # #Закрываем ссылку на печать Disallow: /*=atom # #Закрывает RSS Disallow: /*=rss # # #Закрывает RSS Disallow: /trackback # #надо =) Host: Ваш сайт # # #Прописываем ваш сайт
User-agent: Googlebot Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=ru* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /404 Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index.php? Disallow: /index.html Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*.pdf Disallow: /*.swf Disallow: /*print=1 Disallow: /*=atom Disallow: /*=rss Disallow: /trackback Host: ваш сайт
User-agent: * Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=ru* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html Disallow: /404 Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index.php? Disallow: /index.html Disallow: /index2.php Disallow: /index.php Disallow: /*tag Disallow: /*.pdf Disallow: /*.swf Disallow: /*print=1 Disallow: /*=atom Disallow: /*=rss Disallow: /trackback Host: ваш сайт
Sitemap: http://сайт/sitemap.xml
Параметр Allow: / ставится между хостом и картой сайта. Я смысла в нем не вижу. А вы? Перед host можно ставить команду: Crawl-delay: 3
Она отражает задержку в мс между обработкой страниц для медленных серверов. Важно помнить, что при написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично: User-agent: Yandex Disallow:
Вдогонку справочник по роботам: Search Engine: User-Agent AltaVista: Scooter Infoseek: Infoseek Hotbot: Slurp AOL: Slurp Excite: ArchitextSpider Google: Googlebot Goto: Slurp Lycos: Lycos MSN: Slurp Netscape: Googlebot NorthernLight: Gulliver WebCrawler: ArchitextSpider Iwon: Slurp Fast: Fast DirectHit: Grabber Looksmart Web Pages: Slurp за справочник спасибо userxp Ну а теперь вопросы!
|
|
|
|
« Последнее редактирование: 22.11.2011, 16:29:28 от Xuga »
|
Записан
|
|
|
|
skai
Moderator
   
Репутация: +144/-1
Offline
Пол: 
Сообщений: 1221
skaiseo
|
 |
« Ответ #19 : 23.11.2011, 01:53:30 » |
|
Xuga: Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются ! Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются ! Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются ! - достаточно будет: Disallow: /*? - папку images закрывать не надо если хотите чтобы картинки индексировались. - installation надо просто удалить и в robots такая конструкция будет не нужна. - зачем закрывать Disallow: /index.html если вы уже закрыли Disallow: /.html ранее... и т.д и т.п. - у вас много лишнего. в вашем случае отдельно стоило указывать только правила для Yandex, а для остальных *
|
|
|
|
« Последнее редактирование: 27.10.2012, 13:45:41 от ELLE »
|
Записан
|
|
|
|
danss2
Осваиваюсь на форуме
 
Репутация: +3/-0
Offline
Пол: 
Сообщений: 94
|
 |
« Ответ #20 : 09.01.2012, 14:02:34 » |
|
Ребят, такой вопрос: можно ли, используя robots, блокировать безимянного паука - Bot? В смысле одной командой: User-agent: Bot Disallow: *
Или вообще его (их) блокировать как-то по другому? А вообще, кто знает, что это за пауки?
|
|
|
|
|
Записан
|
|
|
|
|
stasyansky
|
 |
« Ответ #21 : 10.01.2012, 03:30:33 » |
|
а вот подскажите, как правильно закрыть весь сайт от индексации?
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #22 : 10.01.2012, 04:31:10 » |
|
а вот подскажите, как правильно закрыть весь сайт от индексации?
если закрыть, то так User-agent: * Disallow: /
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #23 : 10.01.2012, 04:52:04 » |
|
Ребят, такой вопрос: можно ли, используя robots, блокировать безимянного паука - Bot? В смысле одной командой: User-agent: Bot Disallow: *
Или вообще его (их) блокировать как-то по другому? А вообще, кто знает, что это за пауки?
вы можете прописать правила для нужных поисковиков как здесь (для Яндекса и Google), а остальным Disallow: /
|
|
|
|
|
Записан
|
|
|
|
|
dimon888951
|
 |
« Ответ #24 : 22.01.2012, 12:21:39 » |
|
можно убрать Disallow: /*%, склеятся да и всё. если сейчас тоже кириллические, то обязательно нужно убрать.
Спасибо большое за совет, так и сделаю, но все же хотелось бы знать почему такой запрет,запрещает кирилический url
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #25 : 22.01.2012, 12:24:23 » |
|
Спасибо большое за совет, так и сделаю, но все же хотелось бы знать почему такой запрет,запрещает кирилический url
скопируйте любой кириллический урл и вставьте сюда - увидите что адрес весь в %-ах. В FAQ кстати об этом я тоже написала во втором примере где про sh404 говорится. вот например из вики - http://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D1%80%D0%B8%D0%BB%D0%BB%D0%B8%D1%86%D0%B0
|
|
|
|
« Последнее редактирование: 22.01.2012, 12:27:26 от ELLE »
|
Записан
|
|
|
|
|
Fedor Vlasenko
|
 |
« Ответ #26 : 23.01.2012, 18:53:03 » |
|
ELLE я задавал вопрос здесь. Зачем задавать правила отдельно для поисковиков. Если это не влияет в данном случае (маленькому сайту) ни на производительность сервера(хоста когда надо задать правила чтобы роботы не загружали сервер) ни на индексацию поисковиков?
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #27 : 23.01.2012, 19:05:22 » |
|
ELLE я задавал вопрос здесь. Зачем задавать правила отдельно для поисковиков. Если это не влияет в данном случае (маленькому сайту) ни на производительность сервера(хоста когда надо задать правила чтобы роботы не загружали сервер) ни на индексацию поисковиков?
Это как верить в Бога. Я верю в то, что яндексу и Google больше нравится, когда для их роботов все расписано отдельно.
на самом деле ситуации разные бывают. я например бывает еще к картиночным ботам обращаюсь отдельно. бывает так что и разные правила нужно писать для разных ПС и разные карты делаются - все зависит от целей. кому то вообще полный запрет - Disallow: / да и не стоит забывать про host - хотя бы поэтому для Яндекса считаю стоит написать отдельно.
|
|
|
|
|
Записан
|
|
|
|
|
AlexSF
|
 |
« Ответ #28 : 01.02.2012, 16:36:17 » |
|
Всем доброго времени суток. Столкнулся с проблемой. Есть скрипт комментариев + его модуль. Модуль добавляет к ссылке значение #mc-8385(цифры меняются). Ссылка выглядит примерно так http://sit.ru/categor/statiya#mc-8385 В роботсе ставлю Disallow: /*#mc . Делаю проверку ссылки из модуля на яндексе. В ответ - разрешено. Как правильно закрыть такие ссылки?
|
|
|
|
|
Записан
|
|
|
|
none.sql
Осваиваюсь на форуме
 
Репутация: +8/-1
Offline
Сообщений: 154
|
 |
« Ответ #29 : 01.02.2012, 18:41:02 » |
|
Всем доброго времени суток. Столкнулся с проблемой. Есть скрипт комментариев + его модуль. Модуль добавляет к ссылке значение #mc-8385(цифры меняются). Ссылка выглядит примерно так http://sit.ru/categor/statiya#mc-8385 В роботсе ставлю Disallow: /*#mc . Делаю проверку ссылки из модуля на яндексе. В ответ - разрешено. Как правильно закрыть такие ссылки?
Всё что находится после символа # в ссылке поисковый робот не индексирует, насколько я знаю и соответственно в роботсе ничего закрывать не нужно.
|
|
|
|
|
Записан
|
|
|
|
|