0 Пользователей и 1 Гость просматривают эту тему.
  • 447 Ответов
  • 202589 Просмотров
*

wishlight

  • Гуру
  • 5011
  • 295 / 1
  • от 150 руб быстрый хостинг без блокировок
Кто подскажет, этот robots.txt будет правильным для поисковиков?

Спойлер
[свернуть]

Яндекс претензий не имеет. Видит правда 2 ссылки на карту сайта, но не жалуется.

-------------------------------------------------------------------------------------------
Примечание модератора:

Прежде чем задать вопрос - внимательно изучите FAQ: robots.txt для Joomla, а также Использование robots.txt (помощь от Яндекса)

Все вопросы задаем здесь, вновь созданные темы о robots.txt будут отправлены на свалку.
« Последнее редактирование: 31.10.2012, 22:32:20 от ELLE »
*

profiX0808

  • Захожу иногда
  • 497
  • 70 / 0
Вроде все правильно. Только зачем для яндекса отдельные "указания", если они идентичные как и для всех "*" ?

Sitemap: http://www.mysite.com/sitemap/xml - здесь имелось ввиду Sitemap: http://www.mysite.com/sitemap.xml ?

Добавьте сайт в панель вебмастера от яндекса, там есть "Анализ robots.txt". Если есть какие проблемы, то там будет написано.
« Последнее редактирование: 29.05.2010, 19:52:38 от profiX0808 »
*

wishlight

  • Гуру
  • 5011
  • 295 / 1
  • от 150 руб быстрый хостинг без блокировок
http://www.mysite.com/sitemap/xml
формат карты именно такой с SEF . Чем это может помешать?
Яндекс претензий не имеет. Видит правда 2 ссылки на карту сайта, но не жалуется.
Да наверно личные указания для яндекса это лишнее
Формат карты такой, потому что для страниц на сайте не указываются расширения. Указывать их на данном этапе развития поисковых систем лишнее и в Яндекс вебмастер (и Google) проблем с картой сайта нет.
Думаете убрать личные указания для яндекса?

Спойлер
[свернуть]

вот это для меня верное.... А то, что вверху насоветовали.
Сайт редиректит на страницы с www. автоматом по этому такой хост
Папку с изображенями открыл, лишнее удалил. Открыл для участия в поиске с картинками
« Последнее редактирование: 05.11.2011, 01:53:40 от skai »
*

voland

  • Легенда
  • 11028
  • 588 / 112
  • Эта строка съедает место на вашем мониторе
http://www.mysite.com/sitemap/xml
формат карты именно такой с SEF . Чем это может помешать?
Да наверно личные указания для яндекса это лишнее
Формат карты такой, потому что для страниц на сайте не указываются расширения. Указывать их на данном этапе развития поисковых систем лишнее и в Яндекс вебмастер (и Google) проблем с картой сайта нет.
Думаете убрать личные указания для яндекса?

Спойлер
[свернуть]

вот это для меня верное.... А то, что вверху насоветовали.
Сайт редиректит на страницы с www. автоматом по этому такой хост
Папку с изображенями открыл, лишнее удалил. Открыл для участия в поиске с картинками

Я не просто от балды написал вверху как верно - директива host верна только для Яндекса поэтому и сделана в отдельной секции, если сами считаете как вам правильно - зачем спрашивать?
« Последнее редактирование: 05.11.2011, 01:53:53 от skai »
*

kafelplitka

  • Осваиваюсь на форуме
  • 47
  • 1 / 0
народ подскажите, для индексации картинок в VirtueMart сделал такой робот, насколько он верный и какие замечания?

Спойлер
[свернуть]
« Последнее редактирование: 05.11.2011, 01:49:54 от skai »
*

art22

  • Захожу иногда
  • 328
  • 0 / 0
Привет всем вот мой робот правильный все сделано? и еще так стоит сделать  User-agent: Yandex ? это как то влияет на индексацию?у меня уже почти 2 недели сайт стоит на очереди в яндексе не индексирует(((
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*.pdf
Disallow: /*.doc
Disallow: /*print
*

GDV

  • Завсегдатай
  • 1898
  • 201 / 5
Для Yandex отдельно пишем данные команды.
Как показано выше. Два столба
один для всех поисковиков а другой для яндекса.
отдельный.

у kafelplitka уникальный. Вы еще на каждый отдельный файл сделайте запред.
Как раз на томик война и мир выйдет.
Достаточно давать запред на папку. Все что в папке роботы смотреть не будут.
Убедительная просьба не писать в ЛС. Для решения Ваших проблем есть форум.
*

annushka

  • Захожу иногда
  • 148
  • 2 / 0
  • Joomla!
Ну раз пошла такая пьянка.  ^-^ Для стандартного новостного сайта со стандартным включенным SEF такое подойдет?

Спойлер
[свернуть]
« Последнее редактирование: 05.11.2011, 02:01:21 от skai »
*

MaRt

  • Захожу иногда
  • 356
  • 20 / 2
  • SEO master
Ну раз пошла такая пьянка.  ^-^ Для стандартного новостного сайта со стандартным включенным SEF такое подойдет?

Спойлер
[свернуть]

если у вас Disallow: /installation/ такая папка есть. то удалите ее из роботса и с сайта ))) ну и сефовский дубликат главной закройте
« Последнее редактирование: 05.11.2011, 02:02:09 от skai »
Тра та та
*

n_i_x

  • Захожу иногда
  • 130
  • 6 / 0
вот мой Robots.txt
Спойлер
[свернуть]

Что показывает Яндекс.вебмастер:
Код
Используемые секции	
Строка
19-35 User-agent: Yandex
Disallow: /administrator/
...
Request-rate: 1/1
Отсюда делайте свои выводы, стоит ли прописывать User-agent: Yandex

Disallow: /components/
Disallow: /component/attachments/download/
разве Disallow: /components/ не достаточно? это же вроде как корневая, которая если закрыта, то и закрыто всё, что в ней

и папки installation у тебя вроде не должно быть, получается лишняя строка
« Последнее редактирование: 05.11.2011, 03:39:09 от skai »
*

фобос

  • Захожу иногда
  • 171
  • 14 / 1
Disallow: /components/
Disallow: /component/attachments/download/
разве Disallow: /components/ не достаточно? это же вроде как корневая, которая если закрыта, то и закрыто всё, что в ней
Это два совершенно разных адресса.
components/ - это системная папка, где собственно лежат все компоненты
component/ - это сформированная ссылка через стандартный SEF

и папки installation у тебя вроде не должно быть, получается лишняя строка
Это на всякий случай, чтобы во время каких-либо установок не трогали эту папку.
*

SmokerMan

  • Гуру
  • 5291
  • 720 / 26
/? - это изврат какой-то.
как минимум нельзя закрывать параметры, т.е. все что идет после "?", так как не будет индексироваться, допустим, пагинация (разбиение на страницы) и еще может много чего.
*

ABCroNews

  • Захожу иногда
  • 268
  • 6 / 0
  • Строим новый дом из старых кубиков)
Хочу подвести итог всего сказанного, так как сам в первый раз пишу robots.txt Народ если не в облом, ответе коротко еще разок на все вопросы:
1) Нужно ли писать User-agent: Yandex когда уже есть User-agent: *?
2) Что точно означает Host: www.site.ru, что мол это главный вид ссылки и что происходит редирект с site.ru на www.site.ru?
3) Если прописать Disallow: /images/ то картинки не будут индексироваться и с тем самым не будут выдаваться поисковиком? А ведь в robots.txt эта опция стоит по умолчанию.
4) Что точно дает значение Sitemap:, карту сайта же и так индексируют роботы как часть сайта?
5) Не возникнет ли проблем с индексацией если при использовании стандартного SEF добавить в robots.txt значение Disallow: /index.php?
6) Что такое опции Crawl-delay:, Request-rate: и Allow:?
7) Где это на сайте встречается такое расширение Disallow: /*.doc?
8 Нормальный ли адрес имеет моя карта сайта http://site.ru/karta-sajta.html? Такое имя получил в результате использования стандартного ЧПУ и не прибегал к разным хакам и хитростям.
9) Как запретить в robots.txt индексировать все кроме карты сайта? Так как из-за структуры Joomla создаются дубли (главная-раздел-категория-материал + все еще разок повторяется в карте сайта) Кароче нужно чтобы в индекс попадали только "оригинальные страницы" без дублей
10) Нужно ли скрывать от индексации остальные файлы расположенные в корневой директории (не папки)?
11) Может ли как то помешать в robots.txt опция Disallow: /installation/ ее нужно удалять или же все таки можно оставить на всякий случай?
12) Почему некоторые пишут Disallow: /*print а некоторые Disallow: /*print=1 в чем тут разница?

P.S Кстати можно еще добавить опцию Disallow: /*mailto/ для скрытия мыла
*

Gramoj

  • Захожу иногда
  • 56
  • 1 / 0
ABCroNews, вот тут вроде об этом написано ссылка. Я сделал - вроде работает. Только я указал не только для яндекса, а для всех. Незнаю насколько это правильно. В общем я добавил в .htaccess сразу за директивой «RewriteEngine On» следущее:
Код
### Little Hack for XMAP
RewriteCond %{REQUEST_URI} ^/sitemap.xml
RewriteRule .* /index.php?option=com_xmap&view=xml&no_html=1
*

diks13

  • Захожу иногда
  • 257
  • 10 / 0
в поиске не нашел ответа, Как запретить индексацию всех поисковиков кроме ЯНДЕКСА,ГУГЛА,РАМБЛЕРА?
у меня всегда куча разных ботов которые не понятно что там делают а хостер ругается из за нагрузки.
*

skai

  • Moderator
  • 1198
  • 153 / 1
  • skaiseo
User-agent: *
Disallow: /

User-agent: Yandex
перечисляем правила для Яндекса

User-agent: Googlebot
перечисляем правила для Google (не забудьте про роботов картинок и т.п.)

и так далее..

http://robotstxt.org.ru/
« Последнее редактирование: 05.11.2011, 03:33:08 от skai »
Наполнение вашего сайта - 1т.р. стр. (текст, изображения, мета, перелинковка). Гарантия высокого ранжирования. SEO консультация в подарок.
----------------------------------------------------------------------------------------------
*

klara7

  • Захожу иногда
  • 311
  • 4 / 1
У меня вопросы по поводу доменов - как правильно включить в robot.txt.
1. Если домен в зоне рф?
2. 2 домена на одном сайте
3. нужно ли писать host c www и без него? Пример:
Host:www.site.ru
Host:site.ru
*

strannik-yura

  • Давно я тут
  • 511
  • 44 / 1
  • :)

3
если сайты разные (с WWW один, без совсем другой), то для каждого robots.txt нужно прописывать свой,
если у вас сайт один и тот же что с WWW что без, то тогда надо писать тот который вы сделали главным или хотите что бы он был главным
обычно поисковики сами склеивают их.
*

Xuga

  • Захожу иногда
  • 224
  • 122 / 0
  • Интернет-Маркетолог
Граждане, добрый день!
Пугаете вы меня своими роботами, если честно. На мой, странный, взгляд они у вас не очень полные.
Попробую расписать свой с пояснениями.

Робот для тех, кто пользуется ЧПУ, если не пользуетесь, то вам пока рано читать этот раздел =)

ЭТОТ ФАЙЛ ДЛЯ САЙТОВ С РОДНЫМ СЕФ И БЕЗ ИНТЕРНЕТ МАГАЗИНА!
Код
User-agent: Yandex	#К какому роботу обращаемся
Allow: /index.php?option=com_xmap&sitemap=1&view=xml  #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке 
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /cli/ #Не помню зачем писал :)
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /go.php # #Не помню
Disallow: /images/ # #Закрываем доступ к картинкам. Опция нужна не всем
Disallow: /includes/ # #Не помню
Disallow: /installation/ # #Закрываем папку инсталляции
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto* #Форма отправки писем
Disallow: /*pop=* # #Всплывающие окна
Disallow: /*lang=ru* # #Не помню
Disallow: /*format=* # #Не помню
Disallow: /*print=* # #Ссылка вывода на печать
Disallow: /*task=vote* # #Голосования
Disallow: /*=watermark* #Идиотская ссылка на водяные знаки
Disallow: /*=download* # #Ссылки на скачивание
Disallow: /*user/* # #Не помню
Disallow: /.html # # #На всякий случай
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Disallow: /trackback # #надо =)
Host: Ваш сайт # # #Прописываем ваш сайт

User-agent: Googlebot
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /trackback
Host: ваш сайт

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /trackback
Host: ваш сайт

Sitemap: http://сайт/sitemap.xml

Параметр Allow: / ставится между хостом и картой сайта. Я смысла в нем не вижу. А вы?

Перед host можно ставить команду:
Код
Crawl-delay: 3
Она отражает задержку в мс между обработкой страниц для медленных серверов.

Важно помнить, что при написании robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, то есть рассматриваются аналогично:
Код
User-agent: Yandex
Disallow:

Вдогонку справочник по роботам:
Код
Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Looksmart Web Pages: Slurp

за справочник спасибо userxp

Ну а теперь вопросы!
« Последнее редактирование: 22.11.2011, 16:29:28 от Xuga »
Рекламное агентство: Medianation
Skype: ibarchenkov

Группа по digital-маркетингу:
http://vk.com/dmarketing
*

skai

  • Moderator
  • 1198
  • 153 / 1
  • skaiseo
Xuga:
Цитировать
Disallow: /*?   #   #   #все ссылки которые содержат этот знак не индексируются !
Disallow: /*%   #   #   #все ссылки которые содержат этот знак не индексируются !
Disallow: /*&    #   #   #все ссылки которые содержат этот знак не индексируются !
- достаточно будет:
Код
Disallow: /*?

- папку images закрывать не надо если хотите чтобы картинки индексировались.
- installation надо просто удалить и в robots такая конструкция будет не нужна.
- зачем закрывать Disallow: /index.html если вы уже закрыли Disallow: /.html ранее...  и т.д и т.п. - у вас много лишнего.
в вашем случае отдельно стоило указывать только правила для Yandex, а для остальных *
« Последнее редактирование: 27.10.2012, 13:45:41 от ELLE »
Наполнение вашего сайта - 1т.р. стр. (текст, изображения, мета, перелинковка). Гарантия высокого ранжирования. SEO консультация в подарок.
----------------------------------------------------------------------------------------------
*

danss2

  • Захожу иногда
  • 80
  • 3 / 0
Ребят, такой вопрос:
можно ли, используя robots, блокировать безимянного паука - Bot?
В смысле одной командой:
User-agent: Bot
Disallow: *

Или вообще его (их) блокировать как-то по другому?  А вообще, кто знает, что это за пауки?
*

stasyansky

  • Захожу иногда
  • 225
  • 22 / 0
а вот подскажите, как правильно закрыть весь сайт от индексации?
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
а вот подскажите, как правильно закрыть весь сайт от индексации?
если закрыть, то так
Код
User-agent: *
Disallow: /
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
Ребят, такой вопрос:
можно ли, используя robots, блокировать безимянного паука - Bot?
В смысле одной командой:
User-agent: Bot
Disallow: *

Или вообще его (их) блокировать как-то по другому?  А вообще, кто знает, что это за пауки?
вы можете прописать правила для нужных поисковиков как здесь (для Яндекса и Google), а остальным  Disallow: /
*

dimon888951

  • Захожу иногда
  • 115
  • 24 / 3
можно убрать Disallow: /*%, склеятся да и всё.
если сейчас тоже кириллические, то обязательно нужно убрать.
Спасибо большое за совет, так и сделаю, но все же хотелось бы знать почему  такой запрет,запрещает кирилический url
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
Спасибо большое за совет, так и сделаю, но все же хотелось бы знать почему  такой запрет,запрещает кирилический url
скопируйте любой кириллический урл и вставьте сюда - увидите что адрес весь в %-ах. В FAQ кстати об этом я тоже написала во втором примере где про sh404 говорится.

вот например из вики - http://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D1%80%D0%B8%D0%BB%D0%BB%D0%B8%D1%86%D0%B0
« Последнее редактирование: 22.01.2012, 12:27:26 от ELLE »
*

Fedor Vlasenko

  • Живу я здесь
  • 3845
  • 733 / 7
  • https://fedor-vlasenko.web.app
ELLE я задавал вопрос здесь. Зачем задавать правила отдельно для поисковиков. Если это не влияет в данном случае (маленькому сайту) ни на производительность сервера(хоста когда надо задать правила чтобы роботы не загружали сервер) ни на индексацию поисковиков?
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
ELLE я задавал вопрос здесь. Зачем задавать правила отдельно для поисковиков. Если это не влияет в данном случае (маленькому сайту) ни на производительность сервера(хоста когда надо задать правила чтобы роботы не загружали сервер) ни на индексацию поисковиков?
Это как верить в Бога. Я верю в то, что яндексу и Google больше нравится, когда для их роботов все расписано отдельно.
на самом деле ситуации разные бывают. я например бывает еще к картиночным ботам обращаюсь отдельно.
бывает так что и разные правила нужно писать для разных ПС и разные карты делаются - все зависит от целей.
кому то вообще полный запрет - Disallow: /
да и не стоит забывать про host - хотя бы поэтому для Яндекса считаю стоит написать отдельно.
*

AlexSF

  • Давно я тут
  • 678
  • 68 / 0
  • В споре истина рождается
Всем доброго времени суток.
Столкнулся с проблемой. Есть скрипт комментариев + его модуль. Модуль добавляет к ссылке значение #mc-8385(цифры меняются).
Ссылка выглядит примерно так http://sit.ru/categor/statiya#mc-8385 В роботсе ставлю Disallow: /*#mc . Делаю проверку ссылки из модуля на яндексе. В ответ - разрешено.
Как правильно закрыть такие ссылки?
Задаёте вопрос - не забудьте приложить ссылку на проблемный сайт
При проблеме с CSS рекомендую использовать Mozilla Firefox и её плагин FireBug
И по максимуму изучите, или поставьте в закладки - http://htmlbook.ru/css
Notepad++ поможет почти в любом деле
*

none.sql

  • Захожу иногда
  • 143
  • 8 / 1
Всем доброго времени суток.
Столкнулся с проблемой. Есть скрипт комментариев + его модуль. Модуль добавляет к ссылке значение #mc-8385(цифры меняются).
Ссылка выглядит примерно так http://sit.ru/categor/statiya#mc-8385 В роботсе ставлю Disallow: /*#mc . Делаю проверку ссылки из модуля на яндексе. В ответ - разрешено.
Как правильно закрыть такие ссылки?
Всё что находится после символа # в ссылке поисковый робот не индексирует, насколько я знаю и соответственно в роботсе ничего закрывать не нужно.
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Роботу Googlebot заблокирован доступ в файле robots.txt

Автор illimited

Ответов: 3
Просмотров: 2558
Последний ответ 29.05.2022, 14:57:55
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 25
Просмотров: 12508
Последний ответ 17.05.2022, 01:22:12
от kabban
Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 753
Последний ответ 25.07.2021, 21:38:12
от web1
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 771
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 760
Последний ответ 10.07.2020, 13:12:46
от HolySong