Хочу подвести итог всего сказанного, так как сам в первый раз пишу robots.txt Народ если не в облом, ответе коротко еще разок на все вопросы:
1) Нужно ли писать User-agent: Yandex когда уже есть User-agent: *?
2) Что точно означает Host:
www.site.ru, что мол это главный вид ссылки и что происходит редирект с site.ru на
www.site.ru?3) Если прописать Disallow: /images/ то картинки не будут индексироваться и с тем самым не будут выдаваться поисковиком? А ведь в robots.txt эта опция стоит по умолчанию.
4) Что точно дает значение Sitemap:, карту сайта же и так индексируют роботы как часть сайта?
5) Не возникнет ли проблем с индексацией если при использовании стандартного SEF добавить в robots.txt значение Disallow: /index.php?
6) Что такое опции Crawl-delay:, Request-rate: и Allow:?
7) Где это на сайте встречается такое расширение Disallow: /*.doc?
8 Нормальный ли адрес имеет моя карта сайта
http://site.ru/karta-sajta.html? Такое имя получил в результате использования стандартного ЧПУ и не прибегал к разным хакам и хитростям.
9) Как запретить в robots.txt индексировать все кроме карты сайта? Так как из-за структуры Joomla создаются дубли (главная-раздел-категория-материал + все еще разок повторяется в карте сайта) Кароче нужно чтобы в индекс попадали только "оригинальные страницы" без дублей
10) Нужно ли скрывать от индексации остальные файлы расположенные в корневой директории (не папки)?
11) Может ли как то помешать в robots.txt опция Disallow: /installation/ ее нужно удалять или же все таки можно оставить на всякий случай?
12) Почему некоторые пишут Disallow: /*print а некоторые Disallow: /*print=1 в чем тут разница?
P.S Кстати можно еще добавить опцию Disallow: /*mailto/ для скрытия мыла