Ребята, решил провести исследование на тему как же правильно сформировать robots.txt на сайте с магазином VirtueMart. Какие исходные данные:
1) SEF компоненты не используем по причине их ресурсозатратности. То есть объединения всех ссылок в одну, как это делает sh404SEF не будет,
2) для создания ЧПУ ссылок используем супер роутер, разработанный danik.html-ем отсюда
http://joomlaforum.ru/index.php/topic,130264.0.html запросов в бд минимум, работает быстро и делает красивые url,
3) в общих настройках Joomla все 3 опции SEO включены, страницы просматриваются без index.php
Что мы имеем в результате юзания роутера:
После установки роутера мы имеем 3 ссылки на один и тотже товар:
http://muzalliance.ru/shop/product/5-access-virus-c.html - вход через страницу следующего товара
http://muzalliance.ru/shop/category/product/2-sintezatori/5-access-virus-c.html - вход через категорию
http://muzalliance.ru/shop/category/manufacturer/product/2-sintezatori/3-access/5-access-virus-c.html - вход через категорию отфильтрованную по производителю
По старым ссылкам даже после применения роутера всё равно заходит:
http://muzalliance.ru/shop.html?page=shop.product_details&product_id=5&flypage=flypage.tpl&pop=0http://muzalliance.ru/shop.html?page=shop.product_details&flypage=flypage.tpl&product_id=5&category_id=2http://muzalliance.ru/shop.html?page=shop.product_details&flypage=flypage.tpl&product_id=5&category_id=2&manufacturer_id=3shop - это алиас
Откудато берутся и ссылки такого вида и причем формируются на главной странице:
http://muzalliance.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=5&option=com_virtuemart&Itemid=1&vmcchk=1&Itemid=1http://muzalliance.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=5&category_id=2&option=com_virtuemart&Itemid=1&vmcchk=1&Itemid=1http://muzalliance.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=5&category_id=2&manufacturer_id=3&option=com_virtuemart&Itemid=1&vmcchk=1&Itemid=1Итого минимум 9 ссылок на одну и ту же страницу, а на самом деле еще больше! Вот пример
http://forum.virtuemart.net/index.php?topic=71524.0 Там только с началом /index.php? на один товар 9 страниц. Одуреть можно. Эти дубли делает вонючий Вирт, но надо определиться как с этим быть.
Нашел пример robots.txt у чувака с VirtueMart, который юзает SEF роутер
http://forum.virtuemart.net/index.php?topic=65697.msg227796#msg227796 :
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /index.php?option=com_events
Disallow: /index.php?option=com_virtuemart&page=shop.registration
Disallow: /index.php?page=account.index
Disallow: /index.php?option=com_virtuemart&page=shop.search
Disallow: /index.php?page=shop.browse&age_id
Disallow: /index.php?page=shop.cart&func=cartAdd&
Disallow: /index.php?page=shop.cart
Disallow: /index.php?page=checkout.index
Disallow: /index2.php
Disallow: /index.php?page=shop.browse&age_id=
Disallow: *index2.php?
Disallow: /index2.php*
Disallow: /*?pop=0
Disallow: /*?pop=1
Disallow: /*?catid=0
Disallow: /*?catid=1
Disallow: /*?catid=
Sitemap: http://www.darjeelingteaexclusive.com/index.php?option=com_xmap&sitemap=1&view=xml
Так вот, я посмотрел какие у него страницы проиндексированы в Google -
http://www.google.com/search?hl=en&safe=off&q=site%3Awww.darjeelingteaexclusive.comТам проиндексирована куча страшных ссылок на товары вида
http://www.darjeelingteaexclusive.com/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=46&category_id=7&option=com_virtuemart&Itemid=1&vmcchk=1&Itemid=1Есть выдержка из robots.txt на быстром сайте aloris.ru, на котором юзается только стандартный SEF
Disallow: /index.php?
Disallow: /component/page,shop.cart/
Disallow: /component/option,com_registration/
Disallow: /component/option,com_linkexchange/
Как мы видим строкой Disallow: /index.php? закрыты все страницы с началом index.php?, но это не мешает Яндексу проиндексировать кучу дублей страницы одного и того же товара
http://yandex.ru/yandsearch?lr=55&site=www.aloris.ru&text=%D0%BA%D0%BE%D0%BB%D1%8C%D1%86%D0%BE+132Давайте подумаем какие нам нужны условия, которыми будем закрывать url-ы в robots.txt. Вот один парень предложил короткое и изящное решение:
http://forum.virtuemart.net/index.php?topic=28802.msg86229#msg86229то есть вставляем в .htaccess после rewrite base
RewriteRule ^(.*)-[0-9]{1,2}\.html$ http://www.ваш_сайт.ру/$1.html [L,R=301]
Это правило переписывает url страницы товара с окончаниями -1.html, -2.html, -n.html, созданные компонентом Artio JoomSEF, надо как-то доработать это правило для использования случая с роутером.
и добавляем в robots.txt:Disallow: /*?*
Disallow: /index.php?
По сути это закрывает все страницы с динамическими адресами на сайте со знаками вопроса. Пишет, что вроде как дубли страниц не находятся роботами вообще.Плюс нужно еще открыть доступ к картинкам VirtueMart. Здесь это обсуждают:
http://joomlaforum.ru/index.php/topic,18057.0.html http://joomlaforum.ru/index.php/topic,16891.0.htmlПлюс поисковики умудряются индексировать корзину и форму задать вопрос по этому товару для каждого товара. В результате образуется масса спама. Думаю вообще стоит закрыть /component/virtuemart/ и /shop/ и вручную разрешить только нужные ссылки с товарами и категориями, а то какая-то помойка образуется.
В общем цель - сделать идеальный robots.txt для сайта с VirtueMart.
___________________________________________________________________________________________________________
Сюда буду добавлять сам текст изготовляемого robots.txtUser-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /component/virtuemart/
Disallow: /shop/category/manufacturer/product/
Disallow: /shop/product/
Disallow: /shop.html
Disallow: /shop/account.html
Disallow: /shop/cart.html
Disallow: /shop/ask/
Disallow: /shop/feed/
Disallow: /component/forme.html
Disallow: /component/content/article/1-kategoria1/
Disallow: /component/mailto/
Disallow: /component/user/
Disallow: /index.php?
Disallow: /*?*
Disallow: /index2.php
Disallow: /forum/viewtopic.php
Disallow: /forum/viewforum.php
Disallow: /forum/index.php?
Disallow: /forum/post
Disallow: /forum/member
Disallow: /forum/faq.php
Disallow: /forum/mcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/search.php
Disallow: /forum/style.php
Disallow: /forum/ucp.php
Disallow: /404
Sitemap: http://muzalliance.ru/sitemap.xml
Host: muzalliance.ru