0 Пользователей и 1 Гость просматривают эту тему.
  • 63 Ответов
  • 39255 Просмотров
*

WEST100

  • Осваиваюсь на форуме
  • 20
  • 0 / 0
нет! ни за что!

щас стоит

Спойлер
[свернуть]

Я уже не пойму что прописывать тогда!!
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
нужно просмотреть все возможные ссылки, который могут вести на одну и ту же страницу, т.е. определить все возможные дубли.
затем выделить в них что-то общее и соответственно по такому типу и запрещать в роботсе.
*

TADANO-UNIC

  • Осваиваюсь на форуме
  • 16
  • 0 / 0
ELLE, привет! Сразу видно, что человек правильно, с чувством, с толком, с расстановкой, а главное, - с головой подошел к изучению вопроса. Спасибо за robots.txt!

Добавлю свои 5 копеек :):

Спойлер
[свернуть]

Объясняю почему так:
1. лишние строки грузят робота и не в коем случае их не нужно прописывать отдельно, - это я про Аllow. По умолчанию и так на всё одно большое Allow...
2. Синтаксическая ошибка - разрыв в директиве Sitemap. Не должно быть. И относим её тогда сразу в блок для "User-agent: *". Директива Host не должна дублироваться, что правильно сделала автор и должна относится к "User-agent: Yandex", т.к. по оф. данным её воспринимает только он.
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
1. лишние строки грузят робота и не в коем случае их не нужно прописывать отдельно, - это я про Аllow. По умолчанию и так на всё одно большое Allow...
первые 2 строчки (в моем примере) прописаны для индексации картинок, которые находятся в папке /components/. Прописывать для них Allow нужно лишь в том случае, если вы хотите чтобы они индексировались. Если этого не сделать, то робот их не загрузит, потому что ниже указано правило -
Код
Disallow: /components/

В вашем случае, если вы так беспокоитесь о том, что лишние строки нагрузят робота, я бы порекомендовала удалить эти строчки
Код
Disallow: /*?keyword=
Disallow: /*?pop=0
Disallow: /*?flypage=
потому что к ним применимо общее правило -
Код
Disallow: /*?

2. Синтаксическая ошибка - разрыв в директиве Sitemap. Не должно быть.
- приведите ссылку на источник, будем разбираться вместе
« Последнее редактирование: 16.12.2011, 23:24:46 от ELLE »
*

si@m

  • Захожу иногда
  • 162
  • 2 / 0
Зачем столько в robots.txt писать?
Код
User-agent: *
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*?keyword=
Disallow: /*?pop=0
Disallow: /*product-search
Disallow: /*?flypage=
Disallow: /*cart
Disallow: /*feed
Disallow: /*?
все это можно упростить:
Код
Disallow: /index.php?
Disallow: /*?keyword=
Disallow: /*?pop=0
Disallow: /*product-search
Disallow: /*?flypage=
не к чему прописывать лишнего, можно просто:
Код
Disallow: /*?*
и еще кое что бы я изменил в вашем robots.txt, в итоге примерно так:
Код
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /*product-search
Disallow: /*cart
Disallow: /*feed
Disallow: /*.php*
Disallow: /*?*
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Host: урл вашегосайта
Sitemap: адрес вашей карты
Так же хочу уточнить что, в начале должны быть прописаны все Disallow, а потом Allow, так будет более правильно, т.е. вначале мы запрещаем все что нам необходимо а уж потом делаем исключения из запрещенного, открывая с помощью Allow, к примеру директорию с картинками вашего магазина. Думаю что если еще повнимательнее покапаться с дублированными урлами, то какие то строчки можно еще убрать, но не видя сайта наверняка утверждать не стану. Проверить то что я написал можно здесь:
http://webmaster.yandex.ru/robots.xml
« Последнее редактирование: 17.01.2012, 11:36:18 от si@m »
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
Так же хочу уточнить что, в начале должны быть прописаны все Disallow, а потом Allow, так будет более правильно, т.е. вначале мы запрещаем все что нам необходимо а уж потом делаем исключения из запрещенного, открывая с помощью Allow, к примеру директорию с картинками вашего магазина.
http://help.yandex.ru/webmaster/?id=996571
т.е. если сделать так -
Код
User-agent: *
Disallow: /components/
Allow: /components/com_virtuemart/shop_image/category
бот так и не загрузит картинки
*

si@m

  • Захожу иногда
  • 162
  • 2 / 0
ELLE Извиняюсь за ошибку,  моя невнимательность, crazy! когда то разбирался с роботсами, с тех пор много уже времени прошло, вот и напутал, честно говоря давно не заглядывал сюда http://help.yandex.ru/webmaster/?id=996571
*

Harlamov23

  • Новичок
  • 6
  • 0 / 0
всё индексируется, при условии что урлы ЧПУ (ну например sh404 стоит). если SEF не стоит, то практически все закроет от индексации.
вот окончательный вариант (на данный момент)
Спойлер
[свернуть]
cart
Disallow: /*feed
Disallow: /*?
-->
[свернуть]
Подскажите пожалуйста ELLE какой на сегодняшний день лучший робот txt и нужно ли что тот ещё устанавливать в VirtueMart, я видел на форуме Ваш робот может мне его взять? Кстати не понял ЧПУ включить или нет?

сайт - http://zaolazurniy.ru
« Последнее редактирование: 10.03.2012, 21:07:27 от ELLE »
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
вам не подойдет этот роботс, у вас адреса не чпу и имеют вид
?page=shop.browse&category_id=15
?page=shop.product_details&flypage=flypage.tpl&product_id=50&category_id=15

роботс выше для сайт где стоит sh404
-------------
роботс для сайтов без чпу я не собирала
« Последнее редактирование: 10.03.2012, 21:06:41 от ELLE »
*

Harlamov23

  • Новичок
  • 6
  • 0 / 0
ELLE здравствуйте, установил sh404 настроил теперь можно мне использовать вот этот робот

Спойлер
[свернуть]
« Последнее редактирование: 10.03.2012, 13:31:36 от ELLE »
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
ага, вижу стоит sh404..только настроили не до конца. загляните в тему Настройка SH404, она поможет лучше настроить компонент.
в общем-то уже можно ставить этот роботс, только карту сайта не забудьте указать.
*

Harlamov23

  • Новичок
  • 6
  • 0 / 0
ELLE Подскажите у меня в вэб мастере Ваш робот пишет так:
User-agent: Yandex   Обнаружена неизвестная директива   
Allow: /components/com_virtuemart/shop_image/category   Перед правилом нет директивы User-agent
Что это не подскажете?
Кстати я ещё сделал так, что бы Sitemap вот так:
Allow: /index.php?option=com_xmap&sitemap=1&view=xml&no_html=1
Правильно ли я сделал?
*

igor-008

  • Захожу иногда
  • 61
  • 0 / 0
Добрый день!

Установил 404SEF и не сразу до конца настроил. т.е. ссылки отображались в виде site.ru/index.php/категория/товар. а Яндекс успел проиндексировать несколько страниц в таком виде.
На данный момент ссылка отображается в виде site.ru/категория/товар

Сейчас у меня стоит такой robots.txt
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://www.site.ru/index.php?option=com_xmap&sitemap=1&view=xml

Подойдет ли мне такой robots.txt?
User-agent: *
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index.php
Disallow: /index2.php
Disallow: /vmchk
Disallow: /*?keyword=
Disallow: /*?pop=0
Disallow: /*product-search
Disallow: /*?flypage=
Disallow: /cart
Disallow: /*?
Sitemap: http://www.site.ru/index.php?option=com_xmap&sitemap=1&view=xml

И еще есть папки Links (ссылки в формате html)

Стоит ли закрывать images?
Links не надо закрывать?
« Последнее редактирование: 13.03.2012, 16:07:16 от igor-008 »
*

igor-008

  • Захожу иногда
  • 61
  • 0 / 0
Неужели никто не знает?
*

Tor77

  • Осваиваюсь на форуме
  • 15
  • 0 / 0
Здравствуйте! Подскажите, пожалуйста! У меня на сайте товары помимо того, что находятся  в категориях, есть еще и в подкатегориях. Пример для понимания: товар "Ковер Мальта" находится в категории "ковры" и еще одновременно в подкатегории "маленького размера". Т.е. этот ковер Малта есть в /ковры/ковер Мальта и /ковры/маленького размера/ковер Мальта. Получается дубль товара. Стоит ли этот дубль  убирать из индексации в robots? И если да, то как это сделать? Прописать Disallow: /маленького размера/?
*

gogagidze

  • Осваиваюсь на форуме
  • 21
  • 0 / 0
Здравствуйте,
может быть кто поможет разобраться...
вот уже месяц как робот обходит магазин но находит почему-то всего одну страницу - www.мойсайт.ru, подскажите пожалуйста что тут не так? На другом сайте для всех роботов такой же робот.тхт и там робот нашел намного больше страниц.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?page=shop
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: мойсайт.ru
*

Sedoy

  • Давно я тут
  • 897
  • 87 / 10
  • Интересно,в какой кодировке пишут врачи?
вам не подойдет этот роботс, у вас адреса не чпу и имеют вид
?page=shop.browse&category_id=15
?page=shop.product_details&flypage=flypage.tpl&product_id=50&category_id=15

роботс выше для сайт где стоит sh404

т.е. только если стоит sh404, а если роутер нельзя?
если да, то почему?

кста, и все равно не понятно какая связь с SEF
Что б правильно задать вопрос - нужно знать на него ответ!
FAQ по Joomla!
Где скачать шаблоны Joomla Статьи и обзоры Желаю Вам здоровья в личной жизни - живите долго и часто :)
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
Sedoy, там в роботсе есть строчки Disallow: /*? и Disallow: /index.php соответственно если SEF не включен, то весь сайт закроется от индексации.
Роутер...можно, но править надо роботс в зависимости от урлов. Чтобы сказать точнее нужен или адрес сайта или примеры ссылок.

Поэтому ко всем воспрашающим обращаюсь - к своему роботсу приводите примеры ссылок, в противном случае помощь будет пальцем в небо.
*

den_caruk

  • Захожу иногда
  • 64
  • 2 / 0
Здравствуйте, подскажите пожалуйста,  как закрыть от индексации такое
site.com/index/category/?keyword=&limitstart=
site.com/index/category/?limit=5&start=45
или можно закрыть просто все после знака ?
Disallow:  /?*
так будет правильно или
Disallow: /*?
А то в индексе Google упорно сидят дубли с такими значками
*

Gaffer

  • Осваиваюсь на форуме
  • 19
  • 0 / 0
Приветствую.
Имею сайт-магазин на Joomla 1.5 + VM + родной SEF

вначале, когда только запускался сайт и заносился контент, работал стандартный роботс - в итоге проиндексировалось множество ненужных страниц (почта всякая, страницы для печати, какой-то поиск и дубли vmcchk). Можно сказать, что заметил поздно эту беду - вэбмастер/разработчик говорит, что стандартного робота должно хватать, а ссылки на почтовые формы, страницы печати и пр., это хорошо, так как тоже ведут на сайт.

В итоге написал такой роботс - пока непонятно, как себя проявит:
Спойлер
[свернуть]
В роботсе нет карты сайта, т.к. вэбмастер/разработчик рассказывает, что это абсолютно лишняя приблуда в моём случае - публиковать карту на сайте нет смысла, так как используется подобное меню.

Какое ваше мнение?
« Последнее редактирование: 02.07.2012, 08:37:18 от Gaffer »
*

danik.html

  • Живу я здесь
  • 2650
  • 353 / 4
Здравствуйте, подскажите пожалуйста,  как закрыть от индексации такое
site.com/index/category/?keyword=&limitstart=
site.com/index/category/?limit=5&start=45
или можно закрыть просто все после знака ?
Disallow:  /?*
так будет правильно или
Disallow: /*?
А то в индексе Google упорно сидят дубли с такими значками


Я не спец в роботсе. Но могу рассудить так:
Нам нужно закрыть страницы типа /blabla?blabla
следовательно, пишем
Код
Disallow: /*?*

Разве нет?
【Мегапак Virtuemart:
 • метатеги (description,keywords)
 • заголовки (title)
 • красивые алиасы (чпу) без тормозов и дублей!
*

secur

  • Осваиваюсь на форуме
  • 10
  • 0 / 0
всё индексируется, при условии что урлы ЧПУ (ну например sh404 стоит). если SEF не стоит, то практически все закроет от индексации.
вот окончательный вариант (на данный момент)
Спойлер
[свернуть]


А если например вместо sh404 стоит JoomSEF то проблем не возникнет? И еще интересно поможет ли данный вариант решения проблемы закрыть от индексации странички такого содержания:
(На изображении дубль странички без сформированной ЧПУ ссылки и без основного оформления, почему-то такие дубли индексируются охотней чем нормальные страницы с чпу)
« Последнее редактирование: 05.09.2012, 11:41:02 от secur »
*

slava088

  • Захожу иногда
  • 79
  • 1 / 0
Значение
Disallow: */feed/*
закрывает Latest Products from Category
Иногда не понятно, что лучше закрытие дублей или все же плюсы от индексации больше
*

Apposym

  • Осваиваюсь на форуме
  • 39
  • 1 / 0
  • Не ругайтесь пжлста, я ЧАЙНИК!
Эхх а уменя сколько таких ссылок оказывается :o katalog-tovarov.html?page=shop.product_details&flypage=flypage.tpl&product_id=183&category_id=8
и таких katalog-tovarov.html?page=shop.browse&category_id=14
sh404SEF поставил
добавил Disallow: /*?* в robots.txt посмотрим результат  *DRINK*

User-agent: *
Disallow: /administrator/
Disallow: /*?*
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /index.php
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.сайт.ru
Sitemap: http://www.сайт.ru/sitemap.xml
« Последнее редактирование: 03.12.2012, 19:29:09 от Apposym »
*

Edikxp

  • Осваиваюсь на форуме
  • 32
  • 0 / 0
У меня магазин на VirtueMart там товаров на 3000 , короче мне эти дубли уже начали снится, я уже и так и так закрывал но всеравно  роботы както находят ненужные ссылки, Google влепил кучу санкций, пришлось менять домен. Вообщем сделал очень просто,  создал карту сайту со всеми ссылками и закрыл все от индексации.

User-agent: *

Disallow:

Host: www.site.com.ua
Sitemap: http://www.site.com.ua/sitemap.xml

*

slava088

  • Захожу иногда
  • 79
  • 1 / 0
И сколько страниц в индексе?
*

Edikxp

  • Осваиваюсь на форуме
  • 32
  • 0 / 0
И сколько страниц в индексе?

Ну я еще не знаю, я пока жду чтоб старый домен пропал из индекса, и буду открывать новый ... Тут главное проверить есть ли все ссылки в карте сайте , у меня там их 3000, так что я  думаю по идее должны быть все ссылки. На старом домене всего было около 1000 старниц ...

Еще один немало важный момент это грамотный router.php. 
« Последнее редактирование: 11.01.2013, 17:28:17 от Edikxp »
*

vschok

  • Новичок
  • 6
  • 0 / 0
Joomla 1.5 +VirtueMart + sh404SEF

Народ прошу помощи! !

В Инструменты для веб-мастеров    Google...


  • Просканировано за все время :       3 173
  • Заблокировано в файле robots.txt:   2 478
  • Проиндексировано всего:               935
  • Не выбрано:                                  739
  • Удалено:                                      10


При наборе в Google search: site:www.gastropimak.de   : 1.290 страниц!
Индексирует мусор типа index.php? , component, index.php

Просмотрите пожалуйста все ли в порядке с robots.txt!?
Малек переборщил кажется?

Спойлер
[свернуть]
*

zedzeal

  • Захожу иногда
  • 81
  • 0 / 0
вбил в Google запрос: https://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%A1%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5%20%D0%B7%D0%B0%D0%BA%D0%B0%D0%B7%D0%B0%20%E2%80%94%20Confirmed%20by%20shopper

и что мы видим? информацию о заказах! как избежать попадания в индекс такой информации?
*

ELLE

  • Глобальный модератор
  • 4510
  • 893 / 0
жесть...
каким образом у вас открыта эта инфа для не авторизованных?
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Каким плагином можно закрыть внешние ссылки?

Автор gorbi_U

Ответов: 4
Просмотров: 1164
Последний ответ 25.02.2023, 02:29:35
от olegon
Странные дубли

Автор Lemonez

Ответов: 3
Просмотров: 1651
Последний ответ 03.09.2022, 23:02:10
от Alexeyman
Роботу Googlebot заблокирован доступ в файле robots.txt

Автор illimited

Ответов: 3
Просмотров: 1777
Последний ответ 29.05.2022, 14:57:55
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 25
Просмотров: 12378
Последний ответ 17.05.2022, 01:22:12
от kabban
Закрыть страницу со знаком? от индексации

Автор Андрей Нестеров

Ответов: 2
Просмотров: 748
Последний ответ 28.02.2022, 22:38:44
от Андрей Нестеров