0 Пользователей и 1 Гость просматривают эту тему.
  • 445 Ответов
  • 192086 Просмотров
*

liveenergy

  • Новичок
  • 6
  • 0 / 0
ELLE, добрый день. Хочу обратится к Вам за помощью по поводу robots
стоит стандартный роутер
сайт : http://protein-max.com.ua

берем например товар :               http://protein-max.com.ua/katalog/details/401/540/cloma-pharma/girosgigateli-cloma-pharma/kupit-methyldrene-25-cloma-pharma-100cap-tsena-otizvi-opisanie.html
также, он доступен по адресу:     http://protein-max.com.ua/katalog/details/401/439/cloma-pharma/kupit-methyldrene-25-cloma-pharma-100cap-tsena-otizvi-opisanie.html
также:                                       http://protein-max.com.ua/katalog/details/401/180/girosgigateli/kupit-methyldrene-25-cloma-pharma-100cap-tsena-otizvi-opisanie.html
также:                                       http://protein-max.com.ua/katalog/details/401/187/girosgigateli/cloma-pharma/kupit-methyldrene-25-cloma-pharma-100cap-tsena-otizvi-opisanie.html

сейчас роботс такой:

User-agent: *
Disallow: /component
host: protein-max.com.ua

также на сайте есть карта сайта, которую я вручную, в формате XML, заносил в Google и в Яндекс: http://protein-max.com.ua/sitemap.html

нашел еще сайт на Joomla, http://www.atletmarket.com.ua с такой же структурой каталога, но страницы товаров, если заходить с разных категорий на один и тот же товар, будут с одинаковыми адресами, т.е. без дублей таких как формируются у меня...

хочется получить консультацию по поводу какой роботс мне сделать, и какие есть мысли о том, как добились исключения дублей конкуренты? Буду очень признателен за ответ! Спасибо!




*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
liveenergy, роботс вам здесь не поможет. Нужно либо роутер править, либо плагин какой-то писать для редиректов.
*

liveenergy

  • Новичок
  • 6
  • 0 / 0
я так понимаю, лучше править роутер? Я совсем не силен в этих делах, по этому спрашиваю - владеете ли вы такими навыками?) Естественно, за вознаграждение
напишите мне в скайпе, пожалуйста : obla4nuy 
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
*

liveenergy

  • Новичок
  • 6
  • 0 / 0
понял, спасибо

тогда можете, пожалуйста, посоветовать правильный роботс, что бы избавиться от "стандартных" дублей, создаваемых VirtueMart на основе моего сайта и его ссылок с ЧПУ

я так понимаю нужно немного изменить текст роботса который в шапке, но не совсем имею представление как именно! Спасибо еще раз!
*

StyleRocket

  • Давно я тут
  • 567
  • 4 / 3
Сейчас в JoomShopping привожу в порядок ссылки, пока сайт полностью закрыл от индекса!
Главный каталог Пункт меню магазин ALL - /shop/......   ДЕЛАЮ все возможное чтоб этот /shop/ нигде не выводился в ссылкам, так как он в скрытом меню. Т.е. благодаря алиасам у товаров ссылки будут от /muzh-odezhda/ и /zhen-odezhda/ и их хочу индексировать
Могу ли прописать Disallow: /shop* или Disallow: /shop/ и открыть индексацию!?
*

StyleRocket

  • Давно я тут
  • 567
  • 4 / 3
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Allow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index.php?
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /*user
Disallow: /component
Allow: /*product
Disallow: /*category
Disallow: /*cart
Disallow: /*search
Disallow: /*wishlist
Disallow: /*?tmpl
Disallow: /404
Disallow: /*.pdf
Disallow: /*search
Disallow: /shop/
Disallow: /shop*
Disallow: /8-icetabs
Disallow: /9-support
Disallow: /7-copyright
Allow: /components/com_jshopping/files/img_products/
Allow: /components/com_jshopping/files/img_categories/
Host: site.ru
Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml

Вопрос, после некоторых изменений таких как внесение Disallow: /index.php?
и переадресации в хтссаксес на без /index.php?
Проблема в Яндексе и Google, я не понимаю какой сайтмэп правильный
/index.php?option=com_xmap&sitemap=1&view=xml
или
тот который сам плагин дает /index.php?option=com_xmap&view=xml&id=1
или вообще такой БЛИН /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Яндекс пишет неверая кодировка ОШИБКА
*

alekcae

  • Захожу иногда
  • 66
  • 0 / 0
  • alekcae
Доброе время суток! Нужна помощь казалось бы в не очень в сложном вопросе, robot.txt. Сломал голову какие варианты не пытался применять yandex бастует хоть плач загоняет мои страницы в 404 ошибки, а отсюда и никакой индексации. Не пропускает даже стандартный для Joomla 1.5
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://site.ru/index.php?option=com_xmap&sitemap=1&view=xml.
После того как убрал звездочку после User-agent: он пропустил, но согласитесь это полная туфта. Буду очень признателен за помощь.
*

Raimonds

  • Осваиваюсь на форуме
  • 19
  • 1 / 0
  • Nhe Offsprings - Cool
Если хотите, чтоб картинки индексировались то да. Трафик с поиска по картинкам так-же присутствует. Все зависит от тематики сайта. И рассматривать надо в индивидуальном порядке
1) Скажем так, у меня на сайте есть галереи скринов, но всю папку images не хотел бы открывать (Полно мусора)!
Если я напишу так:
Код
User-agent: Googlebot-Image
Disallow: /images/
Allow: /images/stories/skren-game/
Allow: /images/stories/logo/
Папка skren-game, logo сработает и images будет закрыта?

2) Насколька я понел чтобы у брать с индекса эти страницы:
dveigri.ru/board-games.html?start=5
dveigri.ru/index.php?start=25
dveigri.ru/index.php?start=45 и.т.д.

Я должен прописать это?
Код
Disallow: /index.php?
Disallow: /board-games.html?

Или хватает Этого:
Код
Disallow: *?start  или проста писать так Disallow: *?

3)Нужно ли указывать - ror.xml и favicon.gif or *.ico?
« Последнее редактирование: 25.12.2012, 14:43:59 от Raimonds »
*

Raimonds

  • Осваиваюсь на форуме
  • 19
  • 1 / 0
  • Nhe Offsprings - Cool
Короче с этим разобрался пишем: Disallow: /*?start* и страницы /index.php?start=45 и.т.д. в Sitemap пропали.

Надо с картинками разобраться!
« Последнее редактирование: 25.12.2012, 15:42:27 от Raimonds »
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Код
User-agent: Googlebot-Image
Allow: /images/stories/skren-game/
Allow: /images/stories/logo/
Disallow: /images/
*

Raimonds

  • Осваиваюсь на форуме
  • 19
  • 1 / 0
  • Nhe Offsprings - Cool
Проста Allow: всегда пишется с начала?

Получается для Yandex это будет выгладить так:
Код
User-agent: YandexImages
Allow: /images/stories/skren-game/
Allow: /images/stories/logo/
Disallow: /images/

Прописывать favicon.gif надо в robots?
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Проста Allow: всегда пишется с начала?
я пишу сначала
Прописывать favicon.gif надо в robots?
нет
*

nalog

  • Осваиваюсь на форуме
  • 21
  • 0 / 0

Спойлер
[свернуть]

Не могли бы подсказать насколько правильно сделан robots
целью было исключить все дубли
« Последнее редактирование: 26.12.2012, 12:29:47 от nalog »
*

Raimonds

  • Осваиваюсь на форуме
  • 19
  • 1 / 0
  • Nhe Offsprings - Cool
ну насколько я понимаю это и должно закрыть твои дубли. Следи за индексом, там видно будет. Как бы чего лишнего не закрыть! :)

Disallow: /index.php?*
Disallow: /*?

Если это папки то Allow: /dd/dd4 по моему их надо прописывать так: Allow: /dd/dd4/
*

nalog

  • Осваиваюсь на форуме
  • 21
  • 0 / 0
ну насколько я понимаю это и должно закрыть твои дубли. Следи за индексом, там видно будет. Как бы чего лишнего не закрыть! :)

Disallow: /index.php?*
Disallow: /*?

Если это папки то Allow: /dd/dd4 по моему их надо прописывать так: Allow: /dd/dd4/
ок спс,
это категории в AdsManager
*

Edikxp

  • Осваиваюсь на форуме
  • 32
  • 0 / 0
Ребят у меня такой вопрос, если есть карта сайта, то зачем тогда закрывать что-то отдельно, если можно просто закрыть весь от индексации ?? Проверить всели есть сылке на карте и все. У меня магазин на VirtueMart там товаров на 3000 , короче мне эти дубли уже начали снится, я уже и так и так закрывал но всеравно  роботы както находят ненужные ссылки, Google влепил кучу санкций, пришлось менять домен. Вообщем сделал очень просто,  создал карту сайту со всеми ссылками и закрыл все от индексации.

User-agent: *

Disallow:

Host: site.com.ua
Sitemap: http://site.com.ua/sitemap.xml
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
ссылки типа http://gidvoyage.com/strany/austria.html#sigProGalleriac94b332e19 не могло быть в индексе Яндекса.
Вы скорее всего имеете в виду страницу http://gidvoyage.com/strany/austria.html - это никак не связано с якорями в ссылках, никак.
Кстати сайт долго открывается, очень.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Варезный шаблон - скрытые ссылки, рерайт контента низкого качества
"Их алгоритмы приняли решение...", хеш в ссылках не при чем
*

Yura Vakulenko

  • Захожу иногда
  • 238
  • 6 / 1
ELLE так почему же тогда из раздела http://gidvoyage.com/strany/ ничего не индексируется(раньше были почти все страны в индексе, теперь осталась одна Испания)? Долго открывался - я проводил некоторые эксперименты. Проверьте сейчас, если не затруднит.

Если хотите закрыть от индекс ссылку  http://gidvoyage.com/strany/austria.html#sigProGalleriac94b332e19 Достаточно написать в роботах Disallow: /strany/austria.html. Все. А якорь в ччылке - это одна и та же страница. Их роботы не учитывают. ELLE же уже ответила вам))))) Да и вообще.. это не сайт у вас.. а бред просто.. без обид.)))
*

arturk

  • Захожу иногда
  • 105
  • 11 / 2
у меня огромный сайт. стоит sh404. если я скидываю все ссылки и они строятся снова на сайт нападают роботы и загружают процессор на сервере за что мне выставляют немалые счета.
почему не пишите про ограничение сканирования сайта по времени
напишите эталонный рабочий файл! специалисты
как запретить индексировать сайт одновременно всем роботам? например как раз в неделю пускать робота яндекса на 2-3 часа а так же Google и других
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
у меня огромный сайт. стоит sh404. если я скидываю все ссылки и они строятся снова на сайт нападают роботы и загружают процессор на сервере за что мне выставляют немалые счета.
почему не пишите про ограничение сканирования сайта по времени
напишите эталонный рабочий файл! специалисты
как запретить индексировать сайт одновременно всем роботам? например как раз в неделю пускать робота яндекса на 2-3 часа а так же Google и других

напоминает такое заявление, как будто здесь берут деньги за регистрацию на данном форуме)) а Joomla коробочная КМС)) Вы заплотили деньги
Если у Вас огромный сайт, тогда почему бы Вам не создать тему в коммерческом отделе, написать ТЗ и требовать с тех кто возьмется за работенку))
У вас получается как будто они должны придумать святой грааль)) для конкретного сайта
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

txi

  • Захожу иногда
  • 55
  • 0 / 0
Делал все как написано на форуме вот проверьте плз все ли правильно?ничего лишнего не вписал?(яндекс не ругается)
Спойлер
[свернуть]
заранее спасибо!
*

arturk

  • Захожу иногда
  • 105
  • 11 / 2
напоминает такое заявление, как будто здесь берут деньги за регистрацию на данном форуме)) а Joomla коробочная КМС)) Вы заплотили деньги
Если у Вас огромный сайт, тогда почему бы Вам не создать тему в коммерческом отделе, написать ТЗ и требовать с тех кто возьмется за работенку))
У вас получается как будто они должны придумать святой грааль)) для конкретного сайта

что за бред неграмотный)
какие еще деньги за robots.txt)))
вопрос был:
как запретить индексировать сайт одновременно всем роботам? например как раз в неделю пускать робота яндекса на 2-3 часа а так же Google и других

вы же господин падки на легкие заработки) и у вас проблемы с финансами) если нужна работа предлагай в личку) я подумаю

по вопросу который я задал могу пояснить:
Частота посещения страниц роботом

Обычно робот посещает страницу сайта исходя из того, как часто изменяется содержание этой страницы. На часто обновляемые страницы робот может ходить каждый день и даже чаще. Например, если это страница новостного сайта. Когда же страница изменяется нечасто, то робот посещает ее один-два раза в неделю. Те страницы, содержимое которых не меняется, все равно посещаются роботом, однако очень редко, не более трех раз в месяц.

При этом за один заход робот запрашивает не более 20-30 страничек с сайта. Это связано с тем, что роботы поисковых систем стараются не загружать сервер своими запросами. На сайт с большим количеством страниц робот ходит часто и каждый раз берет только небольшую «порцию» страниц.

Раньше, для управления частотой посещения роботом страницы веб-мастера использовали тег META NAME="Revizit-after".

Например, запись

META NAME="Revizit-after" CONTENT="2 days"

означала, что робот должен посещать страницу раз в два дня.

Однако сейчас использование тега не оказывает никакого влияния на частоту посещения страницы роботом, робот сам определяет частоту обновления страницы и на основе этого строит свое расписание. (см. эксперимент).
Подробнее: http://www.seonews.ru/masterclasses/robotyi-poiskovyih-sistem/

как быть сейчас? остались ли рычаги управления частотой посещения страниц роботом?
*

arturk

  • Захожу иногда
  • 105
  • 11 / 2
Можно ли ограничить с помощью robots.txt частоту посещения моего сайта роботами?
Да. Для этого существует специальная директива Crawl-delay. Если бот её не поддерживает, но сильно нагружает сервер, имеет смысл запретить вообще боту посещение сайта.

специалисты разъясните пожалуйста
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
arturk, попробуйте прошерстить FAQ по роботс у меня в подписи, многим помогает ;)
*

Maxum

  • Давно я тут
  • 689
  • 32 / 1
или если я прописываю полный путь то это черевато исключением всего /index.php?option=com_adsmanager ?

У Вас сайт в сети? В панелях "Вебмастер" Google и Yandex можно загрузить свой robots.txt, ввести любой URL и проверить, запрещён он к индексации или нет.
*

Mr. Jasper

  • Осваиваюсь на форуме
  • 40
  • 1 / 0
У Вас сайт в сети? В панелях "Вебмастер" Google и Yandex можно загрузить свой robots.txt, ввести любой URL и проверить, запрещён он к индексации или нет.
не забывайте что у Robots.txt есть ограничения на размер....Может вам с ЧПУ поработать?
*

Mr. Jasper

  • Осваиваюсь на форуме
  • 40
  • 1 / 0
И мой вопрос:
Яндекс индексирует сайт с (я не знаю как это называется, кто знает- подскажите) адресом сайта + "/?start=6" и это по ключевому запросу появляется.
Не хотелось бы, чтобы посетитель по ключевику попадал на старые новости вверху сайта. Дак вот, я подумал а что если добавить такую строку в robots.txt
Код
Disallow: /*?start
, где звёздочка запретит индекс "start" полностью. Чревато то это какими то неприятными последствиями и проиндексируется ли потом нормально главная страница сайта ? (скрин прилагается)

*

tas777

  • Захожу иногда
  • 62
  • 0 / 0
У Вас сайт в сети? В панелях "Вебмастер" Google и Yandex можно загрузить свой robots.txt, ввести любой URL и проверить, запрещён он к индексации или нет.
Да сайт в сети. Проверил, запрета нет. Спасибо за подсказку.
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 152
Последний ответ 25.07.2021, 21:38:12
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 23
Просмотров: 10657
Последний ответ 17.01.2021, 18:00:11
от Vasiliy111
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 291
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 348
Последний ответ 10.07.2020, 13:12:46
от HolySong
Google Search Console, sitemap.xml и robots.txt

Автор Игарь

Ответов: 7
Просмотров: 537
Последний ответ 20.05.2020, 23:36:20
от Kostelano