0 Пользователей и 1 Гость просматривают эту тему.
  • 445 Ответов
  • 192129 Просмотров
*

Stasweb

  • Завсегдатай
  • 1457
  • 23 / 0
Удалять ненужные ссылки с кэша и ждать пока проиндексирует заново.
*

Edward_m

  • Захожу иногда
  • 146
  • 0 / 0
Удалять ненужные ссылки с кэша и ждать пока проиндексирует заново.

С какого именно кэша удалять ссылки? как это сделать то? :-(
*

Stasweb

  • Завсегдатай
  • 1457
  • 23 / 0
У Google есть Search Console там есть пункт меню Индекс Google и в нем Удалить URL-адреса.
У яндекса есть web master там пункт меню Инструменты и в нем Удалить URL.
Удаляете и ждете нового обхода.
В Search Console могут появится ошибки что страница заблокирована (Просто помечайте как исправленные).
*

teddy_spb

  • Новичок
  • 6
  • 0 / 0
Всем привет. ребят подскажите как правильно запретить роботу Яндекс индексировать такие адреса


http://site.ru/classifieds-search.feed?cid=0&order=price&ord_t=asc&type=atom
*

stendapuss

  • Давно я тут
  • 942
  • 20 / 0
  • Valera Stankevich
classifieds-search.feed?cid=0&order=price&ord_t=asc&type=atom
А что запретить то тип: ,0&order,price&ord,atom
Если все такого вида закройте типа Disallow: *search
Не понятно что надо.
*

teddy_spb

  • Новичок
  • 6
  • 0 / 0
А что запретить то тип: ,0&order,price&ord,atom
Если все такого вида закройте типа Disallow: *search
Не понятно что надо.

да я сам еще не понял, по ссылкам открываются текстовые файлы, весь поиск то я думаю не надо закрывать
*

stendapuss

  • Давно я тут
  • 942
  • 20 / 0
  • Valera Stankevich
search
Зачем вам поиск по сайту в поиске. В поиске должны быть страницы один раз, без всякого поиска по сайту.
*

almika

  • Захожу иногда
  • 325
  • 27 / 0
Всем привет. ребят подскажите как правильно запретить роботу Яндекс индексировать такие адреса


http://site.ru/classifieds-search.feed?cid=0&order=price&ord_t=asc&type=atom

Эти ссылки формируются для того, чтобы сторонние сайты могли публиковать ваши новости.
Запрет индексирования не приведет к тому, что ссылки исчезнут, просто поисковики перестанут их обрабатывать.

Если вы не хотите, чтобы кто-то использовал ваш контент, то можно просто отключить генерацию этих ссылок.
Ищите фразу "joomla отключить atom и rss"

Удачи

*

teddy_spb

  • Новичок
  • 6
  • 0 / 0
Ребят спасибо за ответы. теперь я стал понимать чуть-чуть больше)
search закрыл, rss оставлю
*

stendapuss

  • Давно я тут
  • 942
  • 20 / 0
  • Valera Stankevich
rss
Вы проверьте чтоб в RSS не было текста что на страницах сайта. Иначе это будут дубли.
*

Alexbsl

  • Новичок
  • 2
  • 0 / 0
Всем привет!

Подскажите, правильно ли составлен robots.txt для ИМ на VirtueMart 2.5 с ЧПУ:

Главные сомнения вызывают эти строки:

Disallow: /index.php?
Disallow: */by,created_on*
Disallow: */by,product_in_stock*
Disallow: */results*

Смотрел в Яндекс.Вебмастере. Там около 1000 страниц с некачественными ссылками такого вида.


Если все правильно, то какие правила disallow еще задать, чтобы закрыть от индексации больше мусорных страниц?

Нужны ли в индексе такие страницы?

https://www.biosalon.ru/component/virtuemart/?page=shop.browse&category_id=4&manufacturer_id=0&Itemid=13&orderby=product_name&format=feed&type=rss

Также вопрос почему в некачественные ссылки попадают ссылки на картинки, например:

/images/stories/virtuemart/product/dennerlet517.jpg


Сам файл robots.txt

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: */dirDesc
Disallow: */by*product_name
Disallow: */by*product_price
Disallow: /*print=1
Disallow: /index.php?
Disallow: */*created_on*
Disallow: */*product_in_stock*
Disallow: */results*
Disallow: */askquestion*
Disallow: /*error=404
Allow: /
Allow: /index.php?option=com_xmap&sitemap=1&view=xml

User-agent: GoogleBot
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: */dirDesc
Disallow: */by*product_name
Disallow: */by*product_price
Disallow: /*print=1
Disallow: /index.php?
Disallow: */*created_on*
Disallow: */*product_in_stock*
Disallow: */results*
Disallow: */askquestion*
Disallow: /*error=404
Allow: /
Allow: /index.php?option=com_xmap&sitemap=1&view=xml

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: */dirDesc
Disallow: */by*product_name
Disallow: */by*product_price
Disallow: /*print=1
Disallow: /index.php?
Disallow: */*created_on*
Disallow: */*product_in_stock*
Disallow: */results*
Disallow: */askquestion*
Disallow: /*error=404
Allow: /
Allow: /index.php?option=com_xmap&sitemap=1&view=xml

Host: https://www.biosalon.ru
Sitemap: https://www.biosalon.ru/sitemap.xml
« Последнее редактирование: 18.11.2018, 00:36:00 от Alexbsl »
*

sabnok

  • Захожу иногда
  • 126
  • 1 / 0
Подскажите, нужно ли в роботсе закрывать папку media, там куча скриптов и CSS
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Здравствуйте! Подскажите, пожалуйста, как закрыть от поисковиков сайт для слабовидящих?
В Яндекс метрике много таких страниц:
/dokumenty-2
/dokumenty
Как исключить /dokumenty-2 ?
Мой сайт: https://juravlenok75.ru
robots.txt в таком виде появился только сегодня. Был стандартный для Joomla.

Спойлер
[свернуть]
« Последнее редактирование: 17.04.2021, 07:09:59 от bratsk12 »
*

rsn

  • Давно я тут
  • 519
  • 34 / 3
Как исключить /dokumenty-2

Disallow /dokumenty-2

или (более масштабно):

Disallow /*-2$

(любой адрес, завершающийся "-2")
Возможно, будет интересно: Интеграция с Ozon
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Disallow /dokumenty-2

или (более масштабно):

Disallow /*-2$

(любой адрес, завершающийся "-2")
Спасибо!
Но, так мне придется все прописывать. Каждый материал и так далее. Как сказать роботам, что бы они вообще не посещали другую версию сайта?
*

rsn

  • Давно я тут
  • 519
  • 34 / 3
Есть ли какой-то общий отличительный признак в адресах страниц другой версии от всех остальных страниц?
Возможно, будет интересно: Интеграция с Ozon
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Есть ли какой-то общий отличительный признак в адресах страниц другой версии от всех остальных страниц?
Да. Двойка в конце адреса.
-2
Наверно, как Вы подсказали, подойдет правило
Disallow /*-2$

Только, как понимаю $ - это будет значить, что после цифры 2, ничего нет. А если будет php, или html - то проиндексируется?
« Последнее редактирование: 18.04.2021, 13:44:28 от bratsk12 »
*

gartes

  • Завсегдатай
  • 1774
  • 137 / 5
  • Е = mс²
Только, как понимаю $ - это будет значить, что после цифры 2
нет это означает конец строки
*

rsn

  • Давно я тут
  • 519
  • 34 / 3
Только, как понимаю $ - это будет значить, что после цифры 2, ничего нет. А если будет php, или HTML - то проиндексируется?
Да, правильно поняли.
Если у Вас в адресах в конце - указанные суффиксы, можете так сделать:
Код
Disallow /*-2$
Disallow /*-2.php
Disallow /*-2.html



Возможно, будет интересно: Интеграция с Ozon
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Если у Вас в адресах в конце - указанные суффиксы, можете так сделать:
Код
Disallow /*-2$
Disallow /*-2.php
Disallow /*-2.html
Суфиксов нет. ЧПУ включено... но прописать, на всякий случай, думаю можно :)
« Последнее редактирование: 18.04.2021, 14:30:22 от bratsk12 »
*

IToro82

  • Захожу иногда
  • 354
  • 13 / 1
Суфиксов нет. ЧПУ включено... но прописать, на всякий случай, думаю можно :)
тогда лучше единицу прописывать
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
тогда лучше единицу прописывать
Какую единицу?
*

IToro82

  • Захожу иногда
  • 354
  • 13 / 1
Какую единицу?
единица это образно.
Просто представьте что роботы будут игнорить все что заканчивается на 2
А вдруг( ну всякое может быть) у вас материал сам по себе заканчивается на 2?
А в слабовидящей будет -2-2
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Просто представьте что роботы будут игнорить все что заканчивается на 2
А вдруг( ну всякое может быть) у вас материал сам по себе заканчивается на 2?
А в слабовидящей будет -2-2
Я сам двойку прописываю. Стараюсь следить за этим. Двойка только в материалах версии для слабовидящих. Сайт небольшой, можно контролировать.

А вот у меня было в разрешенных так:
Allow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Глянул на днях и увидел, что в поиск полезли и pdf и docx. Закрыл я images корч.
В папке images у меня ВСЕ папки лежат. Все файлы. иконки, пдф, zip. Это, если мне только НОВОСТИ нужно "показать" то исключить надо 100500 папок ))) Пусть так будет ) Сайт с 2015 года как то жил, а robots.txt я на днях только занялся. Был дефолтный.

И оставил так.
Disallow: /images/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /*.js
Allow: /*.css
« Последнее редактирование: 21.04.2021, 12:39:36 от bratsk12 »
*

rsn

  • Давно я тут
  • 519
  • 34 / 3
И оставил так.
Disallow: /images/

Думаю, погорячились ))
Все картинки не надо запрещать  ^-^
Хотя бы так:

Код
Disallow: /images/
Allow: /images/*.jpg
Allow: /images/*.jpeg
Allow: /images/*.png
Allow: /images/*.gif
и т.д.
Возможно, будет интересно: Интеграция с Ozon
*

bratsk12

  • Осваиваюсь на форуме
  • 36
  • 0 / 0
Думаю, погорячились ))
Все картинки не надо запрещать  ^-^
Хотя бы так:

Код
Disallow: /images/
Allow: /images/*.jpg
Allow: /images/*.jpeg
Allow: /images/*.png
Allow: /images/*.gif
и т.д.
Спасибо! Попробую! Посмотрю, что получится.

Вообще, идеально для меня - это вывести только новости сайта, но не очень понимаю, как исключить все что не надо и включить все что надо, по "пути" до них.

Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 152
Последний ответ 25.07.2021, 21:38:12
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 23
Просмотров: 10659
Последний ответ 17.01.2021, 18:00:11
от Vasiliy111
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 294
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 348
Последний ответ 10.07.2020, 13:12:46
от HolySong
Google Search Console, sitemap.xml и robots.txt

Автор Игарь

Ответов: 7
Просмотров: 537
Последний ответ 20.05.2020, 23:36:20
от Kostelano