0 Пользователей и 1 Гость просматривают эту тему.
  • 445 Ответов
  • 192176 Просмотров
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Второе.
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

Vortas

  • Осваиваюсь на форуме
  • 29
  • 0 / 0
Как правильно закрыть страницу ошибки 404, если она создана как материал в Joomla?

1. Disallow: /404

2. Disallow: /*404
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Откройте страницу 404 на сайте, скопируйте адрес, вставьте в роботс.

Например:
Disallow: /404.html
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

Vortas

  • Осваиваюсь на форуме
  • 29
  • 0 / 0
Зачем нужна эта директива и что она запрещает:

Disallow: /xmlrpc/

По умолчанию в файле robots у меня её нет.
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Запрещает индексировать папку дырочки в сайт. Она (папка с содержимым) нужна, чтобы управлять сайтом на Joomla через сторонние программы/сервисы. Подробнее гуглите XMLRPC Joomla
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Может кому-то интересно будет. У меня при проверки валидности карты сайта на Яндексе, вылетало "Указанный URL запрещен к индексированию в файле robots.txt"
Карта имела вид: http://сайт/index.php?option=com_xmap&sitemap=1&view=xml
Решил проблему путем удаления из robots.txt - Disallow: /index.php
Сделайте так:
Код
Allow: /index.php?option=com_xmap&sitemap=1&view=xml$
Disallow: /index.php
На сколько знаю это оптимальный вариант, но если не прав исправьте  ^-^
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Всем доброй ночи!

В индексе страницы вида:
Цитировать
/shop/category/1-bmw
/shop/category/product/1-bmw/
/shop/category/1-bmw?limit=5&limitstart=10
/shop/category/1-bmw?limit=10&limitstart=10
/shop/category/1-bmw?limit=15&limitstart=10
...

/shop/category/2-audi
/shop/category/product/2-audi/
/shop/category/product/2-audi/?limit=5&limitstart=10
/shop/category/product/2-audi/?limit=10&limitstart=10
/shop/category/product/2-audi/?limit=15&limitstart=10
...
*Красным отметил дубли

Помогите пожалуйста оптимизировать роботс и исправить ошибки, а то уж очень он огромный вышел  ::)

ROBOTS.TXT:
Спойлер
[свернуть]

Расскажу почему сделан то или иной вариант:

Все категории товаров с описание раздела открываться по адресу:
/shop/category/product/номер-название
но при переходе на след страницу данного раздела, некоторые (как например bmw) отображаются по:
/shop/category/номер-название?limit=10&limitstart=
*где ?limit=10 это количество товаров на странице а limitstart= это страницы.
Причину и решение данного вопроса не нашел поэтому пришлось сделать так:
Цитировать
Allow: /shop/category/1-bmw$
Disallow: /shop/category/1
...
Disallow: /shop/category/0

Далее что касается:
Цитировать
Disallow: /shop/category/product/14-
Disallow: /shop/category/product/17-
и т.д.
Страницы удалены, но все равно открываются и соответственно в индексе...

Да и в .htaccess сделал это:
Код
RewriteRule ^shop/category/1-bmw$ $1/shop/category/product/1-bmw/ [R=301,L]
RewriteRule ^shop/category/2-audi$ $1/shop/category/product/1-audi/ [R=301,L]
и т. д.

P.S. Кто разберется в моей писанине душевный + в карму :)
*

dza

  • Новичок
  • 2
  • 0 / 0
Имеем папку /images, которую я хочу закрыть от индексации в robots.txt с помощью директивы Disallow:/images, но в самой папке images я не хочу закрывать от индексации папку objekti. Как правильно составить директиву, что бы закрыть папку images и все папки, которые входят в неё, кроме папки objekti ?

*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Цитировать
Disallow: /images/
Allow: /images/objekti/

Только проверьте инструментами яндекса и Google.
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

dza

  • Новичок
  • 2
  • 0 / 0
Спасибо, обязательно проверю.
*

FlahsAxel

  • Захожу иногда
  • 210
  • 0 / 0
Карта сайта Xmap.
Вывожу пунктом меню.
Вопрос:
Нужно ли этот пункт закрывать от индексации? Получаем ведь полный дубль всех материалов.
« Последнее редактирование: 02.10.2014, 16:39:18 от FlahsAxel »
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Разве? Я не знаю как выглядит ваша карта сайта и что вы понимаете под дублем, но обычно компонентом Xmap выводится 1 страница с ссылками на все материалы - что является общепринятой картой сайта. И наоборот, карту сайта лучше всего индексировать с самого начала.
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

FlahsAxel

  • Захожу иногда
  • 210
  • 0 / 0
Естественно, карта сайта - 1 страница с ссылками на все материалы.
Обчитавшись "страшилок" про дубли - решил подстраховаться, поэтому и спросил.
На все материалы - ведут ссылки из меню.
Карта сайта Xmap (пунктом меню) - ссылки на все материалы, дублем не считается?
Карту сайта - не всегда выводят пунктом меню, это и не обязательно. Делается для удобства посетителей на больших сайтах.

Цитировать
карту сайта лучше всего индексировать с самого начала.
Это как?

robots.txt - типовой, как здесь описывается. Ссылка на карту присутствует.
Что еще нужно сделать?
« Последнее редактирование: 03.10.2014, 15:24:12 от FlahsAxel »
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Дубль - это не несколько ссылок на одну страницу, а когда одна и та-же страница может открываться по разным путям и при открытии URL не меняется.
Пример:
https://website.com/politics/23-material
https://website.com/1-news/politics/23-material
https://website.com/1-news/2-politics/23-material
https://website.com/index.php?option=com_content&task=view&id=23&Itemid=1


Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

FlahsAxel

  • Захожу иногда
  • 210
  • 0 / 0
Рекомендуется, указывать так:
Код
Sitemap: http://my-site.ru/index.php/site-map.xml
Однако у большинства, в примерах - так:
Код
Sitemap: http://my-site.ru/index.php?option=com_xmap&view=xml&id=1
Или так:
Код
Sitemap: http://my-site.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1

Как правильно?
Или это все - одно и тоже, все правильно?
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Первый пример в 2 вложения. Остальные примеры оба нормальные, всё, что после вопроса - параметры.
Цитировать
http://my-site.ru/index.php?(а тут всякие параметры)
Я всегда по дефолту делал, проблем не было:
Цитировать
index.php?option=com_xmap&view=xml&tmpl=component&id=1
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

FlahsAxel

  • Захожу иногда
  • 210
  • 0 / 0
Код
всё, что после вопроса - параметры.
Каков прок от этих параметров? На что влияют?
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
index.php?option=com_xmap...
- так генерируется ссылка на карту сайта в компоненте Xmap, по адресу /site-map.xml - будет просто ошибка 404

*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
Каков прок от этих параметров? На что влияют?
Параметры указывают, что надо сейчас показать в браузере. Это уже совсем никак к роботс не относится, поищите в Google.
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

Pega

  • Захожу иногда
  • 388
  • 41 / 0
Google рекомендует открыть для индексации файлы js и CSS в robots.txt. Как я понял, в первую очередь,  это касается адаптивных сайтов.
Проверил свой адаптивный сайт тут - проверку не прошел. После того, как открыл для индексации файлы js и CSS в robots.txt, сайт проходит проверку.
*

lopata12

  • Осваиваюсь на форуме
  • 32
  • 0 / 0
прошу помощи понять, манулы читал, вроде запретов нету в ротботе, Но в Google вбемастерс ишет:
Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
Значение: http://www.xn--80agxma......../svedeniya-o-kompanii/98-postanovlenie-pravitelstva-rf-ot-23-sentyabrya-2010-g.-№731.html

думаю может изза кириллического знака "№" в ссылке ? Disallow: /*% - оно запрешает кирилические знаки или знак % все-таки...

сам текст робота:

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the Joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /doc/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /index.php*
Disallow: /index2.php*
Disallow: /*com_mailto   
Disallow: /*pop=   
Disallow: /*lang=ru   
Disallow: /*format=   
Disallow: /*print=   
Disallow: /*task=vote   
Disallow: /*=watermark   
Disallow: /*=download   
Disallow: /*user/   
Disallow: /404*
Disallow: /*?   
Disallow: /*%   
Disallow: /*&     
Disallow: /*tag   
Disallow: /*.pdf   
Disallow: /*.swf   
Disallow: /*print=1   
Disallow: /*=atom   
Disallow: /*=rss
Disallow: /lost-password*
Disallow: /search*   
Sitemap: http://www.xn--80agx...../sitemap.xml
Host: www.xn--80agx....

спасибо.
« Последнее редактирование: 24.01.2015, 13:17:20 от lopata12 »
*

mansan

  • Осваиваюсь на форуме
  • 47
  • 0 / 0
Добрый день,
проиндексировались страницы:
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/68-poly-s-flokami-i-gliterami-blestki.html
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/70-mnogotsvetnye-poly.html
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/69-poly-s-trafaretom.html
Disallow: /*uncategorised - этого достаточно что бы решить проблему, что бы страницы были выкинуты из поиска? или вот так Disallow: /*uncategorised*
и еще вопрос, в robots.txt стоит Disallow: /xmlrpc , но страница http://polistroi4u.ru/xmlrpc.php проиндексировалась? почему?
и в чем разница между Disallow: /xmlrpc и Disallow: /xmlrpc/
большое спасибо
« Последнее редактирование: 10.02.2015, 16:57:46 от mansan »
*

yrygvay

  • Завсегдатай
  • 1293
  • 36 / 3
День добрый.
Имеем :
Joomla 3.3.6 + VM 3 + K2 + стандартный seo.
Код
# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the Joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Allow: /components/com_virtuemart/
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /bin/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /*search
Host: reffrus.ru

User-agent: Yandex
Allow: /components/com_virtuemart/
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php
Disallow: /*.pdf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Disallow: /*search

Использую вот такой robots.txt Кто посоветую или нормальный данный образец?!
Смотрю....
*

yrygvay

  • Завсегдатай
  • 1293
  • 36 / 3
index.php?option=com_xmap...
- так генерируется ссылка на карту сайта в компоненте Xmap, по адресу /site-map.xml - будет просто ошибка 404


День добрый. Можно уточнить по индексации карты сайта разбитой на фрагменты?!
Код
http://reffrus.ru/sitemapindex_xml.xml 
Есть вот такой вариант вывода.
Будет Яндекс обходить каждую карту сайта, при том, что файлы карты сайта лежат в корне сайта?!
Смотрю....
*

Pazys

  • Завсегдатай
  • 1740
  • 241 / 4
  • <a>А где я ошибся-то?</b>
В Яндекс вебмастере укажите ему все эти файлы.
Ишак меня нюхал ...
Если помог - плюсуйте в карму.
*

yrygvay

  • Завсегдатай
  • 1293
  • 36 / 3
В Яндекс вебмастере укажите ему все эти файлы.
Немного не верно, оказывается нужно на основной файл, в котором содержатся ссылки на "куски" карты!
Смотрю....
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Добрый день,
проиндексировались страницы:
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/68-poly-s-flokami-i-gliterami-blestki.html
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/70-mnogotsvetnye-poly.html
http://polistroi4u.ru/uslugi/polimernye-poly/poliuretanovye-poly/2-uncategorised/69-poly-s-trafaretom.html
Disallow: /*uncategorised - этого достаточно что бы решить проблему, что бы страницы были выкинуты из поиска? или вот так Disallow: /*uncategorised*
и еще вопрос, в robots.txt стоит Disallow: /xmlrpc , но страница http://polistroi4u.ru/xmlrpc.php проиндексировалась? почему?
и в чем разница между Disallow: /xmlrpc и Disallow: /xmlrpc/
большое спасибо
Читайте документацию Яндекс (про Google не забудте, там уже не помню как)
http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Цитировать
По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:
Код
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
                    # начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:
Код
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
                    # но не запрещает '/example.html'

*

Marat1975

  • Новичок
  • 4
  • 0 / 0
Всем привет! Прошу помощи специалистов. Делаю сайт на Joomla 3 , а файл robots.txt взял от сайта на Joomla 2.5 .
Спойлер
[свернуть]

После добавления в панель Яндекс Вебмастер, вижу предупреждение:
Спойлер
[свернуть]

Кто подскажет, что лишнее я закрыл?
Спасибо всем!
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Всем привет! Прошу помощи специалистов. Делаю сайт на Joomla 3 , а файл robots.txt взял от сайта на Joomla 2.5 .
Спойлер
[свернуть]

Кто подскажет, что лишнее я закрыл?
Спасибо всем!

Не зная сайт, сложно сказать что-то.
Возможно у вас все URL строятся с /index.php, тогда нужно удалить соответствующее правило.
В разделе роботс (яндекс вебмастер), есть проверка ссылок. Вбиваете туда URL исключенных страниц своего сайта и смотрите какое правило их запрещает.

*

Kostelano

  • Захожу иногда
  • 497
  • 48 / 1
Не понимаю, почему Гугль пишет о том, что заблокированы JS и CSS ресурсы, хотя в robots.txt я сделал так:

Код
User-agent: *
Allow: /templates/*.css$
Allow: /templates/*.js$
Allow: /media/*.css$
Allow: /media/*.js$
Disallow: /administrator/
***

Что не так?

Блочатся как раз ресурсы папки /media/

/media/jui/js/jquery.min.js
/media/jui/js/jquery-migrate.min.js
/media/jui/js/jquery-noconflict.js
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 157
Последний ответ 25.07.2021, 21:38:12
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 23
Просмотров: 10665
Последний ответ 17.01.2021, 18:00:11
от Vasiliy111
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 295
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 349
Последний ответ 10.07.2020, 13:12:46
от HolySong
Google Search Console, sitemap.xml и robots.txt

Автор Игарь

Ответов: 7
Просмотров: 541
Последний ответ 20.05.2020, 23:36:20
от Kostelano