Команда в robots.txt

  • 34 Ответов
  • 1366 Просмотров

0 Пользователей и 1 Гость просматривают эту тему.

*

Оффлайн uisr

Команда в robots.txt
« : 05.03.2016, 20:52:02 »
В вебмастере Google появилась вот такая ссылка, как страница с повторяющимся метаописанием.

Скажите, является ли такая ссылка дублирующей. Если да, то как закрыть ее в robots.txt?

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10

Спасибо.

*

Оффлайн kik84

Re: Команда в robots.txt
« Ответ #1 : 05.03.2016, 21:12:30 »
Disallow: /start или по знаку = хотя, по идее # если есть в урле, то это поисковик считает одной страницей с /ekskursii-na-madeire/gid-na-madeire.html, а не ее дублем.

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #2 : 05.03.2016, 21:14:07 »
Ага, спасибо. Но, думаю, лучше закрыть.

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #3 : 05.03.2016, 23:09:41 »
Disallow: /start или по знаку = хотя, по идее # если есть в урле, то это поисковик считает одной страницей с /ekskursii-na-madeire/gid-na-madeire.html, а не ее дублем.

Делал как указано - не помогло.

*

Оффлайн flyingspook

Re: Команда в robots.txt
« Ответ #4 : 05.03.2016, 23:23:15 »
Вот так закроет все после .html все что будет дописываться
Disallow: /ekskursii-na-madeire/gid-na-madeire.html*только с ПС это удалиться со временем не забывайте

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #5 : 05.03.2016, 23:34:08 »
Вот так закроет все после .html все что будет дописываться
Disallow: /ekskursii-na-madeire/gid-na-madeire.html*только с ПС это удалиться со временем не забывайте

Вы уверены, что правильно написали? В таком порядке в вебмастере показывает, что обе ссылки запрещены. Тут что-то неправильно.

*

Оффлайн flyingspook

Re: Команда в robots.txt
« Ответ #6 : 06.03.2016, 00:22:20 »
Вы уверены, что правильно написали? В таком порядке в вебмастере показывает, что обе ссылки запрещены. Тут что-то неправильно.
Вы сами уверены что туда смотрите и то делаете

* на конце означает что все что после HTML запрещено, разрешено только /ekskursii-na-madeire/gid-na-madeire.html

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #7 : 06.03.2016, 03:24:17 »
Вы сами уверены что туда смотрите и то делаете

* на конце означает что все что после HTML запрещено, разрешено только /ekskursii-na-madeire/gid-na-madeire.html

Да, я роботс прописал так, как написано, со звездочкой, но вебмастер показывает, что нужная URL /ekskursii-na-madeire/gid-na-madeire.html запрещен правилом.

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #8 : 06.03.2016, 03:28:02 »
Кажется, то, что вы указали, наоборот запрещает все то, что идет вместе с ссылкой, т.е. все, что после .html запрещено, включая и эту ссылку.

Тут нужно что-то другое прописать.

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
« Последнее редактирование: 06.03.2016, 03:35:39 от uisr »

Re: Команда в robots.txt
« Ответ #9 : 06.03.2016, 12:55:10 »
Ребят, подскажите.
Есть страницы, который заканчиваются на
"https://site.ru/product/category/type/product/buy",
их порядка 100 штук, как их безболезненно закрыть в роботс?
Код:
Disallow: */buyТак?
При этом страницы вида: "https://site.ru/product/category/type/product"
нормально будут индексироваться?
Системы гарантированного электроснабжения под ключ

*

Оффлайн ELLE

Re: Команда в robots.txt
« Ответ #10 : 06.03.2016, 13:25:44 »

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
Это не закрывается в robots.txt, все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего

Re: Команда в robots.txt
« Ответ #11 : 06.03.2016, 13:58:17 »
Это не закрывается в robots.txt, все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего
Если после решётки стоит восклицательный знак: #! то это считается AJAX страницей, и ПС превращают этот фрагмент в GET-запрос: ?_escaped_fragment_=, соответственно, индексирует страницу.
Документация на тему
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн kik84

Re: Команда в robots.txt
« Ответ #12 : 06.03.2016, 18:17:03 »
А почему нельзя просто Disallow: /*!

Re: Команда в robots.txt
« Ответ #13 : 06.03.2016, 18:22:50 »
Да можно, почему бы и нет? Если нужно вырубить индексацию AJAX-страниц полностью.
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн ELLE

Re: Команда в robots.txt
« Ответ #14 : 07.03.2016, 01:52:42 »
Да можно, почему бы и нет? Если нужно вырубить индексацию AJAX-страниц полностью.
Вы вот учите, но сами синтаксиса не знаете.


А все просто - # в robots.txt знак комментирования (все что за символом # в строке - будет пропущено)
! - недопустимый символ

А значит, в конкретном случае можно  запретить (исходя из вашей же ссылки) только
http://www.example.com/?_escaped_fragment_=blog
Disallow: /*escaped_fragment

А вот http://www.example.com/#!blog уже не запретить, потомушта якорь! То, что бота обучили запрашивать
 ?_escaped_fragment_=blog, еще не делает из этой конструкции не якорь

Re: Команда в robots.txt
« Ответ #15 : 07.03.2016, 13:24:54 »
Цитировать
Вы вот учите, но сами синтаксиса не знаете.
Благодаря "коллективному разуму" форума вероятность ошибки сводится к минимуму. =)
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #16 : 07.03.2016, 13:26:33 »
Хорошо, спасибо всем за разъяснения.

*

Оффлайн flyingspook

Re: Команда в robots.txt
« Ответ #17 : 07.03.2016, 13:33:53 »
все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего
о чем ранее и писали
Кажется, то, что вы указали, наоборот запрещает все то, что идет вместе с ссылкой, т.е. все, что после .html запрещено, включая и эту ссылку.

Тут нужно что-то другое прописать.

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
start, limit и аналоги если нужно можно и так закрывать
Disallow: /*kmt-start=*но не факт что ! знак в URL корректно воспримется для закрытия

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #18 : 07.03.2016, 14:07:35 »
но не факт что ! знак в URL корректно воспримется для закрытия
так а ! и не нужно закрывать. как ELLE и написала, проще всего закрыть
Disallow: /*escaped_fragmentтем самым закрыв все возможные дубли из-за #!
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций

Re: Команда в robots.txt
« Ответ #19 : 07.03.2016, 14:18:24 »
А можно ещё через шаблон закрыть:
if(isset($_GET['_escaped_fragment_']))
{
    JFactory::getDocument()->setMetaData('robots', 'noindex');
}
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн ELLE

Re: Команда в robots.txt
« Ответ #20 : 07.03.2016, 15:35:05 »
А у ТС отдает вообще этот escaped_fragment? Это же пс-ы рекомендуют отдавать по такому параметру контент для индексации, но это не значит, что в Комменто оно так

Учитывая реалии Joomla, к ссылке можно дописать хоть ?_escaped_fragment_, а можно что угодно, сути проблемы это не решает. Решит, может быть в данном случае, только тег каноникал
« Последнее редактирование: 07.03.2016, 15:41:40 от ELLE »

*

Оффлайн uisr

Re: Команда в robots.txt
« Ответ #21 : 07.03.2016, 15:44:12 »
так а ! и не нужно закрывать. как ELLE и написала, проще всего закрыть
Disallow: /*escaped_fragmentтем самым закрыв все возможные дубли из-за #!

Пробовал ввести эту команду, но все равно не запрещает.

В итоге, как я понял, эта ссылка с якорем не является дублем, так?

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #22 : 07.03.2016, 15:56:26 »
А у ТС отдает вообще этот escaped_fragment?
99% что нет. думаю с escaped_fragment отдается просто точно такая же страница, как и без него. отсюда и дубль. ну а поскольку Яндекс не будет добавлять "что угодно" (я надеюсь :) ), то в данном случае проблема только с ?_escaped_fragment_ , поэтому можно закрыть только это, и все.

хотя конечно в общем случае
Учитывая реалии Joomla
каноникал - это вообще будет универсальное решение для всех случаев. проблема только в том, чтобы понять, какая же ссылка будет канонической :) в разных компонентах - разные методы, и так далее. соответственно нужно будет провести работу по каждому, и одним условием в шаблоне это не ограничится.
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #23 : 07.03.2016, 15:56:47 »
ссылка с якорем не является дублем, так?
да
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций

Re: Команда в robots.txt
« Ответ #24 : 07.03.2016, 16:36:24 »
Цитировать
ну а поскольку Яндекс не будет добавлять "что угодно" (я надеюсь Azn )
Надейтесь! Яндекс будет добавлять в индекс всё, что не запрещено. А каноникал не работает ничерта с GET параметрами - и это не секрет - нужно его вручную прописывать.
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #25 : 07.03.2016, 16:47:12 »
надеюсь не добавит - это не про индекс, а про ссылку. надеюсь не добавить "что угодно" к ссылке
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций

Re: Команда в robots.txt
« Ответ #26 : 07.03.2016, 16:51:04 »
надеюсь не добавит - это не про индекс, а про ссылку. надеюсь не добавить "что угодно" к ссылке
Во намудрили! Я, кстати, тоже думал над этим. Кто-нибудь на каком-нибудь форуме напишет ссылку: site.ru/article?blablabla и получится дубль страницы. Поэтому на всех моих сайтах я запретил индексацию страниц с GET параметрами вообще, кроме пагинаторов, конечно, и других компонентов, которые не нужно запрещать.
« Последнее редактирование: 07.03.2016, 17:15:37 от Филипп Сорокин »
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #27 : 07.03.2016, 21:52:41 »
Кто-нибудь на каком-нибудь форуме напишет ссылку: site.ru/article?blablabla и получится дубль страницы

угу, по факту так и получается. ELLE об этом же и написала
Учитывая реалии Joomla, к ссылке можно дописать хоть ?_escaped_fragment_, а можно что угодно



Поэтому на всех моих сайтах я запретил индексацию страниц с GET параметрами вообще
я тоже :)
Disallow: /*?и пусть весь мир подождет :)
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций

*

Оффлайн ELLE

Re: Команда в robots.txt
« Ответ #28 : 07.03.2016, 21:57:36 »
надеюсь не добавить "что угодно" к ссылке
судя по логам бывает, добавляют боты всякую чушь в URL, и с параметрами и без, проверяют таким образом корректность ответа 404. потом если что, в вебмастере предупреждение выносят

у меня на одном заброшенном сайте так даже права слетели :) из-за того что не было отдачи 404
Спойлер
[свернуть]
« Последнее редактирование: 07.03.2016, 22:10:58 от ELLE »

*

Оффлайн dmitry_stas

Re: Команда в robots.txt
« Ответ #29 : 07.03.2016, 22:18:50 »
ндя...
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций