0 Пользователей и 1 Гость просматривают эту тему.
  • 34 Ответов
  • 1455 Просмотров
*

uisr

  • Давно я тут
  • 200
  • 0
Команда в robots.txt
« : 05.03.2016, 18:52:02 »
В вебмастере Google появилась вот такая ссылка, как страница с повторяющимся метаописанием.

Скажите, является ли такая ссылка дублирующей. Если да, то как закрыть ее в robots.txt?

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10

Спасибо.
*

kik84

  • Живу я здесь
  • 1278
  • 59
Re: Команда в robots.txt
« Ответ #1 : 05.03.2016, 19:12:30 »
Disallow: /start или по знаку = хотя, по идее # если есть в урле, то это поисковик считает одной страницей с /ekskursii-na-madeire/gid-na-madeire.html, а не ее дублем.
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #2 : 05.03.2016, 19:14:07 »
Ага, спасибо. Но, думаю, лучше закрыть.
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #3 : 05.03.2016, 21:09:41 »
Disallow: /start или по знаку = хотя, по идее # если есть в урле, то это поисковик считает одной страницей с /ekskursii-na-madeire/gid-na-madeire.html, а не ее дублем.

Делал как указано - не помогло.
*

flyingspook

  • Профи
  • 3620
  • 236
Re: Команда в robots.txt
« Ответ #4 : 05.03.2016, 21:23:15 »
Вот так закроет все после .html все что будет дописываться
Код
Disallow: /ekskursii-na-madeire/gid-na-madeire.html*
только с ПС это удалиться со временем не забывайте
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #5 : 05.03.2016, 21:34:08 »
Вот так закроет все после .html все что будет дописываться
Код
Disallow: /ekskursii-na-madeire/gid-na-madeire.html*
только с ПС это удалиться со временем не забывайте

Вы уверены, что правильно написали? В таком порядке в вебмастере показывает, что обе ссылки запрещены. Тут что-то неправильно.
*

flyingspook

  • Профи
  • 3620
  • 236
Re: Команда в robots.txt
« Ответ #6 : 05.03.2016, 22:22:20 »
Вы уверены, что правильно написали? В таком порядке в вебмастере показывает, что обе ссылки запрещены. Тут что-то неправильно.
Вы сами уверены что туда смотрите и то делаете

* на конце означает что все что после HTML запрещено, разрешено только /ekskursii-na-madeire/gid-na-madeire.html
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #7 : 06.03.2016, 01:24:17 »
Вы сами уверены что туда смотрите и то делаете

* на конце означает что все что после HTML запрещено, разрешено только /ekskursii-na-madeire/gid-na-madeire.html

Да, я роботс прописал так, как написано, со звездочкой, но вебмастер показывает, что нужная URL /ekskursii-na-madeire/gid-na-madeire.html запрещен правилом.
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #8 : 06.03.2016, 01:28:02 »
Кажется, то, что вы указали, наоборот запрещает все то, что идет вместе с ссылкой, т.е. все, что после .html запрещено, включая и эту ссылку.

Тут нужно что-то другое прописать.

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
« Последнее редактирование: 06.03.2016, 01:35:39 от uisr »
*

Benefactor

  • Осваиваюсь на форуме
  • 157
  • 0
Re: Команда в robots.txt
« Ответ #9 : 06.03.2016, 10:55:10 »
Ребят, подскажите.
Есть страницы, который заканчиваются на
"https://site.ru/product/category/type/product/buy",
их порядка 100 штук, как их безболезненно закрыть в роботс?
Код:
Код
Disallow: */buy
Так?
При этом страницы вида: "https://site.ru/product/category/type/product"
нормально будут индексироваться?
Системы гарантированного электроснабжения под ключ
*

ELLE

  • Support Team
  • 4605
  • 869
Re: Команда в robots.txt
« Ответ #10 : 06.03.2016, 11:25:44 »

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
Это не закрывается в robots.txt, все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #11 : 06.03.2016, 11:58:17 »
Это не закрывается в robots.txt, все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего
Если после решётки стоит восклицательный знак: #! то это считается AJAX страницей, и ПС превращают этот фрагмент в GET-запрос: ?_escaped_fragment_=, соответственно, индексирует страницу.
Документация на тему
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

kik84

  • Живу я здесь
  • 1278
  • 59
Re: Команда в robots.txt
« Ответ #12 : 06.03.2016, 16:17:03 »
А почему нельзя просто Disallow: /*!
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #13 : 06.03.2016, 16:22:50 »
Да можно, почему бы и нет? Если нужно вырубить индексацию AJAX-страниц полностью.
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

ELLE

  • Support Team
  • 4605
  • 869
Re: Команда в robots.txt
« Ответ #14 : 06.03.2016, 23:52:42 »
Да можно, почему бы и нет? Если нужно вырубить индексацию AJAX-страниц полностью.
Вы вот учите, но сами синтаксиса не знаете.


А все просто - # в robots.txt знак комментирования (все что за символом # в строке - будет пропущено)
! - недопустимый символ

А значит, в конкретном случае можно  запретить (исходя из вашей же ссылки) только
http://www.example.com/?_escaped_fragment_=blog
Disallow: /*escaped_fragment

А вот http://www.example.com/#!blog уже не запретить, потомушта якорь! То, что бота обучили запрашивать
 ?_escaped_fragment_=blog, еще не делает из этой конструкции не якорь
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #15 : 07.03.2016, 11:24:54 »
Цитировать
Вы вот учите, но сами синтаксиса не знаете.
Благодаря "коллективному разуму" форума вероятность ошибки сводится к минимуму. =)
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #16 : 07.03.2016, 11:26:33 »
Хорошо, спасибо всем за разъяснения.
*

flyingspook

  • Профи
  • 3620
  • 236
Re: Команда в robots.txt
« Ответ #17 : 07.03.2016, 11:33:53 »
все что после решетки # считается якорем, для поисковика одна и та же страница, закрывать тут нечего
о чем ранее и писали
Кажется, то, что вы указали, наоборот запрещает все то, что идет вместе с ссылкой, т.е. все, что после .html запрещено, включая и эту ссылку.

Тут нужно что-то другое прописать.

/ekskursii-na-madeire/gid-na-madeire.html#!kmt-start=10 - эта ссылка связана с Komento, т.е. если на нее нажать, то появятся продолжение комментариев. Может это как-то поможет сориентироваться.
start, limit и аналоги если нужно можно и так закрывать
Код
Disallow: /*kmt-start=*
но не факт что ! знак в URL корректно воспримется для закрытия
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #18 : 07.03.2016, 12:07:35 »
но не факт что ! знак в URL корректно воспримется для закрытия
так а ! и не нужно закрывать. как ELLE и написала, проще всего закрыть
Код
Disallow: /*escaped_fragment
тем самым закрыв все возможные дубли из-за #!
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #19 : 07.03.2016, 12:18:24 »
А можно ещё через шаблон закрыть:
Код
if(isset($_GET['_escaped_fragment_']))
{
    JFactory::getDocument()->setMetaData('robots', 'noindex');
}
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

ELLE

  • Support Team
  • 4605
  • 869
Re: Команда в robots.txt
« Ответ #20 : 07.03.2016, 13:35:05 »
А у ТС отдает вообще этот escaped_fragment? Это же пс-ы рекомендуют отдавать по такому параметру контент для индексации, но это не значит, что в Комменто оно так

Учитывая реалии Joomla, к ссылке можно дописать хоть ?_escaped_fragment_, а можно что угодно, сути проблемы это не решает. Решит, может быть в данном случае, только тег каноникал
« Последнее редактирование: 07.03.2016, 13:41:40 от ELLE »
*

uisr

  • Давно я тут
  • 200
  • 0
Re: Команда в robots.txt
« Ответ #21 : 07.03.2016, 13:44:12 »
так а ! и не нужно закрывать. как ELLE и написала, проще всего закрыть
Код
Disallow: /*escaped_fragment
тем самым закрыв все возможные дубли из-за #!

Пробовал ввести эту команду, но все равно не запрещает.

В итоге, как я понял, эта ссылка с якорем не является дублем, так?
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #22 : 07.03.2016, 13:56:26 »
А у ТС отдает вообще этот escaped_fragment?
99% что нет. думаю с escaped_fragment отдается просто точно такая же страница, как и без него. отсюда и дубль. ну а поскольку Яндекс не будет добавлять "что угодно" (я надеюсь :) ), то в данном случае проблема только с ?_escaped_fragment_ , поэтому можно закрыть только это, и все.

хотя конечно в общем случае
Учитывая реалии Joomla
каноникал - это вообще будет универсальное решение для всех случаев. проблема только в том, чтобы понять, какая же ссылка будет канонической :) в разных компонентах - разные методы, и так далее. соответственно нужно будет провести работу по каждому, и одним условием в шаблоне это не ограничится.
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #23 : 07.03.2016, 13:56:47 »
ссылка с якорем не является дублем, так?
да
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #24 : 07.03.2016, 14:36:24 »
Цитировать
ну а поскольку Яндекс не будет добавлять "что угодно" (я надеюсь Azn )
Надейтесь! Яндекс будет добавлять в индекс всё, что не запрещено. А каноникал не работает ничерта с GET параметрами - и это не секрет - нужно его вручную прописывать.
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #25 : 07.03.2016, 14:47:12 »
надеюсь не добавит - это не про индекс, а про ссылку. надеюсь не добавить "что угодно" к ссылке
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
*

Филипп Сорокин

  • Практически профи
  • 1816
  • 138
Re: Команда в robots.txt
« Ответ #26 : 07.03.2016, 14:51:04 »
надеюсь не добавит - это не про индекс, а про ссылку. надеюсь не добавить "что угодно" к ссылке
Во намудрили! Я, кстати, тоже думал над этим. Кто-нибудь на каком-нибудь форуме напишет ссылку: site.ru/article?blablabla и получится дубль страницы. Поэтому на всех моих сайтах я запретил индексацию страниц с GET параметрами вообще, кроме пагинаторов, конечно, и других компонентов, которые не нужно запрещать.
« Последнее редактирование: 07.03.2016, 15:15:37 от Филипп Сорокин »
Ставь лайк, если согласен, и делай репост!

  => мои публикации
    => мои работы
      => спектр моих услуг
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #27 : 07.03.2016, 19:52:41 »
Кто-нибудь на каком-нибудь форуме напишет ссылку: site.ru/article?blablabla и получится дубль страницы

угу, по факту так и получается. ELLE об этом же и написала
Учитывая реалии Joomla, к ссылке можно дописать хоть ?_escaped_fragment_, а можно что угодно



Поэтому на всех моих сайтах я запретил индексацию страниц с GET параметрами вообще
я тоже :)
Код
Disallow: /*?
и пусть весь мир подождет :)
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
*

ELLE

  • Support Team
  • 4605
  • 869
Re: Команда в robots.txt
« Ответ #28 : 07.03.2016, 19:57:36 »
надеюсь не добавить "что угодно" к ссылке
судя по логам бывает, добавляют боты всякую чушь в URL, и с параметрами и без, проверяют таким образом корректность ответа 404. потом если что, в вебмастере предупреждение выносят

у меня на одном заброшенном сайте так даже права слетели :) из-за того что не было отдачи 404
Спойлер
[свернуть]
« Последнее редактирование: 07.03.2016, 20:10:58 от ELLE »
*

dmitry_stas

  • Профи
  • 10059
  • 955
Re: Команда в robots.txt
« Ответ #29 : 07.03.2016, 20:18:50 »
ндя...
Тут дарят бакс просто за регистрацию! Успей получить!
Все советы на форуме раздаю бесплатно, то есть даром. Индивидуально бесплатно консультирую только по вопросам стоимости индивидуальных консультаций
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Правильный robots.txt? [вопросы/обсуждение]

Автор wishlight

Ответов: 422
Просмотров: 174261
Последний ответ 04.08.2017, 13:37:03
от Stasweb
Googlebot, robots.txt и кэш

Автор Paradox

Ответов: 4
Просмотров: 282
Последний ответ 30.05.2017, 13:24:12
от Paradox
В Joomla3 не выводится метатег Robots

Автор 73anticrisis

Ответов: 24
Просмотров: 2384
Последний ответ 30.03.2017, 10:22:08
от Mega-e
Блокирование страниц в файле robots.txt

Автор Millenium_3000

Ответов: 3
Просмотров: 312
Последний ответ 02.01.2017, 22:33:17
от ipugach
[Решено] Google пишет: "URL, запрещенный файлом robots.txt"

Автор Vovansk

Ответов: 2
Просмотров: 2893
Последний ответ 11.12.2016, 00:56:49
от Tikhon