Google обнаружил дубли, закрытые в роботс. Неправильный роботс?

  • 18 Ответов
  • 575 Просмотров

0 Пользователей и 1 Гость просматривают эту тему.

Здравствуйте!
Несколько лет все было гуд и тут вдруг Google понаходил дубли.

Вот роботс:

Спойлер
[свернуть]

Google в вебмастерсе ругается на такие вот дубли страниц:

/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
/shops/30-nazvanie-stati.html
/aboutus/3-mainnews/66-nazvanie-stati.html
/home.html
/aboutus/48-nazvanie-stati.html
/catalogue/9-news/40-nazvanie-stati.html


Они же все закрыты? ведь так?

*

neogeek

  • ****
  • 203
  • 18

не так
а как нужно?

Яндекс вебмастер показывает что все закрыто от индексации кроме последнего дубля -  /catalogue/9-news/40-nazvanie-stati.html
Для Google, я так понимаю, смысла прописывать в роботс нет? Он его игнорирует...слышал об этом, но впервые сталкиваюсь на практике...

*

Gosha5767

  • *****
  • 427
  • 21
В Google есть "Инструмент проверки файла robots.txt"
Вставте все ваши урлы и осуществите проверку, будет ясно закрыты они или нет.
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх

В Google есть "Инструмент проверки файла robots.txt"
Вставте все ваши урлы и осуществите проверку, будет ясно закрыты они или нет.

Google показывает что они все открыты.
Яндекс показывает, что закрыты.

То есть, как я понимаю, правила в роботс прописаны верно. Просто Google их игнорирует.
Ссылок на эти дубли в интернете нет. Как их Google нашел - черт знает. Но это уже другой вопрос.
Сейчас для меня важно понять как с ними справится. Допустим,  на имеющиеся дубли я пропишу 301 редирект. Но это нужно будет делать каждый раз, когда будут появляться новые страницы на сайте, потому-что robots.txt не работает. ПЕчалька...

*

neogeek

  • ****
  • 203
  • 18

*

Gosha5767

  • *****
  • 427
  • 21
Правил для этих URL для запрета нет, Google правильно говорит.
Вот это правило вставте и проверьте, должно закрыть весь каталог
Disallow: /component/*
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх

Disallow: /component/content*

Disallow: /component/*

в обоих случаях проверка роботс показывает, что дубли доступны для робота.

Добавил еще так: Disallow: /component/content/article/9-news/*

все равно доступны страницы

Подумал, может Google показывает что урлы доступны, так как они уже проиндексированы ним.

Проверил только что добавленную страницу на сайт изменив ее URL на то же, который у дублей страниц. Она еще не в индексе и Google про нее не знает. Но все равно показывает, что она доступна.

Нашел причину появления дублей - компонент для комментирования JComments в каждом комментарии ставит символ решетки, в котором как раз ссылки генерятся типа "/component/content/article/9-news/". Оттуда, по ходу, и остальные дубли полезли.
А Google условия в robots.txt по видимому игнорирует из-за того, что на сайте ссылки вот такие на запрещенные страницы стоят.

*

Gosha5767

  • *****
  • 427
  • 21
Вы все по порядку делали?
Вы добавили правило:
Disallow: /component/*
В файл robots.txt, который на хосинге
А затем обновили в Google вебмастере страницу и проверили   "Инструмент проверки файла robots.txt"
вот эти урл:
/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
И Google выдает: Доступен - такого не может быть.
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх

Вы все по порядку делали?
Вы добавили правило:
Disallow: /component/*
В файл robots.txt, который на хосинге
А затем обновили в Google вебмастере страницу и проверили   "Инструмент проверки файла robots.txt"
вот эти урл:
/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
И Google выдает: Доступен - такого не может быть.

Да. Я проверил. Google подхватил обновленный роботс.
При проверке пишет, что все урлы доступны.

« Последнее редактирование: 26.08.2015, 19:30:23 от Adrian1111 »

*

Gosha5767

  • *****
  • 427
  • 21
Посмотрел и проверил у себя
Надо слеш у урлов убрать, так как в начале стоит слеш
то есть так надо проверять:
component/content/?view=featured&start=25
component/content/?view=featured
component/content/article/3-mainnews/86-nazvanie-stati.html
component/content/article/3-news/mainnews/86-nazvanie-stati.html
component/content/article/9-news/125-nazvanie-stati.html
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх


*

Gosha5767

  • *****
  • 427
  • 21
У меня все нормально, все URL недоступны.
Можете мой роботс попробуете временно поставить, и проверить
Спойлер
[свернуть]
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх

Бесполезно.
Те же правила у меня в роботсе.
Яндекс с моим прежним роботсом спокойно показывал, что дубли закрыты от индексации.

Это мутки Google.

Я отключил компонент, генерирующий дубли и добавил все дубли-урлы на удаление в гугл-вебмастере. Надеюсь, они не вернутся.
Хотя, для пущей уверенности наверное стоит прописать им 301 редирект.

*

Gosha5767

  • *****
  • 427
  • 21
Уберите из файла роботс:
User-Agent: Googlebot
И все будет как надо.
Чистка сайта от дублей в Яндекс и Google.
Удаление ссылок (битых и внешних) на сайте.
Миграция Joomla 1.5 до Joomla 3.хх

Уберите из файла роботс:
User-Agent: Googlebot
И все будет как надо.

красава