Форум русской поддержки Joomla!® CMS
04.12.2016, 14:18:19 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
   
   Начало   Поиск Joomla 3.0 FAQ Joomla 2.5 FAQ Joomla 1.5 FAQ Правила форума Новости Joomla Реклама Войти Регистрация Помощь  
Страниц: [1]   Вниз
  Добавить закладку  |  Печать  
Автор

Google обнаружил дубли, закрытые в роботс. Неправильный роботс?

 (Прочитано 394 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« : 26.08.2015, 14:55:59 »

Здравствуйте!
Несколько лет все было гуд и тут вдруг Google понаходил дубли.

Вот роботс:

Показать текстовый блок

Google в вебмастерсе ругается на такие вот дубли страниц:

/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
/shops/30-nazvanie-stati.html
/aboutus/3-mainnews/66-nazvanie-stati.html
/home.html
/aboutus/48-nazvanie-stati.html
/catalogue/9-news/40-nazvanie-stati.html


Они же все закрыты? ведь так?
Записан
neogeek
Давно я тут
****

Репутация: +18/-2
Offline Offline

Сообщений: 212


« Ответ #1 : 26.08.2015, 16:26:06 »

Они же все закрыты? ведь так?
не так
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #2 : 26.08.2015, 16:34:16 »

не так
а как нужно?

Яндекс вебмастер показывает что все закрыто от индексации кроме последнего дубля -  /catalogue/9-news/40-nazvanie-stati.html
Для Google, я так понимаю, смысла прописывать в роботс нет? Он его игнорирует...слышал об этом, но впервые сталкиваюсь на практике...
Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #3 : 26.08.2015, 16:35:48 »

В Google есть "Инструмент проверки файла robots.txt"
Вставте все ваши урлы и осуществите проверку, будет ясно закрыты они или нет.
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #4 : 26.08.2015, 16:39:30 »

В Google есть "Инструмент проверки файла robots.txt"
Вставте все ваши урлы и осуществите проверку, будет ясно закрыты они или нет.

Google показывает что они все открыты.
Яндекс показывает, что закрыты.

То есть, как я понимаю, правила в роботс прописаны верно. Просто Google их игнорирует.
Ссылок на эти дубли в интернете нет. Как их Google нашел - черт знает. Но это уже другой вопрос.
Сейчас для меня важно понять как с ними справится. Допустим,  на имеющиеся дубли я пропишу 301 редирект. Но это нужно будет делать каждый раз, когда будут появляться новые страницы на сайте, потому-что robots.txt не работает. ПЕчалька...
Записан
neogeek
Давно я тут
****

Репутация: +18/-2
Offline Offline

Сообщений: 212


« Ответ #5 : 26.08.2015, 16:47:16 »

а как нужно?
Disallow: /component/content*
Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #6 : 26.08.2015, 16:48:51 »

Правил для этих URL для запрета нет, Google правильно говорит.
Вот это правило вставте и проверьте, должно закрыть весь каталог
Disallow: /component/*
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #7 : 26.08.2015, 17:02:56 »

Disallow: /component/content*

Disallow: /component/*

в обоих случаях проверка роботс показывает, что дубли доступны для робота.
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #8 : 26.08.2015, 17:07:29 »

Добавил еще так: Disallow: /component/content/article/9-news/*

все равно доступны страницы
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #9 : 26.08.2015, 17:10:04 »

Подумал, может Google показывает что урлы доступны, так как они уже проиндексированы ним.

Проверил только что добавленную страницу на сайт изменив ее URL на то же, который у дублей страниц. Она еще не в индексе и Google про нее не знает. Но все равно показывает, что она доступна.
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #10 : 26.08.2015, 18:12:33 »

Нашел причину появления дублей - компонент для комментирования JComments в каждом комментарии ставит символ решетки, в котором как раз ссылки генерятся типа "/component/content/article/9-news/". Оттуда, по ходу, и остальные дубли полезли.
А Google условия в robots.txt по видимому игнорирует из-за того, что на сайте ссылки вот такие на запрещенные страницы стоят.
Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #11 : 26.08.2015, 18:18:27 »

Вы все по порядку делали?
Вы добавили правило:
Disallow: /component/*
В файл robots.txt, который на хосинге
А затем обновили в Google вебмастере страницу и проверили   "Инструмент проверки файла robots.txt"
вот эти урл:
/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
И Google выдает: Доступен - такого не может быть.
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #12 : 26.08.2015, 18:23:36 »

Вы все по порядку делали?
Вы добавили правило:
Disallow: /component/*
В файл robots.txt, который на хосинге
А затем обновили в Google вебмастере страницу и проверили   "Инструмент проверки файла robots.txt"
вот эти урл:
/component/content/?view=featured&start=25
/component/content/?view=featured
/component/content/article/3-mainnews/86-nazvanie-stati.html
/component/content/article/3-news/mainnews/86-nazvanie-stati.html
/component/content/article/9-news/125-nazvanie-stati.html
И Google выдает: Доступен - такого не может быть.

Да. Я проверил. Google подхватил обновленный роботс.
При проверке пишет, что все урлы доступны.

« Последнее редактирование: 26.08.2015, 18:30:23 от Adrian1111 » Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #13 : 26.08.2015, 18:34:55 »

Посмотрел и проверил у себя
Надо слеш у урлов убрать, так как в начале стоит слеш
то есть так надо проверять:
component/content/?view=featured&start=25
component/content/?view=featured
component/content/article/3-mainnews/86-nazvanie-stati.html
component/content/article/3-news/mainnews/86-nazvanie-stati.html
component/content/article/9-news/125-nazvanie-stati.html
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #14 : 26.08.2015, 18:36:49 »

убран слэш
Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #15 : 26.08.2015, 18:51:19 »

У меня все нормально, все URL недоступны.
Можете мой роботс попробуете временно поставить, и проверить
Показать текстовый блок
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #16 : 26.08.2015, 19:09:22 »

Бесполезно.
Те же правила у меня в роботсе.
Яндекс с моим прежним роботсом спокойно показывал, что дубли закрыты от индексации.

Это мутки Google.

Я отключил компонент, генерирующий дубли и добавил все дубли-урлы на удаление в гугл-вебмастере. Надеюсь, они не вернутся.
Хотя, для пущей уверенности наверное стоит прописать им 301 редирект.
Записан
Gosha5767
Завсегдатай
*****

Репутация: +20/-0
Offline Offline

Пол: Мужской
Сообщений: 413



« Ответ #17 : 27.08.2015, 18:43:48 »

Уберите из файла роботс:
User-Agent: Googlebot
И все будет как надо.
Записан
Adrian1111
Давно я тут
****

Репутация: +1/-0
Offline Offline

Сообщений: 250


« Ответ #18 : 28.08.2015, 12:58:02 »

Уберите из файла роботс:
User-Agent: Googlebot
И все будет как надо.

красава
Записан
Страниц: [1]   Вверх
  Добавить закладку  |  Печать  
 
Перейти в:  

Powered by SMF 1.1.21 | SMF © 2006, Simple Machines

Joomlaforum.ru is not affiliated with or endorsed by the Joomla! Project or Open Source Matters.
The Joomla! name and logo is used under a limited license granted by Open Source Matters
the trademark holder in the United States and other countries.

LiveInternet