0 Пользователей и 1 Гость просматривают эту тему.
  • 447 Ответов
  • 200901 Просмотров
*

stendapuss

  • Давно я тут
  • 945
  • 20 / 0
  • Valera Stankevich
Правильной ли будет директива в роботс?  Disallow: /*all чтобы закрыть ссылки типа http://fmd-online.com/biblioteka/all/page2
Правильно будет прописать директиву и проверить на сервисе яндекса. При том что, там все пишется и проверяется.
 А не верить нам на слово.
https://www.google.ru/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D1%8C%20robots.txt%20%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81
*

Alona de

  • Осваиваюсь на форуме
  • 34
  • 0 / 0
Правильно будет прописать директиву и проверить на сервисе яндекса. При том что, там все пишется и проверяется.
 А не верить нам на слово.
https://www.google.ru/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D1%8C%20robots.txt%20%D1%8F%D0%BD%D0%B4%D0%B5%D0%BA%D1%81
Проверку прошел все норм, ошибок нет, не уверена что правильно закрыла страницы.
*

Sergey2

  • Давно я тут
  • 651
  • 15 / 1
Там можно ввести страницу и посмотреть, будет ли она закрытой или открытой
*

dancan

  • Осваиваюсь на форуме
  • 32
  • 0 / 0
Привет, посмотрите не наложал ли я с robot.txt для VM2 интернет-магазина
Спойлер
[свернуть]
так же приветствутюся советы!! ^-^ ^-^
*

Sergey2

  • Давно я тут
  • 651
  • 15 / 1
Думаю лучше открыть картинки и CSS файлы
*

misha810

  • Новичок
  • 3
  • 0 / 0
Думаю лучше открыть картинки и CSS файлы
Да в нынешних реалиях CSS открывают
*

Sedoy

  • Давно я тут
  • 897
  • 87 / 10
  • Интересно,в какой кодировке пишут врачи?
что нибудь добавилось в Joomla 3.xx, что нужно учитывать в robots
или можно использовать "старый" вариант, под Joomla 1.5xx, который раньше работал на сайте?
 
Что б правильно задать вопрос - нужно знать на него ответ!
FAQ по Joomla!
Где скачать шаблоны Joomla Статьи и обзоры Желаю Вам здоровья в личной жизни - живите долго и часто :)
*

Legran88

  • Захожу иногда
  • 72
  • 0 / 0
Здравствуйте, столкнулся с такой проблемой,  как прописать правило, чтобы все страницы, начинающиеся с:
http://trance-sound.ru/index.php?option=com_commedia&format=raw...
Были запрещены к индексации.
Спасибо.
*

kouichiro

  • Осваиваюсь на форуме
  • 20
  • 1 / 0
Здравствуйте,
Гугл говорит "Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt"
"Заблокированы" все материалы с такими адресами /index.php/15-хххх/16-ххх
Может быть имеет значение, что они у меня оформлены модулем новостей Deluxe News Pro? :dry:
Помогите пожалуйста, что в роботсе блокирует материалы?
Вроде бы и так его уже обкромсала весь. :(

Спойлер
[свернуть]

UPD: Да, это Disallow: /modules/ все перекрывали. Ответ не нужен уже. ^-^
« Последнее редактирование: 05.12.2015, 23:26:32 от kouichiro »
*

AABAAAAA--MNT-FPIC

  • Захожу иногда
  • 58
  • 1 / 1
А кто мне сможет объяснить, а зачем вообще в Joomla по умолчанию этот файл такой?
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Зачем столько перекрыто изначально?
Тот же modules всё равно же потом открывать придётся. Почему сразу не открыт? В чём причина?
*

stendapuss

  • Давно я тут
  • 945
  • 20 / 0
  • Valera Stankevich
А кто мне сможет объяснить, а зачем вообще в Joomla по умолчанию этот файл такой?
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Зачем столько перекрыто изначально?
Тот же modules всё равно же потом открывать придётся. Почему сразу не открыт? В чём причина?
Чтоб робот не тратил время на не нужную инфу. Роботу нужен текст, картинки.
Зачем ему /language/-языковый файл.
/administrator/ панель зачем ему.
/logs/ логи не нужны роботу.
/tmp/  И так далее.
У робота определенное время на сайт.
Пускай он лучше индексирует полезную для индекса инфу, текст картинки.
Все выше перечисленные файлы для индекса и для поисковой выдачи не нужны. В них нет полезной и уникальной инфы. Да помимо этих директорий еще многое закрывать приходиться. дубли допустим. Для каждого сайта свой робот.тхт
Этот файл есть не только на Joomla. Он есть и на других SMS и рукописных сайтах.
К адресу любого сайта допишите robots.txt и удивитесь сколько там понаписано.
https://www.yandex.ru/robots.txt
https://www.google.ru/robots.txt
« Последнее редактирование: 14.12.2015, 18:33:26 от stendapuss »
*

AABAAAAA--MNT-FPIC

  • Захожу иногда
  • 58
  • 1 / 1
А вот тогда такой вопрос, а как исправить, что Google ругается вот на это?

Я же не могу открыть для индексации сайт Яндекса
*

stendapuss

  • Давно я тут
  • 945
  • 20 / 0
  • Valera Stankevich
Яндекс это ссылка на метрику, счетчик (она и не нужна Googleу.
Не получил доступ к изображению может была перегрузка, может файл не доступен. Может закрыт для индекса.
У картинок адреса какие то не такие.
Если на вашей картинке, выше адрес нормальный. Она отображается
« Последнее редактирование: 14.12.2015, 18:49:55 от stendapuss »
*

AABAAAAA--MNT-FPIC

  • Захожу иногда
  • 58
  • 1 / 1
Так как-то реально устранить эти ошибки? Чтобы Google нормально воспринимал? Да, это счётчики. Яндекса и Ливинтернета.
А вот вторая строчка. Это что-то с шрифтом в Joomla не так? Google не видит шрифта этого? Но он же стандартный для Joomla.
*

stendapuss

  • Давно я тут
  • 945
  • 20 / 0
  • Valera Stankevich
Так как-то реально устранить эти ошибки? Чтобы Google нормально воспринимал? Да, это счётчики. Яндекса и Ливинтернета.
А вот вторая строчка. Это что-то с шрифтом в Joomla не так? Google не видит шрифта этого? Но он же стандартный для Joomla.
Гугл может нарыть ссылку не полную. Без одной буквы. У вас по ссылке что открывается?
Да и CSS ему не нужен. Надо чтоб он страницу с материалом видил и читал. К примеру:
Если написано сайт о бананах и Google это читает. Ему не надо в CSS лазить, время убивать. На странице текст уже отображается как надо. Ему надо только понять что сайт адаптирован для планшетов и смартфонов.
Ссылку напишите полностью, может кто подскажет.

В свете последних изменений сайтов и требований надо открыть папку шаблона, CSS откроется тоже. Google будет считать сайт более адоптивным под мобильные.    
http://joomlaforum.ru/index.php?topic=323759.new;topicseen#new

У Google есть функция, ошибки сканирования и далее исправил url.
https://yadi.sk/i/SNEToKQEmEMmm. https://yadi.sk/i/FgnKHz5RmEMoXПокажите в панели веб мастера свои урлы, нужные для индекса. Там же можно страницы добавить для индекса. И проверьте открывается страница или нет.
« Последнее редактирование: 05.02.2016, 15:14:53 от stendapuss »
*

ИЦ Ресурс

  • Осваиваюсь на форуме
  • 10
  • 0 / 0
Добрый день! Подскажите по роботсу, сайт на Joomla 3 с виртмаркт, сейчас такой роботс, есть что добавить-убрать?
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /includes/

Host: resurs-2012.ru
Sitemap: http://resurs-2012.ru/sitemap.xml
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
есть что добавить-убрать?
Зависит от того что вам нужно закрыть или открыть для роботов!
Смотрим страницы в индексе. Ищем всякий мусор и закрываем его в роботс.
*

gunhunter

  • Осваиваюсь на форуме
  • 15
  • 0 / 0
всем привет!
у меня сайт состоит из 50 статических страниц и 1000 карточек товаров
почитал данную тему, написал роботс такого вида:

Спойлер
[свернуть]

а вот так выглядит htaccess

Спойлер
[свернуть]

по идее робот должен видеть 1050 страниц...
но на самом деле, при проверке с помощью программы Netpeak Spider выдает около 20 000 страниц....
хотя дубли вроде как отключены....

что сделано не так?
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
что сделано не так?
А что вам мешает посмотреть какие это страницы и откуда они лезут?
Не знаю как вам, а мне сподручнее XENU... там стразу можно смотреть откуда и какая ссылка появилась, а также показывает битые ссылки (перед сканированием сайта можно поставить любую папку в игнор).
Да, и ещё совет, попробуйте очень удобный и полезный инструмент - "яндекс вебмастер" в особенности "Анализ robots.txt"
*

gunhunter

  • Осваиваюсь на форуме
  • 15
  • 0 / 0
Яндекс вебмастером пользуюсь, там все хорошо
Google вебмастер тоже все хорошо
xenu щас поставлю, гляну....
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Яндекс вебмастером пользуюсь, там все хорошо
Google вебмастер тоже все хорошо
Я бы ещё проверил путь /component/ (именно этот путь без буквы «S» в окончании) частенько оттуда лезут.
Еще можно в новой панели вебмастера сделать выгрузку всех страниц в индексе, посмотреть что из перечисленного не нужно и добавить в роботс.
*

primaservic65

  • Новичок
  • 2
  • 0 / 0
Вроде все правильно. Только зачем для яндекса отдельные "указания", если они идентичные как и для всех "*" ?

Sitemap: http://www.mysite.com/sitemap/xml - здесь имелось ввиду Sitemap: http://www.mysite.com/sitemap.xml ?

Добавьте сайт в панель вебмастера от яндекса, там есть "Анализ robots.txt". Если есть какие проблемы, то там будет написано.
*

primaservic65

  • Новичок
  • 2
  • 0 / 0
ПОМОГИТЕ СОСТАВИТЬ ПРАВИЛЬНЫЙ robots.txt , МОЙ САЙТ http://sin-ppua.storeland.ru , СПАСИБО !
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
ПОМОГИТЕ
следует заменить на "СОСТАВЬТЕ ЗА МЕНЯ"
Вы попробуйте сами, а когда возникнут трудности тогда можно и помочь...
*

nicalf

  • Захожу иногда
  • 58
  • 1 / 0
Добрый день!
В Яндексвебмастере структура страниц следующим образом:

mysite.com/
                /magnitofon

А должно быть:
mysite.com/
                 /shop/
                         /magnitofon

Яндекс индексирует страницу mysite.com/magnitofon

Как через Робот.txt запретить подобную индексацию, проиндексировать:
mysite.com/shop/magnitofon

И изменится ли при этом структура сайта?
*

nicalf

  • Захожу иногда
  • 58
  • 1 / 0
И какая разница если я поставлю слеш после названия директории?

Например:
Disallow: /shop/

Или
Disallow: /shop
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
Как через Робот.txt запретить подобную индексацию, проиндексировать:
mysite.com/shop/magnitofon
Отправить новый сайт или страницу можно тут:
https://webmaster.yandex.ru/addurl.xml
Но вот это не гарантирует, что в следующий ап у вас будет она в индексе.
Проверьте нужную вам страницу в разделе "страницы в индексе".

Запретить страницу mysite.com/magnitofon можно так:
Код
Disallow: /magnitofon$ 

А вообще все вы лентяи, уж простите! ::)
Прочитать и вникнуть в настройку файла роботс много времени не нужно, тем более если вы туда полезли, значит вам это пригодиться ещё не один раз!

Читаем это:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
И пользуемся этим в вебмастере яндекс:
Раздел "Настройка индексирования", вкладка "Анализ robots.txt"
Прям там добавляем нужные правила, и нужные УРЛ для проверки в - "Список URL". Если все верно, копируем то что написали и вставляем в роботс на своем сервере/хостинге.
*

bgg87

  • Захожу иногда
  • 164
  • 2 / 0
  • Истина где-то рядом...
И какая разница если я поставлю слеш после названия директории?

Например:
Disallow: /shop/

Или
Disallow: /shop

Огромная.
1 вариант запретил:
mysite.com/shop/
2 вариант запретил:
mysite.com/shop
и
mysite.com/shop/
*

svarg

  • Захожу иногда
  • 178
  • 1 / 2
Посмотрите пожалуйста мой робот, интернет-магазин новый, ещё ниодной страницы не индексировано.

User-agent: *
Allow: /images/
Allow: /components/com_jshopping/files/img_products/
Allow: /components/com_jshopping/files/img_categories/
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*print*
Disallow: /*print=1
Disallow: /index.php?do=search*
Disallow: /component/search/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /index.php
Disallow: /index.html
Disallow: /xmlrpc/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*lang=ru
Disallow: /print
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?do=search*
Disallow: /*format=
Disallow: /*.pdf
Disallow: /*=rss
Disallow: *mailto
Disallow: /?tp=1
Disallow: *&Itemid
Disallow: *showall=&start
Disallow: *all_ads
Disallow: *user


Host: мойсайт.ru/
« Последнее редактирование: 18.03.2016, 15:12:26 от svarg »
*

kentavr009

  • Новичок
  • 5
  • 0 / 0
Ребята, посоветуйте начинающему. У меня такой роботс
Спойлер
[свернуть]
в яндексе пока в поиске только главная. Загружено 13 страниц и исключено 11 из-за запрещенного index.php. Удалить его или так и должно быть?
P.S. Сайт еще относительно молодой, и индексироваться начал недели 3 назад.
« Последнее редактирование: 13.06.2016, 04:21:39 от kentavr009 »
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Роботу Googlebot заблокирован доступ в файле robots.txt

Автор illimited

Ответов: 3
Просмотров: 1778
Последний ответ 29.05.2022, 14:57:55
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 25
Просмотров: 12378
Последний ответ 17.05.2022, 01:22:12
от kabban
Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 649
Последний ответ 25.07.2021, 21:38:12
от web1
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 665
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 670
Последний ответ 10.07.2020, 13:12:46
от HolySong