0 Пользователей и 1 Гость просматривают эту тему.
  • 445 Ответов
  • 192058 Просмотров
*

tas777

  • Захожу иногда
  • 62
  • 0 / 0
не забывайте что у Robots.txt есть ограничения на размер....Может вам с ЧПУ поработать?
да с чпу конечно было бы супер, но я вот пока что не хочу эксперементировать, поскольку 100% вылетит из индекса, и sape и liex перестанут выдеть ссылки, а это нехорошо )))
*

metallexportprom

  • Осваиваюсь на форуме
  • 29
  • 0 / 0
В одной теме был совет поставить мета тег noindex на страницу поиска следующим образом:
Цитировать
2. закрываем результаты поиска (иногда на такие страницы ставят ссылки)
Код

<?php if ($option == 'com_search')  : ?>
<meta name="robots" content="noindex"/>
<?php endif; ?>

*в начале нужно определить переменную
Код:

$option = JRequest::getVar('option', null);

код добавить в файл index.php

Это привело к тому, что тег появился, но и остался стандартный <meta name="robots" content="index, follow" />
Т.е. оба там
<meta name="robots" content="noindex"/>
<meta name="robots" content="index, follow" />

Как убрать стандартный?
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
Всем привет.
Интересует директива
Crawl-delay
Статья Яндекс: http://help.yandex.ru/webmaster/?id=1022359

Я недавно переехал из РК в РФ на новый хостинг, хостинг работает быстро, но директива все равно не прописана, и никогда не была.
Вопрос:
Как определить, нуждаемость сайта в данной директиве, стоит ли вообще ее прописывать?
Яндекс пишет:
"Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay"."
но как определить нагрузку?
В панели хостинга есть такая возможность, но я как определить нормальное состояние нагрузки?

Заранее спасибо за ответ

Ох, чуть не забыл:
Цитировать
4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах       между запросами на загрузку страниц (от 1 до 10)
   Crawl-delay: 3
Получается стоит прописывать, и ставить =3?
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
В панели хостинга есть такая возможность, но я как определить нормальное состояние нагрузки?
состояние нагрузки определяется ресурсами, которые предоставляет ваш хостер и ограничиваются вашим тарифным планом

если проблем нет, то Crawl-delay использовать не обязательно
но.
есть огромное множество ботов, которые не так прилежны как роботы Яндекса, в то же время совершенно не нужны на сайте, да и к тому же они не понимают Crawl-delay
возьмем к примеру Baidu - лидер среди китайских поисковых систем, если у вас сайт на рунет, нужен вам прожорливый китайский бот, который кроме нагрузки никакой полезности не несет?
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
есть огромное множество ботов, которые не так прилежны как роботы Яндекса, в то же время совершенно не нужны на сайте, да и к тому же они не понимают Crawl-delay
возьмем к примеру Baidu - лидер среди китайских поисковых систем, если у вас сайт на рунет, нужен вам прожорливый китайский бот, который кроме нагрузки никакой полезности не несет?
ELLE спасибо, а какой параметр задать?
Ресурсов хватает, хостинг вроде хороший, да посетителей "раз два да обчелся", но для Baidu и др. я тогда пропишу значение 4 или 5, посередке))), на всякий ;) как считаете, ну по своему опыту, а не по теории?
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
для западных ботов можно использовать -
   Request-rate : 1/10   
( интервал в 10 сек )

не все понимают эти параметры и следуют им
*

Adrian1111

  • Захожу иногда
  • 271
  • 1 / 0
Здравствуйте!

У меня Joomla 1.5+virtuemart 1.1.4 В настройках сайта включены SEF, mod_rewrite, суффикс к URL.

Оптимизатор посоветовал такой Robots.txt:
Спойлер
[свернуть]

Вебмастера Google и Яндекс сообщают о намеренно закрытых от индексации 1400 ссылках, которые присутствуют в карте сайта, типа: /catalogue.html?page=shop.browse&category_id=0000. То бишь закрыты страницы с коллекциями товаров.

Подскажите плз, какой правильный должен быть robots.txt для связки joomla+virteumart. В FAQ: robots.txt для Joomla приведены примеры для VirtueMart с SH404. У меня он не стоит.
« Последнее редактирование: 08.03.2013, 12:58:51 от Adrian1111 »
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
Доброй ночи,
Уважаемые форумчане, помогите разобраться с Гуглом((((
Яндекс выдает следущее, когда я делаю проверку карты сайта:
Спойлер
[свернуть]
А Google говорит так:
Спойлер
[свернуть]
получается кто то что то делает не так))
вот мой роботс:
Спойлер
[свернуть]

сознаюсь в том, что я его изменил, тк Яндекс не хотел просматривать карту сайта по данной ссылке. Но потом я все удалил и сделал новый роботс. теперь Яндекс не ругается, а Google не хочет ее индексировать(((
Что делать? Или это дело времени?
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

Vasiliy111

  • Захожу иногда
  • 248
  • 5 / 0
Серевер сильно нагружен, хочу добавить в robots.txt директорию Crawl-delay:. Подскажите где она прописывается и какую величину лучше установить.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Люди, очнитесь!
Посмотрите свои логи, вы уверены что Яндекс так нагружает ваш сервер?
Пауков не то что десятки, а сотни и тысячи, не все из них понимают нестандартную директиву Crawl-delay (и даже не все читают robots.txt)
Особо бешеных надо просто банить.
*

Rex_One

  • Захожу иногда
  • 454
  • 37 / 0
Люди, очнитесь!
Посмотрите свои логи, вы уверены что Яндекс так нагружает ваш сервер?
Пауков не то что десятки, а сотни и тысячи, не все из них понимают нестандартную директиву Crawl-delay (и даже не все читают robots.txt)
Особо бешеных надо просто банить.

Эх... создать бы совместными усилиями FAQ по ботам, особенно по «бешанным».
Кривизна рук не компенсирует прямизну извилин.
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
Люди, очнитесь!
Я кстати вообще удалил дерективы по ботам по времени. Да, согласен их даже и не стоит применять, Яндекс не видит роботс из-за нее(((((
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

alexmixaylov

  • Осваиваюсь на форуме
  • 49
  • 6 / 0
http://joomlaforum.ru/index.php/topic,115926.msg1294227.html#msg1294227

у меня та же самая петрушка с гуглом  ругается что карта запрещена в роботс тхт
причем яндексу все нравиться
что исправить можно в этой ситуации?

мой робот
Спойлер
[свернуть]
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
http://joomlaforum.ru/index.php/topic,115926.msg1294227.html#msg1294227

у меня та же самая петрушка с гуглом  ругается что карта запрещена в роботс тхт
причем яндексу все нравиться
что исправить можно в этой ситуации?

мой робот
Спойлер
[свернуть]

2 alexmixaylov
Уберите
Disallow: /index.php? и Disallow: /*?*
и попробуйте,
мне помогло
Лично я index.php запретил сначала, потом хотел сделать как Вы, разрешить ссылку для карты сайта....но передумал, просто убрал все, оставил только запрет на папки
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

Roinmana

  • Захожу иногда
  • 108
  • 2 / 0
Доброго дня! Подскажите, пожалуйста, новичку как в robots.txt запретить индексирование ссылок на комментарии модуля Komento, которые я расставил под вступлением всех статей? Эти все ссылки оканчиваются одинаково, вот таким образом:  #section-kmt
*

Roinmana

  • Захожу иногда
  • 108
  • 2 / 0
FAQ : robots.txt для Joomla!
Disallow: /*#section-kmt  Я правильно понял? Просто на счет# сомневаюсь...
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
нет. Неправильно поняли. там есть конкретный ответ на вопрос
*

bandanu

  • Захожу иногда
  • 163
  • 3 / 0
До этого был сайт на Wordpressе сейчас переделал на Joomla.Наследство от старого сайта осталось в индексе Google в основном теги.Пытаюсь избавится от них. В инструментах для веб-мастеров  Google --трафик --внутренние ссылки
/tag/маяк/   
/tag/ламинат/
/tag/отделка/
/tag/цвет/
куча подобного хлама.Вопрос как правильно их закрыть, удалить из индекса Google?
в роботе прописал так
Disallow: /tag/маяк
Disallow: /tag/ламинат
Disallow: /tag/цвет
как я понимаю Disallow: /tag/* применимо к папке но не к ссылкам и почему такие ссылки /tag/отделка/ в конце слэш и нет расширения(html,php)?
 Яндекс вообще ругается на такой вид Disallow: /tag/маяк      Возможно, был использован недопустимый символ
*

Roinmana

  • Захожу иногда
  • 108
  • 2 / 0
Пожалуйста, взгляните на мой robots и посоветуйте, что правильно, а что нет. Сайт с родным ЧПУ, ссылки статей с номерами вида: http://misite.ru/raznoe/po-i-kompyuter/27-kompyuterizatsiya
Код
User-agent: *
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /log/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /webstat/
Disallow: /404
Disallow: /*?
Disallow: /*&
Disallow: /*pop=
Disallow: /*print=
Disallow: /index.php?
Disallow: /index.php
Disallow: /index.html

User-agent: Yandex
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /log/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /webstat/
Disallow: /404
Disallow: /*?
Disallow: /*&
Disallow: /*pop=
Disallow: /*print=
Disallow: /index.php?
Disallow: /index.php
Disallow: /index.html
Host: misite.ru
Sitemap: http://misite.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Я заметил, что люди пишут  Disallow: /*?*  , может мне так нужно исправить?
*

yuras_2

  • Новичок
  • 3
  • 0 / 0
Можно-ли вместо -                        Disallow: /index.php?
прописывать для дублей контента - Disallow: /index.php?option=com_content&view=article&
чтобы не замарачиваться с Аllow для Xmap ?
*

Glebovichu

  • Захожу иногда
  • 124
  • 3 / 2
  • Все это было, и вскоре повторится вновь!=)
Господа и Госпожи, гляньте пожалуйста робот.тхт
Код
User-agent: *         
Allow: /sitemap.xlm
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=          
Disallow: /*pop=0              
Disallow: /*product-search  
Disallow: /*flypage=            
Disallow: /*cart                  
Disallow: /*feed                  
Disallow: /404                
Disallow: /*?                      
Disallow: /*%                    
Crawl-delay: 3                  
Host: http://www.gfconsulting.com.ua
Sitemap: /sitemap.xlm

при заливании карты сайта на Google, тот карту принимает, но говорит следующее:
Проблема:Доступ к URL заблокирован в файле robots.txt.
Описание: Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
Сегодня снял запрет на индексацию сайта всеми роботами. Может вышеприведенная проблема быть связана с тем, что Google еще не подкачал новый робот.тхт?
« Последнее редактирование: 01.04.2013, 20:57:32 от Glebovichu »
*

Vicente

  • Осваиваюсь на форуме
  • 10
  • 0 / 0
Добрый день подскажите правильно-ли сделан robots.txt
Стоит Joomla! 2.5.1+ родной SEF+ Перенаправление Url+ joomshoping Version 3.11.4

Код
User-agent: *	
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*lang=ru
Disallow: /*format=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss

User-agent: Yandex
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*lang=ru
Disallow: /*format=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /404
Disallow: /index.php?
Disallow: /index.html
Disallow: /*?
Disallow: /*%
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Host: tehnodent.net
 
Sitemap: http://tehnodent.net/index.php?option=com_xmap&view=xml&tmpl=component&id=1

Яндекс в валидаторе принял карту сайта без ошибок, на роботс тоже не ругался

Google пишет URL, запрещенный файлом robots.txt, но запрет давно снят.

Заранее спасибо
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
2 Glebovichu пропишите полностью URL
Allow: http://www.gfconsulting.com.ua/sitemap.xlm
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
Сегодня снял запрет на индексацию сайта всеми роботами. Может вышеприведенная проблема быть связана с тем, что Google еще не подкачал новый робот.тхт?
а Яндекс что говорит?
Вообще Google сразу загружает карту в веб-мастере и сразу проверяет ее.
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

Sulpher

  • Живу я здесь
  • 2058
  • 393 / 15
  • Шаблоны и расширения Joomla
Интересно, а как прописать карту сайта в robots.txt для многоязычного сайта? (например, на двух языках)

Может для Яндекса одна карта (русская версия), для всех остальных поисковиков - другая (английская)? Как это будет выглядеть?
*

strannik-yura

  • Давно я тут
  • 513
  • 44 / 1
  • :)
интересный вопрос, даже как-то не задумывался
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Если так прописать -
Код: robots
User-agent: Yandex
Sitemap: http://сайт/ru/sitemap.xml

User-agent: *
Sitemap: http://сайт/ru/sitemap.xml
Sitemap: http://сайт/en/sitemap.xml
Все роботы увидят все карты сайта, потому что директива Sitemap не считается строго секционной.

Поэтому, если нужно дать разным роботам разные Sitemap, то лучше это делать через инструменты для вебмастеров
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 150
Последний ответ 25.07.2021, 21:38:12
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 23
Просмотров: 10656
Последний ответ 17.01.2021, 18:00:11
от Vasiliy111
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 291
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 348
Последний ответ 10.07.2020, 13:12:46
от HolySong
Google Search Console, sitemap.xml и robots.txt

Автор Игарь

Ответов: 7
Просмотров: 537
Последний ответ 20.05.2020, 23:36:20
от Kostelano