0 Пользователей и 1 Гость просматривают эту тему.
  • 445 Ответов
  • 192146 Просмотров
*

regdomain

  • Осваиваюсь на форуме
  • 40
  • 0 / 0
Jomsocial

Обнаружил исходящие ссылки индексированные через поиск комьюнити вида http://мойсайт/community/search/browse?sort=latest&filter=mno, судя по всему спам в статусах. Логично закрыть от индексации эту дыру.

Disallow: /community/search/*

правильно написал?

Kunena

Индексируются ссылки в кредите Kunena http://мойсайт/forum/разные темы/credits/

Я всех очень люблю, но родное SEO ближе к телу, нужно закрыть от индексации.

Disallow: /*/credits/*

Так получится?
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0

regdomain, давайте разберем пример из помощи Яндекса
Код: robots
User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено

User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает HTML файлы
                        # по пути '/obsolete/private/...'
Disallow: /*.php$  # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие
                      # '/private/', но Allow выше отменяет
                      # часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие
                        # в пути '/old/'

User-agent: Yandex
Disallow: /add.php?*user=
# запрещает все скрипты 'add.php?' с параметром 'user'

отсюда следует, что ваше правило
Disallow: /*/credits/*
запрещает подпути содержащие 'credits', то есть по идее будет закрыт и такой адрес http://мойсайт/forum/разные темы/
я думаю стоит так прописать
Код
Disallow: /credits$  #  адрес, который содержит 'credits' не будет проиндексирован (в вашем случае http://мойсайт/forum/разные темы/credits/, а вот /credits/example/ проиндексирует
 
в любом случае можно прописать и проверить через ЯВМ
----------------------------
насчет Disallow: /community/search/*, думаю можно еще проще
Disallow: /*search  # любой урл который содержит 'search' не будет проиндексирован
« Последнее редактирование: 27.10.2012, 13:10:06 от ELLE »
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
для 2.5 ориентировочный роботс\

Спойлер
[свернуть]
*

svedevilll

  • Захожу иногда
  • 78
  • 1 / 0
  • DotA 2
Правильно ли я делаю?
Сделал такой robot.html
Спойлер
[свернуть]

У меня вопрос, при сканировании роботс.тхт этим вот: http://www.xml-sitemaps.com/se-bot-simulator.html
Если ввести www.сайт.ру То там у меня там только те страницы которые должны индексироваться
Если ввести сайт.ру То там уже появляются дубли страниц, так как включен mod_rewrite, а псевдоним статьи и псевдоним пункта меню одинаковые.
Вот почему когда есть www, то дубли блокируются, а если же без www то дубли есть
и зачем карту сайта нужно указывать в робот тхт, и если её нет то желательно поставить?
и если сайт довольно маленький, 5-6 статей и галерея, можно ли указать в robots.txt чтобы поисковики смотрели только те страницы которые надо а их примерно 8
« Последнее редактирование: 09.03.2012, 03:58:52 от svedevilll »
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
1. host не отделяют пустой строкой
2. склеить адрес с www и без www средствами 301 редиректа
3. карта помогает боту найти все страницы сайта, желательно указать в роботсе
Цитировать
и если сайт довольно маленький, 5-6 статей и галерея, можно ли указать в robots.txt чтобы поисковики смотрели только те страницы которые надо а их примерно 8
да, строчек будет всего 9 (вместе с юзер-агент 10), можно использовать регулярные выражения - тогда еще сократить кол-во строк в роботсе. в подписи есть ссылка на фак - изучайте.
« Последнее редактирование: 09.03.2012, 12:20:39 от ELLE »
*

klara7

  • Захожу иногда
  • 304
  • 4 / 1
Скажите, пожалуйста, а как будет выглядеть robots для Joomla 1.5+virtuemart без ЧПУ?
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Скажите, пожалуйста, а как будет выглядеть robots для Joomla 1.5+virtuemart без ЧПУ?
вот тут - http://joomlaforum.ru/index.php/topic,131023.0.html были потуги собрать такой роботс.
но вам придется заново собирать, если есть понимание как это работает - можно попробовать, почему нет)
*

jomdj

  • Захожу иногда
  • 64
  • 3 / 0
Посмотрите мой робот.тхт

Спойлер
[свернуть]

Особенно интересует строка
Disallow: /*device=desktop*

Хочу чтобы страницы типа были в индексе
сайт.ру/soc-seti/171-reklamodatelyam
сайт.ру/soc-seti/171-reklamodatelyam/device=wap

а не мобильные дубли типа
сайт.ру/soc-seti/171-reklamodatelyam/device=desktop
не попадали.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
пустые строчки нельзя допускать
Спойлер
[свернуть]
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
вопрос:
стоит ли прописывать указания для других роботов? :
список роботов
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

rom_4

  • Захожу иногда
  • 87
  • 4 / 0
мне пока что хватало 1 раз прописать правила для всех роботов. считаю,что персонально имеет смысл писать если что-то надо запретить именно для данного робота, иначе не вижу просто смысла в нагромождении всех этих строчек.
*

tefun

  • Живу я здесь
  • 2540
  • 130 / 1
  • Легче всего обмануть себя
мне пока что хватало 1 раз прописать правила для всех роботов. считаю,что персонально имеет смысл писать если что-то надо запретить именно для данного робота, иначе не вижу просто смысла в нагромождении всех этих строчек.
просто я знаю людей, которые пользуются (-сь) только Апортом, Бингом (или как его там), майл, рамблером, вот и думаю, прописывать конкретно для этих поисковиков или нет. Также еще думаю для Йяхуу прописать
то что постится на фОруме, не вырубается тапОрами
_______________________________________________
Мысли и женщины вместе не приходят М.Ж.
*

rom_4

  • Захожу иногда
  • 87
  • 4 / 0
просто я знаю людей, которые пользуются (-сь) только Апортом, Бингом (или как его там), майл, рамблером, вот и думаю, прописывать конкретно для этих поисковиков или нет. Также еще думаю для Йяхуу прописать
ну и пусть себе дальше пользуются, смысл писать под каждый отдельно?

Имеет смысл писать если надо запретить какойто поисковик, например
User-agent: *
Disallow: /administrator/
 
User-agent: Yandex
Disallow: /

Тут мы разрешили лазить по сайту (кроме administrator) всем роботам, кроме яндекса. Яндекс наш сайт будет игнорировать, а значит все, кто пользуется яндексом, не смогут в поиске найти данный сайт.
Поэтому лично я, если хочу чтобы была видимость для всех типов поиска, прописываю просто User-agent: * , а далее уже нужный мне набор правил.


п.с. лично я предпочитаю поиск яндекса, мне он удобен, так что мне теперь - запретить свой сайт для других роботов? )))
*

boomerang

  • Захожу иногда
  • 117
  • 4 / 1
Привет! Прошу помощи в определении правильного robots.txt для моего сайта - http://dota2-portal.ru/

Сайт на Joomla 1.5.22 + k2 2.4.1 + sh404sef
Мой - robots.txt  - http://dota2-portal.ru/robots.txt

sh404sef создает страницы всех материалов в виде:
http://dota2-portal.ru/home/Page-2
/home/Page-3
/home/Page-4
и т.д
Мне надо их спрятать он поисковиков...(это пагинация материалов - не очень полезная штука для пс, т.к создает дубли текста...)

Я попытался их закрыть следующим образом - Disallow: /home/*
Скажите правильно ли так?

А еще я так и не понял из темы - http://joomlaforum.ru/index.php/topic,193446.0.html , 4-ый пункт с нагрузкой на сервер
Цитировать
4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах       между запросами на загрузку страниц (от 1 до 10)
   Crawl-delay: 3
Что за нагрузка такая?

А и еще вопрос в некоторых robots.txt сайтов видел такую строчку - Host: www.mysite.com
Что это за строчка и за что она отвечает?
*

eclipseggg

  • Захожу иногда
  • 410
  • 32 / 2
Мне надо чтобы пс не индексировали страницы /home/Page-2 ;  home/Page-3 и тд. Т.е все страницы с пагинации...Как это сделать правильно?
Как и где это сделать?

Заранее спасибо
Disallow: /home/Page*

ну это если у тебя есть что то нужное в самом HOME...
если нет можешь и сам home закрыть как ты и написал...
*

victoru5

  • Осваиваюсь на форуме
  • 21
  • 1 / 0
имеет ли смысл указывать Allow: /images/   ?
*

Fedor Vlasenko

  • Живу я здесь
  • 3844
  • 731 / 7
  • Все начинается с Value
имеет ли смысл указывать Allow: /images/   ?
Если хотите, чтоб картинки индексировались то да. Трафик с поиска по картинкам так-же присутствует. Все зависит от тематики сайта. И рассматривать надо в индивидуальном порядке
*

Sable

  • Захожу иногда
  • 95
  • 0 / 0
Замучился с настройкой robots.txt ,   подскажите пожалуйста .
Google выдает ошибку :Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
Joomla+Virtuemart+sh404sef (включен - переименован)
сам robots такой :
Спойлер
[свернуть]
ссылки кирилические , такие :http://introtorg.ru/Аксессуары/TV-тюнеры.html
в чем может быть проблема ? мне кажется что виноват этот запрет : Disallow: /*%                     
и вообще ссылки на кирилице это  хорошо ?
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
Sable, так попробуйте -
Спойлер
[свернуть]
« Последнее редактирование: 25.04.2012, 21:52:51 от ELLE »
*

Ingener

  • Давно я тут
  • 547
  • 10 / 5
Ничего не пойму, недавно добавил в поиск яндекса два новых сайта, добавив разрешенню в robots ссылку Xmap вида /index.php?option=com_xmap&sitemap=1&view=xml
добавил оба в панель яндекса вебмастер, прописал там эту карту.

Сейчас смотрю в вебмастере в обоих сайтах:
Исключено роботом -> неверный формат документа - одна-единственная ссылка на карту /index.php?option=com_xmap&sitemap=1&view=xml

Но почему? он при добавлении сайта ее принял, в панели вебмастера ее тоже принял как сайтмап.

И что теперь делать, почему неверный формат документа? Помогите пожалуйста, это же основная ссылка, он по ней остальные индексирует.
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
на счет адреса карты так еще попробуйте - /component/xmap/xml/1.html?view=xml
у меня не никто не ругается=)
*

motosimak

  • Захожу иногда
  • 54
  • 1 / 0
Привет, прошу помощи знающих людей.
Предыстория.
1. Был изначально форум на SMF стоял в site/forum.ru  были ЧПУ, страницы в индексе. Далее перенес форум в основную папку. Убрал ЧПУ. страницы опять в индексе.
2. Решил поставить Joomla 2.5 в корень сайта ru. Поставил K2, и установил sh404SEF. Далее опять перенес форум обратно в подпапку и установил ЧПУ.

Из за всех этих манипуляций образовалось много дублей.
На главную страницу заходит:
http://yursodeistvie.ru
http://yursodeistvie.ru/?topic=69.0
http://yursodeistvie.ru/?board=51.0 и т.д., т.е ссылки от форума, когда он был в корне.

Попытался запретить к индексации в robots.txt добавил Disallow: /*?* , т.е все не ЧПУ ссылки
Сегодня решил удалить страницы из индекса вручную в яндексе - ввожу эту страницу http://yursodeistvie.ru/?topic=69.0, а Яндекс пишет "Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex."

Кто знает как убрать дубли страниц?, либо просто ждать надо и он сам уберет при следующих обновлениях, но ведь он заходит на главную под разными адресами.
мой роботс
Код
User-agent: *
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /i/
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*?*


User-agent: Yandex
Host: yursodeistvie.ru

Sitemap: http://yursodeistvie.ru/xml/1.html?view=xml

На всякий случай .htaccess форума
Код
# PRETTYURLS MOD BEGINS
# Pretty URLs mod
# http://code.google.com/p/prettyurls/
# .htaccess file generated automatically on: April 26, 2012, 19:30

RewriteEngine on
RewriteBase /forum

# Rules for: actions
RewriteRule ^(activate|admin|announce|attachapprove|buddy|calendar|clock|collapse)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(coppa|credits|deletemsg|display|dlattach|dlpmattach|editpoll|editpoll2)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(emailuser|findmember|groups|help|helpadmin|im|jseditor|jsmodify)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(jsoption|lock|lockvoting|login|login2|logout|markasread|mergetopics)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(mlist|moderate|modifycat|modifykarma|viewkarma|ownkarma|otherkarma|karmamessage)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(movetopic|movetopic2|notify|notifyboard|openidreturn|pm|post|post2)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(printpage|profile|quotefast|quickmod|quickmod2|recent|register|register2)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(reminder|removepoll|removetopic2|reporttm|requestmembers|restoretopic|search|search2)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(sendtopic|sitemap|smstats|suggest|spellcheck|splittopics|stats|sticky)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(theme|trackip|about:mozilla|about:unknown|unread|unreadreplies|verificationcode|viewprofile)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(vote|viewquery|viewsmfile|who|\.xml|xmlhttp)/?$ ./index.php?pretty;action=$1 [L,QSA]

# Rules for: boards
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1.0 [L,QSA]
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([0-9]*)/?$ ./index.php?pretty;board=$1.$2 [L,QSA]

# Rules for: topics
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1;topic=$2.0 [L,QSA]
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/([0-9]*|msg[0-9]*|new)/?$ ./index.php?pretty;board=$1;topic=$2.$3 [L,QSA]

# PRETTYURLS MOD ENDS

 
*

Vasiliy111

  • Захожу иногда
  • 248
  • 5 / 0
Доброе всем время суток!

Полистав данную тему и собравшись с мыслями набросал себе robots.txt
Спойлер
[свернуть]
конечно же имеются вопросы! На сайте используется Xmap и sh404SEF!
Не понятно с прописанием в robots.txt адреса карты сайта?
На сколько я понял:
1) в директорию "Allow:" и "Sitemap:" прописывается карта сайта в формате XML?

в админке во вкладке Xmap Карта сайта на XML имеет вид :http://мой сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml
в адресной строке браузера она имеет такой вид :             http://мой сайт.ru/sitemap-xml.html?sitemap=1

Вопрос: в robots.txt пишутся ссылки как в адресной строке? или те которые во вкладке Xmap?

« Последнее редактирование: 21.05.2012, 10:20:42 от Vasiliy111 »
*

motosimak

  • Захожу иногда
  • 54
  • 1 / 0
У меня вот так:
Код
Sitemap: http://yursodeistvie.ru/index.php?option=com_xmap&view=xml&id=1
, роботы успешно берут, проблем еще не было.
*

Rival

  • Захожу иногда
  • 188
  • 16 / 0
Кто знает как убрать дубли страниц?, либо просто ждать надо и он сам уберет при следующих обновлениях, но ведь он заходит на главную под разными адресами.
Попытался запретить к индексации в robots.txt добавил Disallow: /*?* , т.е все не ЧПУ ссылки
Сегодня решил удалить страницы из индекса вручную в яндексе - ввожу эту страницу http://yursodeistvie.ru/?topic=69.0, а Яндекс пишет "Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex."
 
Напиши в robots.txt страницы которые хочешь удалить, после сможешь удалить в яндексе.

============

У меня вопрос, как думаете следует ли закрывать от индексации, страницы статей?
К примеру если статей 10 страниц, то предполагаю лучше закрыть подобные ссылки ?start=10  ?limitstart=0 и тд. чтоб не было дублей.
Как думаете?
*

reasons

  • Захожу иногда
  • 382
  • 6 / 0
  • http://dehost.biz
конечно закрывай дубли
*

eclipseggg

  • Захожу иногда
  • 410
  • 32 / 2
Хьервард,
нигде нельзя посмотреть
заблокированны те что прописаны у тебя в файле robots.txt
на основной странице показывает сколько в сайт-мапе и сколько в индексе...и ошибки сканирования....

допустим мне нужны только SEF ссылки в поиск и я закрываю так же "index.php?" и он их не добавляет но естественно учитывает что они заблокированны=) так что не паникуй=) а когда не будет нужных страниц в поиске тогда уже ищи

можешь проверить запросом site:adressaita.ru в Google и покажет так же страницы которые видит=)
« Последнее редактирование: 11.06.2012, 23:57:34 от ELLE »
*

angemax

  • Захожу иногда
  • 140
  • 3 / 0
в robots.txt  прописано:

Код
Disallow: /component/option,com_search/
Disallow: /component/option,com_newsfeeds/
Disallow: /component/option,com_wrapper/

Однако в вебмастере Яндекса выдает ошибку:
Цитировать
Возможно, был использован недопустимый символ

И как это исправить? а ведь страницы существуют и дают дубли
*

ELLE

  • Глобальный модератор
  • 4513
  • 892 / 0
То есть, вместо ,  поставить * , или я неправильно поняла
Disallow: /*com_search
Disallow: /*com_newsfeeds
Disallow: /*com_wrapper

Запятых не должно быть
*

z0dchij

  • Осваиваюсь на форуме
  • 45
  • 9 / 0
Здравствуйте! Есть два вопроса по robots.txt, для меня не понятных.

1. В какой кодировке лучше сохранить robots.txt? Обычно, редактируя файлы Joomla!(.php, .ini), сохраняю их в UTF-8 без BOM. Просто в интернете встретил различные мнения по этому поводу. Если редактирую прямо на сервере - пишет "Сохранено в кодировке ASC II"
Вобщем неопределенность для меня этого вопроса меня тревожит  ^-^, подскажите кто знает, не копипастом из интернетов только.

2. Почему иногда в примерах robots.txt вижу строки:
Код
Disallow: /file.php
Разве файлы .php доступны для чтения, в данном случае поисковикам??

Спасибо.

P.S. просмотрел форум и еще один вопрос возник: зачем оставляют(или наоборот указывают)
Код
Disallow: /installation/
Ведь такой папки не существует(по крайней мере ее рекомендуется удалять)

« Последнее редактирование: 22.06.2012, 02:41:57 от z0dchij »
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Как лучше прописать robots.txt?

Автор web1

Ответов: 2
Просмотров: 156
Последний ответ 25.07.2021, 21:38:12
от web1
Как сделать правильный редирект

Автор gadjet

Ответов: 23
Просмотров: 10662
Последний ответ 17.01.2021, 18:00:11
от Vasiliy111
Разные robots.txt

Автор yyyuuu

Ответов: 7
Просмотров: 295
Последний ответ 14.01.2021, 14:06:58
от rsn
Языки /en/ /ru/ проблема с входом в админку и редиректит на site.r/ru/robots.txt

Автор HolySong

Ответов: 0
Просмотров: 349
Последний ответ 10.07.2020, 13:12:46
от HolySong
Google Search Console, sitemap.xml и robots.txt

Автор Игарь

Ответов: 7
Просмотров: 538
Последний ответ 20.05.2020, 23:36:20
от Kostelano