regdomain
Осваиваюсь на форуме
 
Репутация: +0/-0
Offline
Сообщений: 41
|
 |
« Ответ #30 : 11.02.2012, 22:47:33 » |
|
Jomsocial
Обнаружил исходящие ссылки индексированные через поиск комьюнити вида http://мойсайт/community/search/browse?sort=latest&filter=mno, судя по всему спам в статусах. Логично закрыть от индексации эту дыру.
Disallow: /community/search/*
правильно написал?
Kunena
Индексируются ссылки в кредите Kunena http://мойсайт/forum/разные темы/credits/
Я всех очень люблю, но родное SEO ближе к телу, нужно закрыть от индексации.
Disallow: /*/credits/*
Так получится?
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #31 : 11.02.2012, 23:15:13 » |
|
regdomain, давайте разберем пример из помощи Яндекса User-agent: Yandex Allow: /archive Disallow: / # разрешает все, что содержит '/archive', остальное запрещено User-agent: Yandex Allow: /obsolete/private/*.html$ # разрешает HTML файлы # по пути '/obsolete/private/...' Disallow: /*.php$ # запрещает все '*.php' на данном сайте Disallow: /*/private/ # запрещает все подпути содержащие # '/private/', но Allow выше отменяет # часть запрета Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие # в пути '/old/' User-agent: Yandex Disallow: /add.php?*user= # запрещает все скрипты 'add.php?' с параметром 'user' отсюда следует, что ваше правило Disallow: /*/credits/* запрещает подпути содержащие 'credits', то есть по идее будет закрыт и такой адрес http://мойсайт/forum/разные темы/ я думаю стоит так прописать Disallow: /credits$ # адрес, который содержит 'credits' не будет проиндексирован (в вашем случае http://мойсайт/forum/разные темы/credits/, а вот /credits/example/ проиндексирует в любом случае можно прописать и проверить через ЯВМ ---------------------------- насчет Disallow: /community/search/*, думаю можно еще проще Disallow: /*search # любой урл который содержит 'search' не будет проиндексирован
|
|
|
|
« Последнее редактирование: 27.10.2012, 13:10:06 от ELLE »
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #32 : 22.02.2012, 18:06:20 » |
|
для 2.5 ориентировочный роботс\ User-agent: * Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ # новая папка появилась Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=ru* Disallow: /*format=* Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark* Disallow: /*=download* Disallow: /*user/* Disallow: /.html # пишем если используете адреса без суффикса, в против. случае удалить! Disallow: /404 Disallow: /*? # это если нужно закрыть 2,3,4...страницы, напр. в блоге будет индексироваться только первая страница Disallow: /*% Disallow: /*& Disallow: /index.php? # эти 3 строчки Disallow: /index.html # пишем если Disallow: /index.php # включен mod_rewrite Disallow: /*tag Disallow: /*.pdf Disallow: /*.swf Disallow: /*print=1 Disallow: /*=atom Disallow: /*=rss
|
|
|
|
|
Записан
|
|
|
|
svedevilll
Осваиваюсь на форуме
 
Репутация: +1/-0
Offline
Сообщений: 73
DotA 2
|
 |
« Ответ #33 : 09.03.2012, 03:20:59 » |
|
Правильно ли я делаю? Сделал такой robot.html User-agent: * Disallow: /administrator/ Disallow: /index.php Disallow: /home.html Disallow: /cache/ Disallow: /components/ Disallow: /component/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /images/ Disallow: /*.pdf Disallow: /*.doc Disallow: /*print Disallow: /arenda.html$ Disallow: *?limitstart Disallow: *?limit User-agent: Yandex Disallow: /administrator/ Disallow: /index.php Disallow: /home.html Disallow: /cache/ Disallow: /components/ Disallow: /component/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /images// Disallow: /*.pdf Disallow: /*.doc Disallow: /*print Disallow: /arenda.html$ Disallow: *?limitstart Disallow: *?limit
Host: www.resort-betta.hdd1.ru У меня вопрос, при сканировании роботс.тхт этим вот: http://www.xml-sitemaps.com/se-bot-simulator.html Если ввести www.сайт.ру То там у меня там только те страницы которые должны индексироваться Если ввести сайт.ру То там уже появляются дубли страниц, так как включен mod_rewrite, а псевдоним статьи и псевдоним пункта меню одинаковые. Вот почему когда есть www, то дубли блокируются, а если же без www то дубли есть и зачем карту сайта нужно указывать в робот тхт, и если её нет то желательно поставить? и если сайт довольно маленький, 5-6 статей и галерея, можно ли указать в robots.txt чтобы поисковики смотрели только те страницы которые надо а их примерно 8
|
|
|
|
« Последнее редактирование: 09.03.2012, 03:58:52 от svedevilll »
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #34 : 09.03.2012, 11:56:35 » |
|
1. host не отделяют пустой строкой 2. склеить адрес с www и без www средствами 301 редиректа 3. карта помогает боту найти все страницы сайта, желательно указать в роботсе и если сайт довольно маленький, 5-6 статей и галерея, можно ли указать в robots.txt чтобы поисковики смотрели только те страницы которые надо а их примерно 8 да, строчек будет всего 9 (вместе с юзер-агент 10), можно использовать регулярные выражения - тогда еще сократить кол-во строк в роботсе. в подписи есть ссылка на фак - изучайте.
|
|
|
|
« Последнее редактирование: 09.03.2012, 12:20:39 от ELLE »
|
Записан
|
|
|
|
klara7
Давно я тут
  
Репутация: +2/-1
Offline
Пол: 
Сообщений: 268
|
 |
« Ответ #35 : 11.03.2012, 14:38:29 » |
|
Скажите, пожалуйста, а как будет выглядеть robots для Joomla 1.5+virtuemart без ЧПУ?
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #36 : 11.03.2012, 14:46:01 » |
|
Скажите, пожалуйста, а как будет выглядеть robots для Joomla 1.5+virtuemart без ЧПУ?
вот тут - http://joomlaforum.ru/index.php/topic,131023.0.html были потуги собрать такой роботс. но вам придется заново собирать, если есть понимание как это работает - можно попробовать, почему нет)
|
|
|
|
|
Записан
|
|
|
|
jomdj
Осваиваюсь на форуме
 
Репутация: +2/-0
Offline
Сообщений: 63
|
 |
« Ответ #37 : 11.03.2012, 19:30:51 » |
|
Посмотрите мой робот.тхт User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /jupgrade/ Disallow: /reserv/
Disallow: /*device=desktop* Disallow: /*search Disallow: /*print=*
Disallow: /forum/faq.php Disallow: /forum/mcp.php Disallow: /forum/memberlist.php Disallow: /forum/posting.php Disallow: /forum/report.php Disallow: /forum/search.php Disallow: /forum/style.php Disallow: /forum/ucp.php Disallow: /forum/viewtopic.php?f=*&t=*&view=next Disallow: /forum/viewtopic.php?f=*&t=*&view=previous
Sitemap: http://djdiplomat.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1
User-agent: Yandex
Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /jupgrade/ Disallow: /reserv/
Disallow: /*device=desktop* Disallow: /*search Disallow: /*print=*
Disallow: /forum/faq.php Disallow: /forum/mcp.php Disallow: /forum/memberlist.php Disallow: /forum/posting.php Disallow: /forum/report.php Disallow: /forum/search.php Disallow: /forum/style.php Disallow: /forum/ucp.php Disallow: /forum/viewtopic.php?f=*&t=*&view=next Disallow: /forum/viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /forum/index.php Clean-param: sid /forum/viewforum.php Clean-param: sid /forum/viewtopic.php
Host: djdiplomat.ru Sitemap: http://djdiplomat.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1
User-agent: Mediapartners-Google Disallow: Особенно интересует строка Disallow: /*device=desktop* Хочу чтобы страницы типа были в индексе сайт.ру/soc-seti/171-reklamodatelyam сайт.ру/soc-seti/171-reklamodatelyam/device=wap а не мобильные дубли типа сайт.ру/soc-seti/171-reklamodatelyam/device=desktop не попадали.
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #38 : 11.03.2012, 19:38:43 » |
|
пустые строчки нельзя допускать User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /jupgrade/ Disallow: /reserv/ Disallow: /*device=desktop Disallow: /*search Disallow: /*print= Disallow: /forum/faq.php Disallow: /forum/mcp.php Disallow: /forum/memberlist.php Disallow: /forum/posting.php Disallow: /forum/report.php Disallow: /forum/search.php Disallow: /forum/style.php Disallow: /forum/ucp.php Disallow: /forum/viewtopic.php?f=*&t=*&view=next Disallow: /forum/viewtopic.php?f=*&t=*&view=previous
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /jupgrade/ Disallow: /reserv/ Disallow: /*device=desktop Disallow: /*search Disallow: /*print= Disallow: /forum/faq.php Disallow: /forum/mcp.php Disallow: /forum/memberlist.php Disallow: /forum/posting.php Disallow: /forum/report.php Disallow: /forum/search.php Disallow: /forum/style.php Disallow: /forum/ucp.php Disallow: /forum/viewtopic.php?f=*&t=*&view=next Disallow: /forum/viewtopic.php?f=*&t=*&view=previous Clean-param: sid /forum/index.php Clean-param: sid /forum/viewforum.php Clean-param: sid /forum/viewtopic.php Host: djdiplomat.ru
User-agent: Mediapartners-Google Disallow:
Sitemap: http://djdiplomat.ru/index.php?option=com_xmap&view=xml&tmpl=component&id=1
|
|
|
|
|
Записан
|
|
|
|
|
tefun
|
 |
« Ответ #39 : 23.03.2012, 10:35:57 » |
|
вопрос: стоит ли прописывать указания для других роботов? : список роботов
|
|
|
|
|
Записан
|
|
|
|
rom_4
Осваиваюсь на форуме
 
Репутация: +4/-0
Offline
Пол: 
Сообщений: 81
|
 |
« Ответ #40 : 26.03.2012, 15:23:06 » |
|
мне пока что хватало 1 раз прописать правила для всех роботов. считаю,что персонально имеет смысл писать если что-то надо запретить именно для данного робота, иначе не вижу просто смысла в нагромождении всех этих строчек.
|
|
|
|
|
Записан
|
|
|
|
|
tefun
|
 |
« Ответ #41 : 26.03.2012, 15:28:35 » |
|
мне пока что хватало 1 раз прописать правила для всех роботов. считаю,что персонально имеет смысл писать если что-то надо запретить именно для данного робота, иначе не вижу просто смысла в нагромождении всех этих строчек.
просто я знаю людей, которые пользуются (-сь) только Апортом, Бингом (или как его там), майл, рамблером, вот и думаю, прописывать конкретно для этих поисковиков или нет. Также еще думаю для Йяхуу прописать
|
|
|
|
|
Записан
|
|
|
|
rom_4
Осваиваюсь на форуме
 
Репутация: +4/-0
Offline
Пол: 
Сообщений: 81
|
 |
« Ответ #42 : 26.03.2012, 16:32:38 » |
|
просто я знаю людей, которые пользуются (-сь) только Апортом, Бингом (или как его там), майл, рамблером, вот и думаю, прописывать конкретно для этих поисковиков или нет. Также еще думаю для Йяхуу прописать
ну и пусть себе дальше пользуются, смысл писать под каждый отдельно? Имеет смысл писать если надо запретить какойто поисковик, например User-agent: * Disallow: /administrator/ User-agent: Yandex Disallow: / Тут мы разрешили лазить по сайту (кроме administrator) всем роботам, кроме яндекса. Яндекс наш сайт будет игнорировать, а значит все, кто пользуется яндексом, не смогут в поиске найти данный сайт. Поэтому лично я, если хочу чтобы была видимость для всех типов поиска, прописываю просто User-agent: * , а далее уже нужный мне набор правил. п.с. лично я предпочитаю поиск яндекса, мне он удобен, так что мне теперь - запретить свой сайт для других роботов? )))
|
|
|
|
|
Записан
|
|
|
|
boomerang
Осваиваюсь на форуме
 
Репутация: +4/-1
Offline
Сообщений: 140
|
 |
« Ответ #43 : 04.04.2012, 21:46:05 » |
|
Привет! Прошу помощи в определении правильного robots.txt для моего сайта - http://dota2-portal.ru/Сайт на Joomla 1.5.22 + k2 2.4.1 + sh404sef Мой - robots.txt - http://dota2-portal.ru/robots.txtsh404sef создает страницы всех материалов в виде: http://dota2-portal.ru/home/Page-2 /home/Page-3 /home/Page-4 и т.д Мне надо их спрятать он поисковиков...(это пагинация материалов - не очень полезная штука для пс, т.к создает дубли текста...) Я попытался их закрыть следующим образом - Disallow: /home/* Скажите правильно ли так? А еще я так и не понял из темы - http://joomlaforum.ru/index.php/topic,193446.0.html , 4-ый пункт с нагрузкой на сервер 4. для уменьшения нагрузки на сервер (для Яндекса, Google не учитывает) можно указать ботам временной интервал в секундах между запросами на загрузку страниц (от 1 до 10) Crawl-delay: 3 Что за нагрузка такая? А и еще вопрос в некоторых robots.txt сайтов видел такую строчку - Host: www.mysite.com Что это за строчка и за что она отвечает?
|
|
|
|
|
Записан
|
|
|
|
|
eclipseggg
|
 |
« Ответ #44 : 05.04.2012, 02:30:59 » |
|
Мне надо чтобы пс не индексировали страницы /home/Page-2 ; home/Page-3 и тд. Т.е все страницы с пагинации...Как это сделать правильно? Как и где это сделать?
Заранее спасибо
Disallow: /home/Page* ну это если у тебя есть что то нужное в самом HOME... если нет можешь и сам home закрыть как ты и написал...
|
|
|
|
|
Записан
|
|
|
|
victoru5
Захожу иногда

Репутация: +1/-0
Offline
Пол: 
Сообщений: 14
|
 |
« Ответ #45 : 10.04.2012, 11:40:41 » |
|
имеет ли смысл указывать Allow: /images/ ?
|
|
|
|
|
Записан
|
|
|
|
|
Fedor Vlasenko
|
 |
« Ответ #46 : 10.04.2012, 11:45:11 » |
|
имеет ли смысл указывать Allow: /images/ ?
Если хотите, чтоб картинки индексировались то да. Трафик с поиска по картинкам так-же присутствует. Все зависит от тематики сайта. И рассматривать надо в индивидуальном порядке
|
|
|
|
|
Записан
|
|
|
|
Sable
Осваиваюсь на форуме
 
Репутация: +0/-0
Offline
Сообщений: 63
|
 |
« Ответ #47 : 24.04.2012, 19:14:54 » |
|
Замучился с настройкой robots.txt , подскажите пожалуйста . Google выдает ошибку :Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt. Joomla+Virtuemart+sh404sef (включен - переименован) сам robots такой : User-agent: * Allow: /sitemap-xml.html?sitemap=1 Allow: /components/com_virtuemart/shop_image/category Allow: /components/com_virtuemart/shop_image/product Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /shop/ask/ Disallow: /index.php? Disallow: /index2.php Disallow: /*keyword= Disallow: /*pop=0 Disallow: /*product-search Disallow: /*flypage= Disallow: /*cart Disallow: /*feed Disallow: /404 Disallow: /*? Disallow: /*% Crawl-delay: 3 Host: introtorg.ru Sitemap: http://introtorg.ru/sitemap-xml.html?sitemap=1 ссылки кирилические , такие :http://introtorg.ru/Аксессуары/TV-тюнеры.html в чем может быть проблема ? мне кажется что виноват этот запрет : Disallow: /*% и вообще ссылки на кирилице это хорошо ?
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #48 : 25.04.2012, 21:49:41 » |
|
Sable, так попробуйте - User-agent: Yandex Allow: /components/com_virtuemart/shop_image/category Allow: /components/com_virtuemart/shop_image/product Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*flypage Disallow: /*keyword Disallow: /*limitstart Crawl-delay: 3 Host: introtorg.ru
User-agent: * Allow: /components/com_virtuemart/shop_image/category Allow: /components/com_virtuemart/shop_image/product Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /*flypage Disallow: /*keyword Disallow: /*limitstart
Sitemap: http://introtorg.ru/sitemap-xml.html?sitemap=1
|
|
|
|
« Последнее редактирование: 25.04.2012, 21:52:51 от ELLE »
|
Записан
|
|
|
|
|
Ingener
|
 |
« Ответ #49 : 08.05.2012, 13:29:05 » |
|
Ничего не пойму, недавно добавил в поиск яндекса два новых сайта, добавив разрешенню в robots ссылку Xmap вида /index.php?option=com_xmap&sitemap=1&view=xml добавил оба в панель яндекса вебмастер, прописал там эту карту.
Сейчас смотрю в вебмастере в обоих сайтах: Исключено роботом -> неверный формат документа - одна-единственная ссылка на карту /index.php?option=com_xmap&sitemap=1&view=xml
Но почему? он при добавлении сайта ее принял, в панели вебмастера ее тоже принял как сайтмап.
И что теперь делать, почему неверный формат документа? Помогите пожалуйста, это же основная ссылка, он по ней остальные индексирует.
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #50 : 09.05.2012, 00:08:25 » |
|
на счет адреса карты так еще попробуйте - /component/xmap/xml/1.html?view=xml у меня не никто не ругается=)
|
|
|
|
|
Записан
|
|
|
|
motosimak
Осваиваюсь на форуме
 
Репутация: +1/-0
Offline
Сообщений: 63
|
 |
« Ответ #51 : 11.05.2012, 09:55:22 » |
|
Привет, прошу помощи знающих людей. Предыстория. 1. Был изначально форум на SMF стоял в site/forum.ru были ЧПУ, страницы в индексе. Далее перенес форум в основную папку. Убрал ЧПУ. страницы опять в индексе. 2. Решил поставить Joomla 2.5 в корень сайта ru. Поставил K2, и установил sh404SEF. Далее опять перенес форум обратно в подпапку и установил ЧПУ. Из за всех этих манипуляций образовалось много дублей. На главную страницу заходит: http://yursodeistvie.ru http://yursodeistvie.ru/?topic=69.0 http://yursodeistvie.ru/?board=51.0 и т.д., т.е ссылки от форума, когда он был в корне. Попытался запретить к индексации в robots.txt добавил Disallow: /*?* , т.е все не ЧПУ ссылки Сегодня решил удалить страницы из индекса вручную в яндексе - ввожу эту страницу http://yursodeistvie.ru/?topic=69.0, а Яндекс пишет "Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex." Кто знает как убрать дубли страниц?, либо просто ждать надо и он сам уберет при следующих обновлениях, но ведь он заходит на главную под разными адресами. мой роботс User-agent: * Disallow: /forum/attachments/ Disallow: /forum/avatars/ Disallow: /forum/Packages/ Disallow: /forum/Smileys/ Disallow: /forum/Sources/ Disallow: /forum/Themes/ Disallow: /forum/*.msg Disallow: /forum/*.new Disallow: /forum/*sort Disallow: /forum/*topicseen Disallow: /forum/*wap Disallow: /forum/*imode Disallow: /forum/*action Disallow: /forum/*prev_next Disallow: /forum/*all Disallow: /forum/*go.php Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /i/ Disallow: /*rss.html Disallow: /*atom.html Disallow: /*?*
User-agent: Yandex Host: yursodeistvie.ru
Sitemap: http://yursodeistvie.ru/xml/1.html?view=xml На всякий случай .htaccess форума # PRETTYURLS MOD BEGINS # Pretty URLs mod # http://code.google.com/p/prettyurls/ # .htaccess file generated automatically on: April 26, 2012, 19:30
RewriteEngine on RewriteBase /forum
# Rules for: actions RewriteRule ^(activate|admin|announce|attachapprove|buddy|calendar|clock|collapse)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(coppa|credits|deletemsg|display|dlattach|dlpmattach|editpoll|editpoll2)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(emailuser|findmember|groups|help|helpadmin|im|jseditor|jsmodify)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(jsoption|lock|lockvoting|login|login2|logout|markasread|mergetopics)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(mlist|moderate|modifycat|modifykarma|viewkarma|ownkarma|otherkarma|karmamessage)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(movetopic|movetopic2|notify|notifyboard|openidreturn|pm|post|post2)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(printpage|profile|quotefast|quickmod|quickmod2|recent|register|register2)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(reminder|removepoll|removetopic2|reporttm|requestmembers|restoretopic|search|search2)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(sendtopic|sitemap|smstats|suggest|spellcheck|splittopics|stats|sticky)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(theme|trackip|about:mozilla|about:unknown|unread|unreadreplies|verificationcode|viewprofile)/?$ ./index.php?pretty;action=$1 [L,QSA] RewriteRule ^(vote|viewquery|viewsmfile|who|\.xml|xmlhttp)/?$ ./index.php?pretty;action=$1 [L,QSA]
# Rules for: boards RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1.0 [L,QSA] RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([0-9]*)/?$ ./index.php?pretty;board=$1.$2 [L,QSA]
# Rules for: topics RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1;topic=$2.0 [L,QSA] RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/([0-9]*|msg[0-9]*|new)/?$ ./index.php?pretty;board=$1;topic=$2.$3 [L,QSA]
# PRETTYURLS MOD ENDS
|
|
|
|
|
Записан
|
|
|
|
Vasiliy111
Осваиваюсь на форуме
 
Репутация: +5/-0
Offline
Сообщений: 184
|
 |
« Ответ #52 : 18.05.2012, 13:25:09 » |
|
Доброе всем время суток! Полистав данную тему и собравшись с мыслями набросал себе robots.txt User-agent: Yandex Allow: /sitemap-xml.html?sitemap=1 Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php? Disallow: /index2.php Disallow: /*pop=0 Disallow: /404 Disallow: /*% Disallow: /*? Disallow: *.pdf$ Disallow: /name.php?action=print Disallow: /*rss.html Disallow: /*atom.html Disallow: /index2.php?option=com_content&task=emailform Disallow: /trackback Host: мой сайт.ru
User-agent: * Allow: /sitemap-xml.html?sitemap=1 Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /index.php? Disallow: /index2.php Disallow: /*pop=0 Disallow: /404 Disallow: /*% Disallow: /*? Disallow: *.pdf$ Disallow: /name.php?action=print Disallow: /*rss.html Disallow: /*atom.html Disallow: /index2.php?option=com_content&task=emailform Disallow: /trackback
Sitemap: http://мой сайт.ru//sitemap-xml.html?sitemap=1
конечно же имеются вопросы! На сайте используется Xmap и sh404SEF! Не понятно с прописанием в robots.txt адреса карты сайта? На сколько я понял: 1) в директорию "Allow:" и "Sitemap:" прописывается карта сайта в формате XML? в админке во вкладке Xmap Карта сайта на XML имеет вид :http://мой сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml в адресной строке браузера она имеет такой вид : http://мой сайт.ru/sitemap-xml.html?sitemap=1 Вопрос: в robots.txt пишутся ссылки как в адресной строке? или те которые во вкладке Xmap?
|
|
|
|
« Последнее редактирование: 21.05.2012, 10:20:42 от Vasiliy111 »
|
Записан
|
|
|
|
motosimak
Осваиваюсь на форуме
 
Репутация: +1/-0
Offline
Сообщений: 63
|
 |
« Ответ #53 : 21.05.2012, 12:17:15 » |
|
У меня вот так: Sitemap: http://yursodeistvie.ru/index.php?option=com_xmap&view=xml&id=1 , роботы успешно берут, проблем еще не было.
|
|
|
|
|
Записан
|
|
|
|
Rival
Осваиваюсь на форуме
 
Репутация: +9/-0
Offline
Пол: 
Сообщений: 89
|
 |
« Ответ #54 : 02.06.2012, 21:20:04 » |
|
Кто знает как убрать дубли страниц?, либо просто ждать надо и он сам уберет при следующих обновлениях, но ведь он заходит на главную под разными адресами. Попытался запретить к индексации в robots.txt добавил Disallow: /*?* , т.е все не ЧПУ ссылки Сегодня решил удалить страницы из индекса вручную в яндексе - ввожу эту страницу http://yursodeistvie.ru/?topic=69.0, а Яндекс пишет "Нет оснований для удаления. Сервер не возвращает код 404, индексирование не запрещено ни в robots.txt, ни метатегом noindex." Напиши в robots.txt страницы которые хочешь удалить, после сможешь удалить в яндексе. ============ У меня вопрос, как думаете следует ли закрывать от индексации, страницы статей? К примеру если статей 10 страниц, то предполагаю лучше закрыть подобные ссылки ?start=10 ?limitstart=0 и тд. чтоб не было дублей. Как думаете?
|
|
|
|
|
Записан
|
|
|
|
reasons
Давно я тут
  
Репутация: +6/-0
Offline
Сообщений: 315
Могу ошибаться!
|
 |
« Ответ #55 : 03.06.2012, 19:02:14 » |
|
конечно закрывай дубли
|
|
|
|
|
Записан
|
|
|
|
Хьервард
Захожу иногда

Репутация: +0/-0
Offline
Пол: 
Сообщений: 10
|
 |
« Ответ #56 : 11.06.2012, 04:55:49 » |
|
Доброго времени суток. Не знаю обсуждалось или нет.. В общем у меня проблема такого рода, точнее даже не знаю проблема ли это. Мой robots.txt User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /cgi-bin/ Disallow: /webstat/ Disallow: /otherlink/ Disallow: /community* Disallow: /index.php? Disallow: /*% Disallow: /*? Disallow: *.pdf$ Disallow: /name.php?action=print Disallow: /*rss.html Disallow: /*atom.html Disallow: /?task=emailform Disallow: /?ui=desktop
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /cgi-bin/ Disallow: /webstat/ Disallow: /otherlink/ Disallow: /community* Disallow: /index.php? Disallow: /*% Disallow: /*? Disallow: *.pdf$ Disallow: /name.php?action=print Disallow: /*rss.html Disallow: /*atom.html Disallow: /?task=emailform Disallow: /?ui=desktop Host: www.03clinic.ru Sitemap: http://www.mysite.ru/sitemap.xml Вроде бы всё правильно... Но меня смущает то что Google выдаёт в панели вебмастера в Заблокированых URL вот такую информацию :  Сайт новый в sitemap всего 280 страниц. И я не могу понять, какие URL пропущены в индекс а какие нет. Может меня кто то исправит или поможет решить данного рода проблему ? На Сайте используются такие компоненты как sh404SEF JomSocial EasyBlog EasyDiscuss К2. Может кто использовал данную связку и знает как улучшить Robots.txt что то может стоит открыть для поисковиков , что то наоборот закрыть ? Прошу помощи. любому ответу буду рад. Спасибо.
|
|
|
|
|
Записан
|
|
|
|
|
eclipseggg
|
 |
« Ответ #57 : 11.06.2012, 13:09:10 » |
|
Хьервард, нигде нельзя посмотреть заблокированны те что прописаны у тебя в файле robots.txt на основной странице показывает сколько в сайт-мапе и сколько в индексе...и ошибки сканирования.... допустим мне нужны только SEF ссылки в поиск и я закрываю так же "index.php?" и он их не добавляет но естественно учитывает что они заблокированны=) так что не паникуй=) а когда не будет нужных страниц в поиске тогда уже ищи можешь проверить запросом site:adressaita.ru в Google и покажет так же страницы которые видит=)
|
|
|
|
« Последнее редактирование: 11.06.2012, 23:57:34 от ELLE »
|
Записан
|
|
|
|
angemax
Осваиваюсь на форуме
 
Репутация: +3/-0
Offline
Сообщений: 136
|
 |
« Ответ #58 : 19.06.2012, 20:52:30 » |
|
в robots.txt прописано: Disallow: /component/option,com_search/ Disallow: /component/option,com_newsfeeds/ Disallow: /component/option,com_wrapper/ Однако в вебмастере Яндекса выдает ошибку: Возможно, был использован недопустимый символ И как это исправить? а ведь страницы существуют и дают дубли
|
|
|
|
|
Записан
|
|
|
|
|
ELLE
|
 |
« Ответ #59 : 20.06.2012, 15:50:12 » |
|
То есть, вместо , поставить * , или я неправильно поняла
Disallow: /*com_search Disallow: /*com_newsfeeds Disallow: /*com_wrapper Запятых не должно быть
|
|
|
|
|
Записан
|
|
|
|
|