Форум русской поддержки Joomla!® CMS
06.12.2016, 06:57:46 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
   
   Начало   Поиск Joomla 3.0 FAQ Joomla 2.5 FAQ Joomla 1.5 FAQ Правила форума Новости Joomla Реклама Войти Регистрация Помощь  
Страниц: [1] 2 3  Все   Вниз
  Добавить закладку  |  Печать  
Автор

Можно ли защитить Joomla от парсинга страниц?

 (Прочитано 445 раз)
0 Пользователей и 1 Гость смотрят эту тему.
1-F7
Давно я тут
****

Репутация: +0/-0
Offline Offline

Пол: Мужской
Сообщений: 219



« : 10.10.2016, 12:43:06 »

Привет народ, можно ли защитить Joomla от парсинга страниц?
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #1 : 10.10.2016, 12:44:49 »

конечно можно. надо просто сайт в интернет не выкладывать. или запретить доступ к нему.
Записан
1-F7
Давно я тут
****

Репутация: +0/-0
Offline Offline

Пол: Мужской
Сообщений: 219



« Ответ #2 : 10.10.2016, 12:58:20 »

Ясно.
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #3 : 10.10.2016, 13:18:10 »

от парсинга чего именно вы хотите защититься? для изображений например можно использовать водяной знак.
Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #4 : 10.10.2016, 13:19:46 »

Joomla ни при чем, как минимум 3 программы умеют пакетно вытаскивать информацию без какого-либо программирования с любого html-сайта (offline explorer, например). настроил интервал запроса страниц и все, никакой анипарсер за руку не поймает - за час выкачает неторопливо ваш сайт...
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #5 : 10.10.2016, 13:22:58 »

скачали, посмотрели, если не нужно - закачивайте обратно. а то скачаете все сайты, а в интернете потом ничего не останется Azn
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #6 : 10.10.2016, 13:42:22 »

Можно RSS отключить совсем, настроить через htaccess интервал обращения к странице с одного IP (грубо говоря, человек не может просматривать по одной странице в 5 секунд). Забанить парсер по IP (если ходит не через прокси). Установить антилич на картинки, если тащат с картинками. Если парсер тащит статью в режиме реального времени и тут же публикует - подсовывать ему левую статью с разной бякой Azn. Вообще, парсеры разные бывают - некоторые работают через кэширующие прокси, с такими бороться сложнее.

А ещё на копипастеров контента можно накатать абузу хостеру и в поисковые системы. Мне помогало. Google по абузе DMCA выкинул из поиска страницы парсильщика с копированными статьями, а хостер заставил удалить статьи. Зеркало Рунета никак не отреагировало - по своему обыкновению.

Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #7 : 10.10.2016, 13:46:23 »

все, что кроме абузы - это все конечно можно делать. только зачем? Azn результат будет ровно такой же, как если бы ничего не делать Azn если вас захотят спарсить - вас спарсят, чтобы вы не придумали.
Записан
1-F7
Давно я тут
****

Репутация: +0/-0
Offline Offline

Пол: Мужской
Сообщений: 219



« Ответ #8 : 10.10.2016, 13:59:14 »

Спасибо всем за ответы.
Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #9 : 10.10.2016, 14:10:50 »

Missile, защититься от выкачивания сайта - нельзя, а вот навредить реальным посетителям - можно.
допустим, я смотрю каталог товаров и меня интересуют 3 похожие позиции. что я делаю? открываю сразу три страницы в разных вкладках... и получаю бан? ))
нереально, в общем и бесперспективно.
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #10 : 10.10.2016, 14:32:22 »

открываю сразу три страницы в разных вкладках... и получаю бан? ))
это еще и без учета того, что в реальной жизни с одного айпи адреса могут заходить целые подсети. далеко не у всех есть белый IP.
Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #11 : 10.10.2016, 14:40:14 »

перефразируя одного одиозного олигарха:
- У кого нет собственного IP - может идти в жпу! ))
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #12 : 10.10.2016, 14:42:02 »

Цитировать
допустим, я смотрю каталог товаров и меня интересуют 3 похожие позиции. что я делаю? открываю сразу три страницы в разных вкладках... и получаю бан? ))
Парсер всё равно делает это быстрее.
Защититься на 100% нельзя, но осложнить задачу грабберу - реально.
Цитировать
если вас захотят спарсить - вас спарсят, чтобы вы не придумали
Поэтому нужно расслабиться и получать удовольствие? Вот из-за таких настроений воришки контента и чувствуют себя безнаказанно.
Всегда нужно бороться и отстаивать свои права. Поверьте мне, это работает.
Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #13 : 10.10.2016, 14:45:14 »

Missile, вы невнимательно читали )
выкачивалки сайтов давно обошли эти ограничения. я название постил, скачайте ради интереса, чтобы иллюзии рассеялись.
я могу выставить 3, 5 или 10 секунд интервала запроса между страницами и пойти спать, к утру все что было ваше - станет наше. а в логах вам напишут, что это были разные браузеры, а если прокси прописать, то и IP )
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #14 : 10.10.2016, 14:53:28 »

Поэтому нужно расслабиться и получать удовольствие?
совершенно верно Azn голову этим забивать себе точно не стоит, все равно повлиять вы на это никак не сможете.

Поверьте мне, это работает.
поверьте мне (и не только мне) - не работает Azn
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #15 : 10.10.2016, 15:15:41 »

Цитировать
это еще и без учета того, что в реальной жизни с одного айпи адреса могут заходить целые подсети
Вряд ли целые подсети будут заходить на один конкретный сайт. Если это не сайт Яндекса, конечно, или известных СМИ.
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #16 : 10.10.2016, 15:17:05 »

Цитировать
я название постил, скачайте ради интереса
Я этой фигнёй пользовалась ещё в 2005 году. Но она работает совершенно не так, как парсер. Парсер не выкачивает сайт, он чекает изменения.
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #17 : 10.10.2016, 15:20:29 »

Цитировать
поверьте мне (и не только мне) - не работает
У меня лично было несколько случаев, когда удалось заткнуть парсер, и последний случился буквально две-три недели назад.
Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #18 : 10.10.2016, 15:23:35 »

Missile, ну так принципиальной разницы нет никакой. Спец тулзы всегда идут на шаг впереди защитников.
Конкретно парсер я 1 раз писал сам, простейший. Даже мне знаний хватило, чтобы что-то наваять рабочее с использованием cURL.
А уж те, кто на этом зарабатывает, думается, функционал с прокси и таймаутами давно прикрутили. Так что вы можете торжествовать над школьниками, разве что. Имхо, оно того не стоит )
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #19 : 10.10.2016, 16:01:27 »

Спец тулзы всегда идут на шаг впереди защитников.
я бы наверное сказал, что наоборот. но это не особо и важно, правил игры это не меняет Azn

У меня лично было несколько случаев, когда удалось заткнуть парсер, и последний случился буквально две-три недели назад.
та я ж не против. я не говорю, что ваши действия не окажут на какое то время положительного эффекта. есть разные методики, меняются положения блоков контента, привязки к ид и так далее. но в конечном счете это будет игра "кому первому надоест". с учетом того, что парсеров много, а вы одна - то думаю что вам Azn а если итого все равно известен, и это путь неправильный, хоть и более долгий - то зачем?

Показать текстовый блок

пусть воруют. тратьте свое время на поиск других способов привлечения, вместо того чтобы тратить его на то, что в конечном итоге все равно будет неудачным
« Последнее редактирование: 10.10.2016, 16:05:26 от dmitry_stas » Записан
effrit
Группа развития
*****

Репутация: +730/-7
Offline Offline

Пол: Мужской
Сообщений: 6807


effrit.com


« Ответ #20 : 10.10.2016, 16:19:29 »

я тоже не против борьбы, в плане получения знаний и опыта ).
но в перспективе кроме изжоги и язвы такая борьба ничего не принесет, имхо. так что абузами бить по шапке особо наглых, а школьников пусть естественный отбор кушает )
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #21 : 10.10.2016, 16:21:27 »

полностью поддерживаю. только нервы себе портить, а профита в конечном счете все равно никакого.
Записан
Septdir
Живу я здесь
******

Репутация: +35/-3
Offline Offline

Пол: Мужской
Сообщений: 838


Skype: septdir


« Ответ #22 : 10.10.2016, 16:53:07 »

защита от парсинга, это то же самое что попытаться защиться от настоящего взлома, бесполезно. Захотят спарсят. Да и толку. Если авторство, то тут право первой публикации работает, да и все равно хрен чего добьешся. Изображения, ну это чаще всего вотермарки бесят, когда все сайты лепят их на не свои картинки.  Так что как верно сказанно выше, чисто в теоритическом плане, погонять мысью, идеи интересная практическая же часть, принесет только потерю времени.
Записан
Филипп Сорокин
Живу я здесь
******

Репутация: +120/-3
Offline Offline

Пол: Мужской
Сообщений: 1451


« Ответ #23 : 10.10.2016, 16:58:21 »

Эмм.. от парсинга?
Мож от граббинга?

Есть такой сервис в Яндексе, называется "Уникальный текст".
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #24 : 10.10.2016, 17:01:44 »

Эмм.. от парсинга?
Мож от граббинга?
от кражи цифрового контента, который лежит в паблике Azn
Записан
Missile
Завсегдатай
*****

Репутация: +70/-0
Offline Offline

Пол: Женский
Сообщений: 682


« Ответ #25 : 10.10.2016, 17:27:30 »

Цитировать
есть разные методики, меняются положения блоков контента, привязки к ид и так далее. но в конечном счете это будет игра "кому первому надоест"
Я использую все средства. Знаете, когда воришка каждые 10 минут получает на свой сайт статью про то, что он неправомерно использует чужой контент - ему это надоедает гораздо быстрее, чем мне.
Цитировать
пусть воруют. тратьте свое время на поиск других способов привлечения
Угу, я должна тратить время и придумывать, чтобы копипастерам легче жилось.
Цитировать
Если авторство, то тут право первой публикации работает, да и все равно хрен чего добьешся.
Никакого такого "права первой публикации не существует" - авторское право возникает в момент создания произведения и не требует никакой регистрации. По крайней мере, в РФ. И добиться своего можно без проблем даже на стадии досудебного урегулирования, если знать законодательство и писать грамотные абузы. Например, согласно ч. 1. ст. 1253.1. Гражданского кодекса РФ хостер несёт ответственность за нарушение интеллектуальных прав, если он знал или должен был знать о нарушении, но не принял мер по его прекращению. Умные хостеры предпочтут лишиться клиента, чем огрести себе проблем на пятую точку, потому что штрафы по ч. 4 ГК РФ могут составлять миллионы рублей. Тем более что достаточно прописать в Правила пользования услугой один пунктик и тем самым обезопасить себя от претензий клиентов. 
Цитировать
от кражи цифрового контента, который лежит в паблике
Нахождение "в паблике" вовсе не означает, что материал может использовать любой, кто захочет. Погуглите ГК РФ, часть 4.
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #26 : 10.10.2016, 17:36:42 »

Угу, я должна тратить время и придумывать, чтобы копипастерам легче жилось.
вы меня не поняли. я имел в виду, что вы должны тратить время на то, чтобы легче жилось вам. а не тяжелее им.

Нахождение "в паблике" вовсе не означает, что материал может использовать любой, кто захочет. Погуглите ГК РФ, часть 4.
опять не поняли. я всего лишь объяснил, от чего мы пытаемся защитится.

Я использую все средства. Знаете, когда воришка каждые 10 минут получает на свой сайт статью про то, что он неправомерно использует чужой контент - ему это надоедает гораздо быстрее, чем мне.
не хочется спорить. будем считать, что вы всех победили Azn по крайней мере тех, кого поймали. а остальные... тут проще - вы ж о них не знаете Azn поэтому их как бы и нет Azn
Записан
Филипп Сорокин
Живу я здесь
******

Репутация: +120/-3
Offline Offline

Пол: Мужской
Сообщений: 1451


« Ответ #27 : 10.10.2016, 17:55:11 »

Одна из безумных техник - base64-кодирование контента с последующим его раскодированием JavaScript на стороне клиента.
Записан
dmitry_stas
Профи
********

Репутация: +796/-4
Offline Offline

Сообщений: 7761



« Ответ #28 : 10.10.2016, 18:04:32 »

а поисковики?
Записан
voland
Профи
********

Репутация: +487/-86
Offline Offline

Пол: Мужской
Сообщений: 8711


любит наш народ всякое гавно...


« Ответ #29 : 10.10.2016, 18:09:42 »

а поисковики?
А зачем они?
Записан
Страниц: [1] 2 3  Все   Вверх
  Добавить закладку  |  Печать  
 
Перейти в:  

Powered by SMF 1.1.21 | SMF © 2006, Simple Machines

Joomlaforum.ru is not affiliated with or endorsed by the Joomla! Project or Open Source Matters.
The Joomla! name and logo is used under a limited license granted by Open Source Matters
the trademark holder in the United States and other countries.

LiveInternet