Новости Joomla

Человек на GitHub ускорил Joomla в 600 раз на объёме 150к+ материалов в 1700+ категориях

Человек на GitHub ускорил Joomla в 600 раз на объёме 150к+ материалов в 1700+ категориях

👩‍💻 Человек на GitHub ускорил Joomla в 600 раз на объёме 150к+ материалов в 1700+ категориях. На старте его сайт на Joomla 3 вообще не смог обновиться на Joomla 5. Пришлось делать экспорт/импорт материалов. Проделав всё это он запустил-таки этот объём данных на Joomla 5. Тестовый скрипт грузил 200 материалов из этого объёма всего за 94 секунды ))) А главная страница с категориями грузилась 20 секунд. Добавив индекс для таблицы #__content

CREATE INDEX idx_catid_state ON #__content (catid, state);
он сократил время загрузки категорий до 1 секунды. Затем наш герой решил поковырять SQL-запрос в ArticleModel, который отвечает за выборку материалов. И решил заменить тип JOIN на STRAIGHT_JOIN для категорий.
// ->from($db->quoteName('#__content', 'a'))->from(    $db->quoteName('#__content', 'a')    . ' STRAIGHT_JOIN ' . $db->quoteName('#__categories', 'c')    . ' ON ' . $db->quoteName('c.id') . ' = ' . $db->quoteName('a.catid'))// ->join('LEFT', $db->quoteName('#__categories', 'c'), $db->quoteName('c.id') . ' = ' . $db->quoteName('a.catid'))
Что сократило загрузку 200 материалов из 150к с 94 секунд до 5. К слову сказать, боевой сайт на Joomla 3 крутится на 12CPU 64GB рамы. А все манипуляции с кодом он делает на базовом 1CPU 1GB сервере и замеры скорости даны именно для базового сервера. Но это всё в дискуссии, хотя в идеале должно вылиться в Pull Requests. Мы - Open Source сообщество, где никто никому ничего не должен. Джунгли. Но человек ищет пути оптимизации Joomla и предлагает решения. Если оказать поддержку и предложить помощь хотя бы с тестированием самых разнообразных сценариев, то возможно эти улучшения смогут войти в ядро. Пусть не быстро, пусть через несколько лет, пусть не все, но войдут. Достаточно предложить руку помощи и приложить немного усилий.
Дискуссию на GitHub можно почитать здесь.@joomlafeed#joomla #community #php

0 Пользователей и 1 Гость просматривают эту тему.
  • 7 Ответов
  • 1714 Просмотров
*

oleggrz

  • Захожу иногда
  • 435
  • 76 / 3
  • Только начал учиться.
В последнее время ко мне повадились копировщики сайтов, я так понимаю что сайт копируется с помощью программы Offline Explorer или какой-то подобной. В Joomla Watch прекрасно видно что перебираются все страницы сайта в среднем на просмотр страницы уходит секунда. В бан конечно отправить можно, но во-первых уже все скопировано, во-вторых IP скорее всего будет динамический. Дело не в том что сайт копируется, а в том что к чему мне лишняя нагрузка, ведь это происходит не один раз в сутки. Может есть какой-нибудь скрипт, который бы отслеживал скорость смены страниц и реагировал на это.
*

effrit

  • Легенда
  • 10132
  • 1118 / 13
  • effrit.com
oleggrz, я тебя разочарую - отслеживание скорости тебя не спасёт.
Offline Explorer позволяет в настройках менять интервал каждого нового обращения к сайту, поэтому подобный скрипт обходит "на раз", если твои копировщики не идиоты )
имхо, только бан по IP - не ради защиты инфы, конечно, а чтобы не нагружали
*

SmokerMan

  • Гуру
  • 5290
  • 720 / 26
В бан конечно отправить можно, но во-первых уже все скопировано, во-вторых IP скорее всего будет динамический.
Во-первых каким образом ты будешь отправлять в бан?
Очень заинтересовало, просто процедура, если типа кто-то чего-то зашел на сервер на 1 сек. и кто-то на 3 сек. Так вот вопрос как ты отследишь что кто-то зашел на 1 сек. и при этом отправишь его в бан? :) Технологии конечно далеко идут вперед, но пока мысли людей в публичном виде не читают.
Во-вторых IP это есть IP, как ты правильно заметил он может быть статическим (постоянным) и динамическим (изменяться). Так вот как твой сервер определит IP клиента эта уже зависит от многих факторов. В данном случае я думаю речь идет не о "динамическом IP", а о IP клиента, который в свою очередь можно легко подменить через прокси серверы и т.п.
*

oleggrz

  • Захожу иногда
  • 435
  • 76 / 3
  • Только начал учиться.
Цитировать
имхо, только бан по IP - не ради защиты инфы, конечно, а чтобы не нагружали
В принципе я так и думал.
Цитировать
Очень заинтересовало, просто процедура, если типа кто-то чего-то зашел на сервер на 1 сек. и кто-то на 3 сек. Так вот вопрос как ты отследишь что кто-то зашел на 1 сек. и при этом отправишь его в бан?
Я не программист, как сделать не знаю, поэтому и спрашивал.
А критерий отсеивания примерно такой: если с одного IP в течении 10 секунд приходит 10 запросов на разные страницы (человек может и на "Обновить" пять раз нажать, поэтому именно все страницы разные), то в бан.
Года два или три назад сам копировал один сайт (какой не помню, буржуйский, как справочник оффлайн использовал) так он мне давал копировать где-то полчаса в сутки, потом Explorer не мог соединится, хотя и интервалы ставил большие. Но по IP не банил, ручками по сайту ходил без проблем. Я с ним недели две возился, так что как-то все-таки реализовать можно, другой вопрос сколько это будет стоить и стоит ли с этим возиться.
*

yuri-design

  • Давно я тут
  • 652
  • 76 / 5
Мы закрыли глаза на эту проблему. Для нас - нерешаема.
Единственный совет (нам дали как-то) это держать сайт на localhost  ;)
*

Physicist

  • Глобальный модератор
  • 984
  • 194 / 0
  • Рябов Денис
Ну, если сайт скачивается для личного просмотра, то это нормально. Я тоже порой скачиваю целиком сайт, чтобы потом в поездке при отсутствии интернета было что читать, например.

А если проблема в том, что материал потом дублируется на других сайтах, то это уже вопрос скорее из области защиты авторских прав. Один из зарубежных коллег как-то описывал такое решение, которое они применяют: у них есть список ip-адресов гуглбота, и для каждой новой статьи они сначала открывают доступ только для этих адресов (и отправляют пинг на сервер, чтобы бот быстрее пришел), а когда гуглбот посетит страницу, то через несколько часов она становится доступна и для всех посетителей (задержка нужна, чтобы страница окончательно попала в индекс). Говорят, этого достаточно, чтобы Google правильно определил авторство и банил в результатах поиска остальные сайты с идентичным материалом. Им этого вполне достаточно. Вот только вряд ли такое пройдет с яндексом, т.к. он не такой частый гость на страницах сайтов.
*

valagoff

  • Давно я тут
  • 984
  • 110 / 0
Можно ещё посоветовать при публикации нового материала публиковать его на других сайтах со ссылкой на страницу своего сайта.
*

SmokerMan

  • Гуру
  • 5290
  • 720 / 26
oleggrz
я не о том писал :)
Боту нужно немного времени что бы он пропарсил сайт, гораздо меньше, чем будет находиться на нем тот же посетитель. Так вот я написал  о том как ты его отследишь от посетителя :) Теоретически это конечно возможно, но опять таки как я уже писал IP это не показатель прокси никто не отменял.
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться
 

Чем лучше всего делать резервные копии сайта?

Автор 7Azimuth

Ответов: 115
Просмотров: 59017
Последний ответ 29.11.2023, 14:41:12
от sivers
Joomla 1.5 как убрать кнопку редактировать материант с сайта

Автор andriy465

Ответов: 5
Просмотров: 4021
Последний ответ 12.11.2023, 23:37:03
от all_zer
У вас есть любимые места развлечений?

Автор Валюшка67

Ответов: 0
Просмотров: 2642
Последний ответ 06.06.2023, 23:55:03
от Валюшка67
Не могу распаковать jpa архив сайта Akeeba backup. ajax error

Автор smadkz

Ответов: 4
Просмотров: 1908
Последний ответ 26.12.2020, 15:15:15
от stendapuss
Версия сайта для слабовидящих

Автор nikos

Ответов: 22
Просмотров: 44412
Последний ответ 27.11.2020, 11:04:18
от chernobyl