0 Пользователей и 1 Гость просматривают эту тему.
  • 3 Ответов
  • 539 Просмотров
*

Sergeych

  • Захожу иногда
  • 161
  • 25 / 0
[УДАЛИТЕ]
« : 27.01.2021, 13:51:17 »
Привет All

Созидаю плагин контента (учусь) для поиска определенного содержания в файлах (pdf) фигурирующих в виде ссылок в материалах...

Есть материал Joomla вида
Код
some text
some text
some text
<a href="/files/name1.pdf">name1</a>
<a href="/files/name2.pdf">name2</a>
<a href="/files/name3.pdf">name3</a>
some text
some text

Нужно в материале (т.е. $article->text ) определить ссылки на файлы (например pdf), прочитать их (или лучше прочитать скажем первые 100КБ потому как файлы могут быть большие и их может быть много) и если внутри файлов есть последовательность например
Код
$code='123456789';
то вывести после ссответствующих ссылок уведомление, например
Код
$ahtung='сode inside!';
Если-бы я искал этот $code в тексте самого материала, то сделал-бы что-то типа (в функции onContentPrepare)
Код
if (strpos($article->text, $code)) //проверяем, есть ли в материале искомый $code
{
$html =$code . ' - ' . $ahtung;
$article->text = str_replace($code, $html, $article->text);
}
else return false;

Т.е. нужно, чтобы исходный материал преобразовался при выводе к виду типа
Код
some text
some text
some text
<a href="/files/name1.pdf">name1</a>
<a href="/files/name2.pdf">name2</a> - сode inside!
<a href="/files/name3.pdf">name3</a> - сode inside!
some text
some text
ну как-то так...

Братцы, помогите тупенькому  >:(
« Последнее редактирование: 02.02.2021, 09:36:43 от Sergeych »
*

beliyadm

  • Легенда
  • 9758
  • 1664 / 66
  • Севастополь, Россия
Re: PHP-шники, тупенькому
« Ответ #1 : 27.01.2021, 20:43:25 »
Сложная задача.
Для начала курить Google php поиск в pdf и прочие подобные запросы на буржуйском.
Дальше - 90% контента в ПДФ - это отсканированные картинки, поиск по которым без распознавания текста (что на PHP невозможно) работать естессно не будет.

Просто найти в контенте документы в формате PDF - не сложно, обработать и вытащить оттуда текст (если он текст) - сложно, если там картинка - невозможно.
Не лучший пример для обучения, возьмите тот же WORD\TXT для начала
Все истины, которые я хочу вам изложить, — бесстыдная ложь. Сделать всё хорошо
TLG: @Beliyadm
*

Sergeych

  • Захожу иногда
  • 161
  • 25 / 0
Re: PHP-шники, тупенькому
« Ответ #2 : 27.01.2021, 23:20:08 »
Сложная задача.
Для начала курить Google php поиск в pdf и прочие подобные запросы на буржуйском.
Дальше - 90% контента в ПДФ - это отсканированные картинки, поиск по которым без распознавания текста (что на PHP невозможно) работать естессно не будет.
Это не требуется, искомый фрагмент текста встречается единственный раз и он там точно есть в виде именно просто текста (проверяю открывая pdf файл блокнотом++) или его там нет в принципе. Это как раз не сложно...
Что-то типа:
Код
if (strpos(file_get_contents("name1.pdf"), "$code")) echo "Есть"; else echo "Нету";

Цитировать
Просто найти в контенте документы в формате PDF - не сложно ...
Помоги Друг  *DRINK* я дико туплю. Т.е. примерно понимаю как, но применительно к onContentPrepare вообще поплыл ((
Цитировать
Не лучший пример для обучения, возьмите тот же WORD\TXT для начала
Можно, но думаю для моей конкретной задачи разницы нет
« Последнее редактирование: 28.01.2021, 16:42:07 от Sergeych »
*

beliyadm

  • Легенда
  • 9758
  • 1664 / 66
  • Севастополь, Россия
Re: PHP-шники, тупенькому
« Ответ #3 : 27.01.2021, 23:26:56 »
Ты гуглишь вообще не в ту сферу
onContentPrepare - это событие плагинов, если контент готов - делаем то-то или это
Так то да, можно на этом событии обработать пдф, если ты умеешь вытаскивать данные уже - то я вообще не вижу проблемы
Все истины, которые я хочу вам изложить, — бесстыдная ложь. Сделать всё хорошо
TLG: @Beliyadm
Чтобы оставить сообщение,
Вам необходимо Войти или Зарегистрироваться