[УДАЛИТЕ]

Sergeych

Захожу иногда
161
25 / 0

[УДАЛИТЕ]

« : 27.01.2021, 13:51:17 »

Привет All

Созидаю плагин контента (учусь) для поиска определенного содержания в файлах (pdf) фигурирующих в виде ссылок в материалах...

Есть материал Joomla вида

Код

some text
some text
some text
<a href="/files/name1.pdf">name1</a>
<a href="/files/name2.pdf">name2</a>
<a href="/files/name3.pdf">name3</a>
some text
some text

Нужно в материале (т.е. $article->text ) определить ссылки на файлы (например pdf), прочитать их (или лучше прочитать скажем первые 100КБ потому как файлы могут быть большие и их может быть много) и если внутри файлов есть последовательность например

Код

$code='123456789';

то вывести после ссответствующих ссылок уведомление, например

Код

$ahtung='сode inside!';

Если-бы я искал этот $code в тексте самого материала, то сделал-бы что-то типа (в функции onContentPrepare)

Код

if (strpos($article->text, $code)) //проверяем, есть ли в материале искомый $code
{
$html =$code . ' - ' . $ahtung;
$article->text = str_replace($code, $html, $article->text);
}	
else return false;

Т.е. нужно, чтобы исходный материал преобразовался при выводе к виду типа

Код

some text
some text
some text
<a href="/files/name1.pdf">name1</a>
<a href="/files/name2.pdf">name2</a> - сode inside!
<a href="/files/name3.pdf">name3</a> - сode inside!
some text
some text

ну как-то так...

Братцы, помогите тупенькому

« Последнее редактирование: 02.02.2021, 09:36:43 от Sergeych »

Записан

beliyadm

Легенда
9758
1665 / 66
Севастополь, Россия

Re: PHP-шники, тупенькому

« Ответ #1 : 27.01.2021, 20:43:25 »

Сложная задача.
Для начала курить Google php поиск в pdf и прочие подобные запросы на буржуйском.
Дальше - 90% контента в ПДФ - это отсканированные картинки, поиск по которым без распознавания текста (что на PHP невозможно) работать естессно не будет.

Просто найти в контенте документы в формате PDF - не сложно, обработать и вытащить оттуда текст (если он текст) - сложно, если там картинка - невозможно.
Не лучший пример для обучения, возьмите тот же WORD\TXT для начала

Записан

Все истины, которые я хочу вам изложить, — бесстыдная ложь. Сделать всё хорошо
TLG: @Beliyadm

Sergeych

Захожу иногда
161
25 / 0

Re: PHP-шники, тупенькому

« Ответ #2 : 27.01.2021, 23:20:08 »

Цитата: beliyadm от 27.01.2021, 20:43:25

Сложная задача.
Для начала курить Google php поиск в pdf и прочие подобные запросы на буржуйском.
Дальше - 90% контента в ПДФ - это отсканированные картинки, поиск по которым без распознавания текста (что на PHP невозможно) работать естессно не будет.

Это не требуется, искомый фрагмент текста встречается единственный раз и он там точно есть в виде именно просто текста (проверяю открывая pdf файл блокнотом++) или его там нет в принципе. Это как раз не сложно...
Что-то типа:

Код

if (strpos(file_get_contents("name1.pdf"), "$code")) echo "Есть"; else echo "Нету";

Цитировать

Просто найти в контенте документы в формате PDF - не сложно ...

Помоги Друг

я дико туплю. Т.е. примерно понимаю как, но применительно к onContentPrepare вообще поплыл ((

Цитировать

Не лучший пример для обучения, возьмите тот же WORD\TXT для начала

Можно, но думаю для моей конкретной задачи разницы нет

« Последнее редактирование: 28.01.2021, 16:42:07 от Sergeych »

Записан

beliyadm

Легенда
9758
1665 / 66
Севастополь, Россия

Re: PHP-шники, тупенькому

« Ответ #3 : 27.01.2021, 23:26:56 »

Ты гуглишь вообще не в ту сферу
onContentPrepare - это событие плагинов, если контент готов - делаем то-то или это
Так то да, можно на этом событии обработать пдф, если ты умеешь вытаскивать данные уже - то я вообще не вижу проблемы

Записан

Все истины, которые я хочу вам изложить, — бесстыдная ложь. Сделать всё хорошо
TLG: @Beliyadm

[УДАЛИТЕ] - Модули и плагины

Новости Joomla

Вышла новая версия joomLab Article Slider 1.1.0

Компонент Joomla 6: Генератор LLMs.txt.

👩‍💻 WT LLMs для Joomla: llms.txt, llms.json для AI-агентов.

Sergeych

[УДАЛИТЕ]

beliyadm

Re: PHP-шники, тупенькому

Sergeych

Re: PHP-шники, тупенькому

beliyadm

Re: PHP-шники, тупенькому