Вопросы по теме 'pdftotext'

Методы разбора больших файлов PDF
У меня есть очень большой файл PDF (200 000 КБ или более), который содержит серию страниц, содержащих только таблицы. Я хотел бы как-то разобрать эту информацию с помощью Ruby и импортировать полученные данные в базу данных MySQL. Кто-нибудь знает...
2058 просмотров
schedule 19.04.2023

Удалить номер страницы, верхний и нижний колонтитулы из файла PDF
Я хочу разобрать файл PDF, для этого я использую утилиту pdftotext , которая преобразует файл PDF в текстовый файл, теперь я хочу удалить номер страницы, верхний и нижний колонтитулы из текстового файла. Я конвертирую файл PDF, используя следующий...
8507 просмотров
schedule 28.03.2022

Как извлечь данные таблицы из PDF как CSV из командной строки?
Я хочу извлечь все строки из здесь , игнорируя заголовки столбцов, а также все заголовки страниц, то есть Supported Devices . pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \ | sed '$d'...
23525 просмотров
schedule 13.04.2022

Получить текст из PDF, хранящегося в LocalFolder, с помощью iTextSharp
Я пытаюсь получить текст из PDF-файла, хранящегося в localStorage в приложении Windows Phone 8.1, но всегда получаю исключение FileNotFoundException. Чтобы объяснить всю историю, я получаю PDF-файл из онлайн-источника, сохраняю его в папке с...
515 просмотров

PDF в текст: iTextSharp: дубликаты страниц в результатах извлечения
Заранее спасибо. Фон: Я работаю над консольным приложением, которое извлекает данные из определенных разделов в документах PDF. Для этого мне сначала нужно преобразовать этот PDF-файл в строку для работы. Для этого я обратился к iTextSharp....
1777 просмотров
schedule 07.04.2022

Не удалось установить pdftotext на Python 3.6, отсутствует поплер
Как правильно установить pdftotext? Я получаю сообщение об ошибке ниже при установке pdftotext в Python 3.6. Я также пытался установить пакет вручную, загрузив zip-файл, но все равно получил ту же ошибку. pdftotext/pdftotext.cpp(4): fatal...
31450 просмотров
schedule 08.01.2023

странные слова появляются при извлечении арабского текста из pdf (PdfToText)
У меня проблема с извлечением арабского текста из pdf. Я использую библиотеку PdfToText Текст появляется на этом рисунке. Я попытался <meta content="text/html; charset=utf-8" http-equiv="Content-Type" /> but this did...
397 просмотров
schedule 22.06.2023

Tabula-py для извлечения таблицы без полей
Может ли кто-нибудь предложить мне, как извлечь табличные данные из PDF-файла с помощью программы python/java для приведенной ниже таблицы без полей, представленной в файле PDF?
1583 просмотров
schedule 19.11.2023

Установка библиотеки pdftotext на героку
Библиотека pdftotext является требованием в файле requirements.txt. При попытке нажать на героку я получаю следующую ошибку: remote: Running setup.py install for pdftotext: started remote: Running setup.py install for...
669 просмотров
schedule 20.07.2023

Проблема с установкой pdftotext в Python 3.6 на CentOS из-за poppler
У меня возникли проблемы с установкой pdftotext в Python 3.6 (Anaconda 5.1.0) на CentOS. Сначала несколько быстрых заметок: Я использую CentOS 6.7 на VirtualBox. Я знаю, что он может работать, потому что моя ИТ-группа установила его на...
2844 просмотров
schedule 25.04.2023

Возврат форматированного текста из результатов GCP Vision PDF
Наконец-то я получил свой скрипт для отправки PDF-документа в хранилище Google, а затем извлечения текста с помощью Google Vision для PDF, как описано в документация . Данные возвращаются в огромном файле JSON. Есть один узел, содержащий test, но...
220 просмотров
schedule 22.08.2023

Извлечь текст из pdf, не работающего в Laravel
Я пытаюсь извлечь некоторый текст из файла PDF в Laravel, используя Spatie-PdfToText. Однако я получаю сообщение об ошибке, нет такого файла или каталога. Функция находится по этому пути app\Http\Controllers\AddRecordsController , а PDF-файл по...
693 просмотров
schedule 09.07.2022

Я хочу преобразовать PDF в текст. но это дает мне ошибку. почему spatie/pdf-to-text показывает ошибку?
мой код <?php require_once 'vendor/autoload.php'; use Spatie\PdfToText\Pdf; echo Pdf::getText('simple.pdf'); сообщение об ошибке Неустранимая ошибка: Uncaught Spatie\PdfToText\Exceptions\CouldNotExtractText: команда...
1941 просмотров
schedule 03.05.2023

Извлечение текста из PDF с помощью PDF2Text (PHP)
Я пытаюсь извлечь текст из нескольких PDF-файлов, используя библиотеку class.pdf2text.php. Однако извлеченное содержимое: 5(68/7$76 $%62/876 ,, 0LWMD L 4XDUW GH 0DUDWy (V /ORPEDUGV   0HQRUV ,, 0LWMD L 4XDUW GH 0DUDWy (V /ORPEDUGV   0HQRUV...
1987 просмотров
schedule 16.07.2023

PackagesNotFoundError: Следующие пакеты pykg-config недоступны из текущих каналов:
Я пытаюсь установить несколько новых пакетов pykg-config , чтобы получить доступ к функциям, необходимым для университетского задания. При попытке установить получаю следующее: Solving environment: failed with initial frozen solve. Retrying with...
4293 просмотров
schedule 22.06.2023

Дайте мне регулярное выражение для поиска номера счета в куче преобразованных текстовых документов из банковской выписки pdf
У меня есть куча различных pdf-файлов с банковскими выписками, которые я преобразовал в текст, из которого нужно извлечь информацию о потребителе. Мне нужно написать регулярное выражение для извлечения номера счета. За номером счета следуют...
101 просмотров
schedule 29.11.2023

pip установить pdftotext python без Anaconda
есть ли способ установить pdftotext без Anaconda? Мне удалось открыть pdftotext с помощью командной строки. Я установил poppler и добавил его в путь, а также установил расширения кода C++ Visual Studio. но я все еще получаю сообщение об ошибке,...
129 просмотров
schedule 16.04.2023

Преобразование PDF в текст без потери форматирования
Когда я конвертирую pdf с некоторым форматом в txt, я получаю весь текст слева. Есть ли код для преобразования pdf в txt с тем же форматом, что и в pdf?
27 просмотров
schedule 21.03.2023