странные слова появляются при извлечении арабского текста из pdf (PdfToText)

У меня проблема с извлечением арабского текста из pdf.
Я использую библиотеку PdfToText
Текст появляется на этом рисунке. Я попытался

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />

but this did not solve my problem

php pdftotext

Ahmed Mahmoud 19.03.2018 источник

comment

Я не уверен, но это может быть проблема с кодировкой - вы тестировали ее с помощью простого английского PDF? - James 19.03.2018

comment

да, я проверил это в английском pdf, и он работает хорошо, но в арабском pdf не работает - Ahmed Mahmoud 19.03.2018

comment

Я никогда не использовал его и не уверен, что это открытый исходный код для загрузки после регистрации, но, возможно, это может помочь? arabicpdf.com/PdfDebugger - James 19.03.2018

Ответы (1)

arrow_upward
0
arrow_downward

Английские буквы являются частью основного набора символов ASCII, поэтому вывод обычно без проблем, однако любые другие языки используют разные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и др. используют буквы из основного набора.

Убедитесь, что все три источника используют одинаковую кодировку:

все сценарии PHP, генерирующие вывод
метатег кодирования HTML
выходной файл тоже

объявление 1
Проверьте, как ваш редактор сохраняет скрипты PHP в файловой системе. Способ его настройки отличается от каждого редактора.

объявление 2 Используйте метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

объявление 3 определяет кодировку для использования UTF-8, например: pdftotext -enc UTF-8 your.pdf. Согласно документации класс PdfToText генерирует текст в кодировке UTF8.

ino 19.03.2018

comment

как я могу определить кодировку для использования utf-8? - Ahmed Mahmoud; 19.03.2018

comment

Я упомянул 3 места, где он должен быть установлен. К какому из них относится ваш вопрос? - ino; 19.03.2018

comment

В официальной документации PdfToText сказано, что его класс генерирует текст в кодировке UTF8. - ino; 19.03.2018

comment

Поэтому я бы сосредоточился на первом элементе и убедился, что ваша IDE сохраняет PHP-скрипты в UTF-8. Какой у вас редактор скриптов php? Сохраняет ли ваши файлы в правильной кодировке? - ino; 19.03.2018

comment

а кодировка? - ino; 19.03.2018

comment

Есть ли что-нибудь еще, что я могу использовать? - Ahmed Mahmoud; 19.03.2018

comment

как я могу теперь кодировку? - Ahmed Mahmoud; 19.03.2018

comment

stackoverflow.com/questions/21289157/ - ino; 19.03.2018

comment

та же проблема - Ahmed Mahmoud; 19.03.2018

comment

Вы уверены, что библиотека PdfToText поддерживает арабский алфавит? - ino; 19.03.2018

comment

У вас есть что-то еще? - Ahmed Mahmoud; 20.03.2018

странные слова появляются при извлечении арабского текста из pdf (PdfToText)

Ответы (1)

Похожие вопросы