странные слова появляются при извлечении арабского текста из pdf (PdfToText)

У меня проблема с извлечением арабского текста из pdf.
Я использую библиотеку PdfToText
Текст появляется на этом рисунке. Я попытался

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
but this did not solve my problem


person Ahmed Mahmoud    schedule 19.03.2018    source источник
comment
Я не уверен, но это может быть проблема с кодировкой - вы тестировали ее с помощью простого английского PDF?   -  person James    schedule 19.03.2018
comment
да, я проверил это в английском pdf, и он работает хорошо, но в арабском pdf не работает   -  person Ahmed Mahmoud    schedule 19.03.2018
comment
Я никогда не использовал его и не уверен, что это открытый исходный код для загрузки после регистрации, но, возможно, это может помочь? arabicpdf.com/PdfDebugger   -  person James    schedule 19.03.2018


Ответы (1)


Английские буквы являются частью основного набора символов ASCII, поэтому вывод обычно без проблем, однако любые другие языки используют разные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и др. используют буквы из основного набора.

Убедитесь, что все три источника используют одинаковую кодировку:

  1. все сценарии PHP, генерирующие вывод
  2. метатег кодирования HTML
  3. выходной файл тоже

объявление 1
Проверьте, как ваш редактор сохраняет скрипты PHP в файловой системе. Способ его настройки отличается от каждого редактора.

объявление 2 Используйте метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

объявление 3 определяет кодировку для использования UTF-8, например: pdftotext -enc UTF-8 your.pdf. Согласно документации класс PdfToText генерирует текст в кодировке UTF8.

person ino    schedule 19.03.2018
comment
как я могу определить кодировку для использования utf-8? - person Ahmed Mahmoud; 19.03.2018
comment
Я упомянул 3 места, где он должен быть установлен. К какому из них относится ваш вопрос? - person ino; 19.03.2018
comment
В официальной документации PdfToText сказано, что его класс генерирует текст в кодировке UTF8. - person ino; 19.03.2018
comment
Поэтому я бы сосредоточился на первом элементе и убедился, что ваша IDE сохраняет PHP-скрипты в UTF-8. Какой у вас редактор скриптов php? Сохраняет ли ваши файлы в правильной кодировке? - person ino; 19.03.2018
comment
а кодировка? - person ino; 19.03.2018
comment
Есть ли что-нибудь еще, что я могу использовать? - person Ahmed Mahmoud; 19.03.2018
comment
как я могу теперь кодировку? - person Ahmed Mahmoud; 19.03.2018
comment
stackoverflow.com/questions/21289157/ - person ino; 19.03.2018
comment
та же проблема - person Ahmed Mahmoud; 19.03.2018
comment
Вы уверены, что библиотека PdfToText поддерживает арабский алфавит? - person ino; 19.03.2018
comment
У вас есть что-то еще? - person Ahmed Mahmoud; 20.03.2018