У меня проблема с извлечением арабского текста из pdf.
Я использую библиотеку PdfToText
Текст появляется на этом рисунке. Я попытался
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
У меня проблема с извлечением арабского текста из pdf.
Я использую библиотеку PdfToText
Текст появляется на этом рисунке. Я попытался
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
Английские буквы являются частью основного набора символов ASCII, поэтому вывод обычно без проблем, однако любые другие языки используют разные акценты или даже разные буквы, т.е. Арабский, азбука, греческий и др. используют буквы из основного набора.
Убедитесь, что все три источника используют одинаковую кодировку:
объявление 1
Проверьте, как ваш редактор сохраняет скрипты PHP в файловой системе. Способ его настройки отличается от каждого редактора.
объявление 2 Используйте метатег HTML <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
объявление 3 определяет кодировку для использования UTF-8
, например: pdftotext -enc UTF-8 your.pdf
. Согласно документации класс PdfToText генерирует текст в кодировке UTF8.