Я несколько дней пытался понять, как установить pdftotext на Win10. Поиски в инете мне ничего не дали. Итак, для тех, кому нужно знать, вот установка pdftotext на Win10 с помощью Anaconda. YMMV.
Установите Анаконду Python. Есть много статей по установке Anaconda, поэтому я не буду здесь их рассматривать.
Попробуйте запустить pip install pdftotext, вы получите сообщение об ошибке, что требуется Microsoft Visual C++.
В браузере перейдите на страницу http://visualstudio.microsoft.com/downloads. На вкладке «Инструменты для Visual Studio 2019» загрузите инструменты сборки для Visual Studio 2019. Затем вы установите инструменты, установив флажок «Инструменты сборки C++» и нажав «Установить».
Теперь вы должны установить pip, чтобы пройти мимо ошибки VC++. К сожалению, теперь вы получите сообщение об ошибке «Не удается открыть включаемый файл: poppler/cpp/poppler-document.h». Это потому, что вам не хватает библиотек poppler.
Возвращайтесь в интернеты! Вам понадобится поплер для окон. На момент написания этой статьи лучший вариант — http://blog.alivate.com.au/poppler-windows. Возьмите последний двоичный файл и распакуйте его. Если вы посмотрите на ошибку, pip ищет файл заголовка в {каталоге Anaconda3}\include\poppler\cpp\poppler-document.h. Так что загляните в архив, который вы только что разархивировали. В папке include вы увидите каталог poppler. Если вы спуститесь в каталог cpp, там вы найдете файл poppler-document.h.
Я скопировал весь каталог poppler в папку Anaconda3\include, так что сделайте это.
Если вы попытаетесь запустить pip install еще раз, вы все равно получите массу ошибок! Но это не одна из ошибок, которые вы видели ранее, вместо этого эта ошибка ищет отсутствующую связанную библиотеку, poppler-cpp.lib. Поиск по установкам Conda на другом компьютере нашел этот файл в пакете poppler. Так
conda установить -c conda-forge поплер
Который установит наш файл poppler-cpp.lib. Затем мы можем скопировать файл из его дома в {каталог Anaconda3}\Library\lib\poppler-cpp.lib и вставить его туда, где его ожидает pdftotext, в {каталог Anaconda3}\libs.
Если мы снова сделаем pip install pdftotext, вот оно! Я уверен, что кто-то найдет способ немного улучшить это, но пока у нас есть работающая библиотека Python pdftotext для Win10.
Эти инструкции со скриншотами можно найти в моем блоге https://coder.haus/2019/09/27/installing-pdftotext-through-pip-on-windows-10/
person
Jason Woods
schedule
27.09.2019