Нужна помощь в запуске проекта парсинга html

Я пришел сюда за помощью, потому что начинаю проект и даже не знаю, какие вопросы задавать.

Все сводится к тому, что у меня есть куча html-файлов, которые мне нужно проанализировать для получения различной информации. Файлы заархивированы с онлайн-форума. Что я в основном хочу сделать, так это иметь возможность передать программе файл html и записать в базу данных следующую информацию:

-количество сообщений, сделанных каждым пользователем, временная метка каждого сообщения, независимо от того, появляется ли конкретная строка в теле сообщения или нет

а также некоторые другие подобные биты информации.

Будет ли парсер HTML правильным направлением? Я посмотрел на это, но я, честно говоря, не очень понимаю, как это реализовать. У меня есть степень бакалавра в области компьютерных наук, но программная часть в основном сосредоточена на алгоритмах и решении базовых логических задач. Мы так ничего и не узнали о сборке больших проектов, содержащих несколько файлов, поэтому мои знания о том, как реализованы файлы .jar и различные библиотеки, практически отсутствуют.

Все, что укажет мне в правильном направлении, будет очень признательно!


person turbopuns    schedule 02.06.2013    source источник
comment
Вы не упомянули язык, который предпочитаете, но, поскольку вы говорили о файлах jar, я предполагаю, что это Java. Я рекомендую использовать eclipse для проектов Java. Существует множество хороших руководств (погуглите!) о том, как начать работу с eclipse и работать с библиотеками. Поскольку вы, кажется, мало что знаете о практическом программировании, вам придется начать с нуля: научиться программировать! Не раньше, чем вы поймете основные понятия языка программирования, вы сможете взяться за такой проект.   -  person MCL    schedule 03.06.2013


Ответы (1)


Разбор HTML может выполняться на многих языках.

Если у вас мало или совсем нет опыта программирования, я рекомендую вам начать с Python. Вы сможете освоить его довольно быстро по сравнению с Java. Взгляните на трек Codecademy Python — http://www.codecademy.com/tracks/python.

Существует множество фреймворков, которые вы можете использовать для очистки HTML-кода в Python, таких как lxml, beautifulsoup и Scrapy. Выбор, который вы делаете между ними, зависит от степени вашей проблемы, например, как быстро вам нужно, чтобы ваша программа работала? Можете ли вы очистить html-файлы с помощью простых выражений xpath или вам нужно будет реализовать свои собственные функции для очистки?

Для быстрого и грязного решения я рекомендую BeautifulSoup. Вам даже не придется изучать xpath, чтобы сдвинуться с мертвой точки. Однако, судя по моему опыту, фреймворк довольно медленный, так что это не лучший выбор для долгосрочного решения.

Удачи!

person McMeep    schedule 10.06.2013