Я пришел сюда за помощью, потому что начинаю проект и даже не знаю, какие вопросы задавать.
Все сводится к тому, что у меня есть куча html-файлов, которые мне нужно проанализировать для получения различной информации. Файлы заархивированы с онлайн-форума. Что я в основном хочу сделать, так это иметь возможность передать программе файл html и записать в базу данных следующую информацию:
-количество сообщений, сделанных каждым пользователем, временная метка каждого сообщения, независимо от того, появляется ли конкретная строка в теле сообщения или нет
а также некоторые другие подобные биты информации.
Будет ли парсер HTML правильным направлением? Я посмотрел на это, но я, честно говоря, не очень понимаю, как это реализовать. У меня есть степень бакалавра в области компьютерных наук, но программная часть в основном сосредоточена на алгоритмах и решении базовых логических задач. Мы так ничего и не узнали о сборке больших проектов, содержащих несколько файлов, поэтому мои знания о том, как реализованы файлы .jar и различные библиотеки, практически отсутствуют.
Все, что укажет мне в правильном направлении, будет очень признательно!