У меня есть строка, содержащая HTML-страницу, загруженную через WinHttpReadData
. Строка представляет собой простую char*
.
Я пытался найти способ извлечь только те URL-адреса, которые находятся на этой странице. В качестве примера представьте, что вы ищете в Google слово WinHTTP, и вам предоставляется HTML-страница, полная ссылок. Теперь мне нужно проверить каждую ссылку, извлечь ее и сохранить в файл.
Я пробовал искать HREF
, http://
и другие ключевые слова, а затем пытался извлечь строку полностью до </a>
, но на самом деле это не работает. Было бы неплохо также получить описание этого URL-адреса (например, <a href="http://someurl.com/somepage.html">some text</a>
получить some text
), но это не так важно, как сам URL-адрес.
Сложность здесь в том, что я не могу использовать сторонние библиотеки, так как не хочу иметь дело с лицензиями и тому подобным.
Есть идеи, как это сделать? Предоставляет ли WinHTTP способ сделать это? в C (не C++)?
Спасибо за помощь