Веб-скрапинг — это метод, который собирает информацию из других онлайн-источников. Это отличный способ объединить разные источники в один. Чтобы создать парсер, вам нужно несколько вещей: онлайн-источники, некоторый код, который может получить доступ к Интернету, и графический интерфейс. В этой статье я собираюсь показать вам, как работает парсинг веб-страниц с использованием C#.

Цели этой статьи

В этой статье я покажу вам, как можно собирать информацию из Интернета с помощью C# и .NET. Мы будем использовать HTTPClient для онлайн-соединения и пакет HTML Agility Pack для чтения информации, которую мы получаем из ответа HTTPClient.

В конце этой статьи вы узнаете, как получить информацию с веб-сайта и поместить эту информацию в объекты C# для дальнейшего использования.

Я буду использовать консольное приложение под названием WebScraping.Console в решении под названием WebScraping.

Что такое парсинг веб-страниц?

Я люблю путешествовать и получаю информацию из нескольких источников. Некоторые веб-сайты, некоторые социальные сети и многое другое. Быть в курсе всех этих различных онлайн-источников может быть затруднительно, так почему бы не объединить их все в один? И это то, что может сделать парсинг веб-страниц.

Я создаю этот небольшой инструмент, который будет читать различные онлайн-страницы, получать с этих страниц новую информацию и сохранять ее в базе данных. Когда я открываю графический интерфейс, я вижу все новые статьи из 14 различных онлайн-источников на одной странице. Это экономит мне много времени при просмотре различных источников.

Но прежде чем я покажу вам, как получить информацию с веб-сайта, я хочу опровергнуть некоторые слухи, которые не соответствуют действительности:

Сбор веб-страниц законен, если запрашиваемая вами информация является общедоступной. Если вам нужно где-то зарегистрироваться, а затем получить данные, эта информация не является общедоступной. Просто будьте осторожны с этим.

Мы будем отправлять запросы на веб-сайт, используя HTTPClient. Не отправляйте запросы каждые 2 секунды. В результате ваш IP-адрес попадет в черный список, и вы не сможете получить нужную информацию. Обычно это временный бан, но иногда он постоянный. Обычно у меня интервалы от 3 до 6 часов.