Цены продажи недвижимости, регрессия и классификация: наука о данных - будущее гадания

Как мы все знаем, я необычайно наделен совершенно реальными экстрасенсорными способностями.

Мой опыт экстрасенса уходит корнями в детство. На мой шестой день рождения мама распечатала мне полное астрологическое предсказание на следующий год моей жизни. Я, конечно, был разочарован. Не потому, что я был слишком молод для сверхъестественных предсказаний будущего. Но потому что у меня уже были экстрасенсорные способности, необходимые для предсказания моей судьбы. Каждое утро я читал образцы остатков чирио в мисках для завтрака. Очевидно. У меня была система, чтобы мое будущее оставалось светлым!

А если серьезно, то, будучи 20-летним молодым специалистом по данным, я обнаруживаю все больше и больше сходства между навыками гадалки и аналитика данных. Наконец, я смогу найти хорошее применение своим многолетним, казалось бы, бесполезным тайным знаниям. Вы мне не верите?

Ну алгоритмы и машинное обучение - прекрасный пример современного гадания на практике. В настоящее время опыт поиска агрессивной рекламы Amazon, персонально настроенной в соответствии с вашими интересами, практически универсален:

Машинное обучение - это процесс обучения компьютера умению предсказывать будущие точки данных на основе его предыдущего массива информации. Основная форма машинного обучения, на которой я сосредоточился в своем проекте по науке о данных «Прогнозирование продажных цен на недвижимость с помощью набора данных о жилье Эймса, штат Айова», - это линейная регрессия. Эта модель создает линию наилучшего соответствия по набору данных, чтобы предсказать вероятность того, что дом будет иметь определенную цену (если у него, скажем, 20000 кв. Футов, готовый гараж, нет забора и т. Д.)

Следующая инфографика, например, представляет мой анализ взаимосвязи между продажной ценой недвижимости (ось X) и общей жилой площадью (ось Y). Выбросы были удалены из этого конкретного набора данных, что помогло сохранить качество моего предсказателя линейной регрессии. Эта взаимосвязь между продажной ценой и брутто-жилой площадью, в дополнение ко многим другим факторам, которые сильно коррелируют с продажной ценой, стала моими инструментами для прогнозирования того, как будет оцениваться дом определенной демографической группы.

В конечном итоге моя модель линейной регрессии смогла предсказывать дома с помощью только среднеквадратичной ошибки 27000. Это означает, что для любого заданного прогноза цены на дом, который делает моя модель, фактическая (непредсказуемая) продажная цена дома будет в среднем на 27000 долларов меньше моего прогноза. Учитывая тот факт, что большинство домов продается по крайней мере по цене выше 50 000 долларов, такая сумма ошибки относительно приемлема. Однако мои способности волшебника гадания теперь простираются даже дальше, чем просто «линейная регрессия».

Я также могу использовать классификаторы «логистической регрессии» и «K-ближайших соседей» для сортировки данных, прогнозируя, в какие лагеря попадет каждая из моих точек данных. Например, в моем проекте по науке о данных «Проблемы Tinder или советы по взаимоотношениям?» Я извлекаю данные из подреддитов «Tinder» и «Советы по взаимоотношениям» с Reddit. Используя различные методы обработки естественного языка, я строю модель, которая может предсказать, исходит ли данное сообщение от «Tinder» или «совета по взаимоотношениям».

Теперь, действительно ли у меня есть экстрасенсорная способность предсказывать будущее с помощью ритуального жертвоприношения? Возможно, мир никогда не узнает. Но, к счастью, я могу просто предсказывать будущее с помощью таких навыков Data Science, как машинное обучение. Я могу создавать регрессии для определения числовых прогнозов, классификаторы для предсказания категориальных результатов, и мне даже не нужно вытаскивать свой хрустальный шар.

И даже лучше, в отличие от тайного колдовства, Data Science обосновывает все свои прогнозы фактами и ранее собранными данными. Во всяком случае, это настоящая магия науки о данных. Я могу взять любой объем информации в любой области и, затратив достаточно времени и усилий, предсказать будущее. Что может быть волшебнее этого?