Если вы планируете поездку на Менорку в отпуск, я рекомендую вам прочитать этот пост о ценах на жилье AirBnB на Менорке на 2020–2021 годы.

(Бонус — вы узнаете кое-что о науке о данных и машинном обучении)

Балеарские острова известны как одно из самых дорогих мест для отдыха в Испании, особенно в летний сезон.

В первых двух частях этой публикации я использовал общедоступные данные AirBnB, обработку данных и описательную статистику, чтобы ответить на следующие вопросы:

  1. Каково в среднем повышение цен летом на жилье AirBnB на Менорке?
  2. Могу ли я переночевать на Менорке менее чем за 35 долларов США? Если да, то где и в каком типе размещения?

В третьей части я расскажу вам о теоретическом бизнес-кейсе, в котором меня попросили разработать модель машинного обучения (МО) для прогнозирования средних цен на размещение.

Наборы данных и код, связанные с этим постом, можно найти в моем репозитории GitHub (ссылка в конце поста).

Каков в среднем летний рост цен на жилье AirBnB на Менорке?

В моей стране, Испании, все знают, что люди, которые живут и работают на Балеарских островах и не владеют недвижимостью, борются с повышением арендной платы в летний сезон.

Поэтому разумно предположить, что цены на жилье AirBnB на Менорке будут выше летом, но… Насколько дороже?

Чтобы ответить на этот вопрос, я использовал временной ряд со всеми ценами на все варианты размещения AirBnB, перечисленные на Менорке, с мая 2020 года по май 2021 года.

На линейной диаграмме выше показаны средние значения цен для всех вариантов размещения AirBnB на Менорке за 1 год. Красная штриховка вокруг линии указывает на 95% доверительный интервал вокруг средних значений.

Является ли в среднем жилье AirBnB более дорогим летом? Да, мы можем легко заметить пик кривой в летний сезон. Средняя цена начинает расти в мае 2020 года и достигает пика в августе, когда кривая выравнивается. Средняя цена резко снижается в конце августа, когда заканчивается летний сезон.

Мы можем сделать несколько простых расчетов и сделать вывод, что в среднем цены на жилье AirBnB на Менорке выросли летом 2021 года на 23,22 % по сравнению с ценами зимой 2020/2021 года.

Интересный вывод, который мы также можем извлечь из диаграммы, заключается в том, что жилье AirBnB в мае 2021 г. в среднем дороже, чем в мае 2020 г.

Мы могли ожидать более высоких цен в мае 2021 года. Однако для меня было неожиданностью то, что 14,82% жилья AirBnB на Менорке на самом деле дешевле в летний сезон 2021 года, а цены выше в зимний сезон 2020/2021 года. (Я обнаружил это при расчете среднего летнего роста цен.)

Это неожиданное, по крайней мере для меня, открытие может быть вызвано двумя причинами:

  • COVID-19: пандемия сильно ударила по экономике, особенно по туристическому бизнесу. Некоторые хосты AirBnB могут снижать цены в качестве меры по смягчению последствий.
  • Сочетание неизвестных причин. Возможно, по нескольким неизвестным причинам летом некоторые варианты размещения предлагают более низкую цену. например новое зарегистрированное жилье, которое переоценило свою рыночную стоимость.

Мы можем только догадываться об этом, так как нет доступных данных, чтобы сделать вывод, поэтому…что вы думаете?

Могу ли я переночевать на Менорке менее чем за 35 долларов США за ночь? Если да, то где и в каком типе размещения?

Учитывая тот факт, что климат Балеарских островов мягкий, а температура теплая в течение всего года, мне было любопытно узнать, можно ли остановиться в жилье AirBnB на Менорке менее чем за 35 долларов США за ночь, независимо от сезона.

Я сгруппировал данные по типам жилья и построил гистограммы, показывающие самые низкие цены за год.

Предположим, вам 20 лет, и ваша компания хочет арендовать дом или квартиру целиком для бюджетной поездки:

Вау! Кажется, есть довольно много вариантов, таких как Alaior, Ciutadella de Menorca и Es Mercadal, поэтому мы определенно могли бы арендовать весь дом AirBnB на Менорке менее чем за 35 долларов США за ночь.

Очевидно, нам нужно будет глубже изучить данные, чтобы определить, когда эти цены доступны, условия проживания и т. д., но это возможно!! В конце концов, в 20 лет вы не склонны много думать об этих вещах!

Что, если вы думаете о романтических выходных со своим партнером? Отель кажется лучшим выбором.. Можем ли мы найти бюджетный отель на Менорке?

Ммм.. Это будет не так просто. Мы могли бы найти что-нибудь в Ciutadella de Menorca, но я не уверен, что это будет хороший выбор для романтических выходных…

Наконец, давайте рассмотрим варианты, если мы ищем общее проживание с отдельной комнатой:

У нас есть много вариантов. Мы могли найти жилье менее чем за 35,00 долларов США за ночь практически везде на острове, за исключением районов Алайор и Эс Миджорн Гран.

В заключение: абсолютно возможно найти жилье AirBnB менее чем за 35 долларов США за ночь, особенно если вы ищете целый дом/квартиру или совместное жилье с отдельной комнатой.

Давайте теперь перейдем к теоретическому бизнес-кейсу, в котором мы могли бы использовать ML.

Бизнес-кейс. Можем ли мы использовать модель машинного обучения для определения стартовой цены жилья на AirBnB?

(Примечание. В этой части поста я предполагаю, что читатель хорошо понимает, как машинное обучение и данные могут помочь бизнесу.)

Представьте, что мой друг владеет недвижимостью на Менорке и планирует разместить ее на AirBnB в следующем году, чтобы получить дополнительный доход.

Он знает, что у меня есть техническое образование и я изучаю Data Science и ML, поэтому он просит меня разработать модель, которая может прогнозировать средние цены на жилье в течение 1 года.

Прежде чем дать ему ответ, я хочу убедиться, что это действительно осуществимо с имеющимися данными (общедоступные наборы данных AirBnB).

Для нетехнических людей модели ML изучают данные, а затем пытаются предсказать значения, когда вы передаете им новые данные, используя то, что они узнали. (например, если у меня есть дом в Сьюдаделья-де-Менорка с 5 спальнями, 2 ванными комнатами и бассейном, какова рыночная цена AirBnB?)

Не вдаваясь в подробности, вот шаги, которые я предпринял для того, чтобы оценить реализуемость проекта и выбрать перспективную модель:

  1. Первый взгляд на данные. Здесь вы пытаетесь получить общее представление о своих данных. Это исследование высокого уровня. Вы начинаете думать о хороших предикторах цены (целевой переменной), будут ли они доступны для вашего случая (например, если я хочу предсказать стартовую цену, я не могу использовать данные об отзывах клиентов) и т. д.
  2. Разделение набора данных. В моделях машинного обучения необходимо разделить набор данных на обучающий набор и тестовый набор (также известный как проверочный набор), чтобы измерить производительность модели на новых данных. Если вы обучаете свою модель со всеми своими данными и измеряете производительность модели на тех же данных, весьма вероятно, что модель не будет работать хорошо на данных, которые она никогда раньше не видела.
  3. Исследовательский анализ данных (EDA): этот шаг аналогичен шагу 1, но вы углубляетесь в данные. Вы проверяете выбросы (аномальные наблюдения, например, эта роскошная квартира AirBnB с видом на море и джакузи), которые могут затруднить для моделей машинного обучения выявление закономерностей в данных, корреляции с целевой переменной и т. д. Здесь вы решаете, какие данные вы собираетесь использовать для обучения модели.
  4. Подготовка данных. Предварительная обработка данных очень важна в моделях машинного обучения. Это когда вы вменяете или удаляете наблюдения с отсутствующими значениями, кодируете категориальные переменные (преобразовываете категориальные или текстовые данные в числовые данные) и масштабируете данные, чтобы иметь числовые данные того же порядка величины.
  5. Выберите многообещающую модель. Вы выбираете несколько моделей машинного обучения и измеряете их качество с помощью различных методов. Это делается на обучающих данных. По результатам вы выбираете наиболее перспективную модель и переходите к следующему шагу.
  6. Оцените производительность модели на тестовых данных. Наконец, вы обучили модель и передали ей новые данные, чтобы делать прогнозы. Вы сравнили прогнозы с целевыми значениями в тестовом наборе, чтобы определить ошибку.

Итак, после выполнения этих шагов…Можем ли мы использовать модель машинного обучения для определения стартовой цены жилья на AirBnB? Да, можем. Регрессор случайного леса кажется многообещающей моделью по сравнению с регрессором дерева решений и моделью повышения градиента.

Однако модель нужно доработать, прежде чем она станет полезной для моего друга. Среднеквадратическая ошибка (RMSE), показатель, используемый для измерения производительности модели, составил 162,59 доллара США, что неприемлемо для большинства цен в диапазоне от 75 до 210 долларов США.

Следующими шагами по уточнению этой модели могут быть:

  • Получите больше обучающих данных, если это возможно.
  • Уделите больше времени выбору функций. Попробуйте объединить атрибуты, которые могут привести к лучшему прогнозированию цены.
  • Попробуйте разные методы вменения.
  • Масштабируйте числовые переменные, используя другой метод.
  • Тонкая настройка гиперпараметров.

Наборы данных и код

Наборы данных и код, относящиеся к этому сообщению, можно найти в моем репозитории GitHub по ссылке ниже:

https://github.com/bergr7/Project_1_AirBnB_Менорка

Обратите внимание, что этот проект был частью программы Udacity Nano- Degree, в которой я зачислен. Любая обратная связь, которая может помочь мне стать лучше, приветствуется и ценится. Спасибо за прочтение!!