Исследование показателей местоположения Airbnb

Введение

Я разработал этот проект как завершающий этап получения сертификата IBM Data Science Professional Certificate. Помимо получения информации о том, что делает местоположение плохим для гостя Airnbn, я смог применить многое из того, что узнал на протяжении всей специализации.

Есть много улучшений, которые я хочу сделать, и я должен обновлять этот проект, поскольку у меня есть больше времени. В целом, однако, я могу сказать, что задача определения объема и ограничений проекта показалась мне самой сложной. Есть много возможных путей при оценке критериев обзора, и я пришел к выводу, что многие другие (возможно, лучшие) модели можно было бы разработать, если бы я немного изменил свои первоначальные предположения и, что наиболее важно, способ агрегирования данных.

описание проблемы

Когда вы путешествуете по делам или на отдых, местоположение часто является одним из наиболее важных аспектов при выборе места для проживания.

Поэтому многие веб-сайты по бронированию жилья, такие как Booking.com и Airbnb.com, имеют рейтинги местоположения, которые отделены от других критериев, таких как удобства и качество жилья. Поскольку общее качество отеля, апарт-отеля или дома, сдаваемого внаем, также зависит от их окружения, важно определить, что определяет хорошее местоположение.

Однако часто отзывы предвзяты в сторону высоких или низких оценок. Объявления Airbnb, например, чаще всего классифицируются как 4,5 или 5 звезд (Plautz, 2015; Zervas, Proserpio and Byers, 2015), что затрудняет определение ключевых аспектов удовлетворенности посетителей местоположением. С другой стороны, еще один способ взглянуть на эту проблему — определить, что делает неидеальное местоположение плохим. Затем отличные оценки исключаются, потому что, как показали Fradkin, Grewal and Holtz (2019), они, как правило, необъективны по причинам, отличным от фактического списка. Используя этот другой подход, можно выбрать менее однородный набор данных (скажем, с оценками ниже «отлично»), из которого можно извлечь информацию с помощью машинного обучения.

Данные

Используемые наборы данных состоят из:

  • списки Airbnb для лондонского Сити, предоставленные Мюрреем Коксом;
  • Данные о площадках, полученные из API Foursquare;
  • Данные о географическом положении станций лондонского метро, ​​предоставленные London Transportation Open Data и обобщенные Bell (2019) на сайте doogal.co.uk;
  • Другие географические координаты, указанные в посте.

Методология

Первоначально данные были предварительно обработаны, чтобы получить соответствующий набор данных неотличных, достоверных оценок. Чтобы гарантировать релевантность, из 106 характеристик, представленных в исходных данных Airbnb, были сохранены только 7 (связанные с местоположением и оценкой местоположения).

Основные используемые библиотеки:

  • Pandas и Numpy для извлечения и анализа данных;
  • Matplotlib и Folium для визуализации данных;
  • Запросы для установления контактов.

Затем распределение баллов анализировалось и фиксировалось путем выбора подмножества данных. Видно, что большинство рецензентов дали высшую оценку местоположению.

Поскольку цель состояла в том, чтобы работать с менее предвзятыми данными, были выбраны только отзывы с оценками ниже отличного (здесь это определяется как 9 или 10).

Результирующее подмножество состояло из 4802 объявлений. Чтобы лучше визуализировать действительное подмножество, была создана карта оценок с учетом следующих правил:

  • Хорошо: 8 баллов;
  • В среднем: 6 или 7 баллов;
  • Низкий: баллы ниже 6.

Поскольку списков слишком много для индивидуальной оценки каждого из них, их пришлось сгруппировать, а затем проанализировать группы. Столкнувшись с выбором критерия группировки, были рассмотрены два варианта: либо группировать списки с помощью процесса машинного обучения, либо по заранее определенному подразделению города. В первом случае метод иерархической кластеризации по расстоянию может работать очень хорошо, поскольку можно решить, сколько групп использовать, и выполнить процесс агломеративного машинного обучения для получения результирующих агломераций. Это, вероятно, приведет к созданию более качественных и сплоченных групп, чем при произвольном разделении, однако это гораздо более трудоемко. Для простоты было решено использовать разделение по кодам районов. В результате было получено 203 кода районов.

Поэтому для заведений предполагалось, что каждый список характеризуется местами, присутствующими в их районе. Для транспорта было решено, что каждый список будет характеризоваться количеством станций метро в их районе. И, наконец, было рассчитано расстояние от районного центра до центра города.

Вся информация об объектах из API Foursquare была получена одним запросом с ограничением в 50 объектов на район (максимально допустимое количество). В общей сложности было приобретено 11 500 объектов и 351 уникальная категория объектов. Поскольку считалось, что плотность различных видов бизнеса важнее, чем распространенность того или иного типа, категории объектов также были сгруппированы в «большие категории» в соответствии с иерархией категорий, предоставленной Foursquare.

После переклассификации осталось 8 окончательных категорий, из которых «Продовольствие» является наиболее заметной, так как включает в себя наибольшее количество подкатегорий.

Затем данные были статистически проанализированы и сгруппированы. Статистический анализ состоял из расчета корреляции между различными признаками и значением p (что означает силу связи — чем меньше значение p, тем больше вероятность отклонения нулевой гипотезы). Если значение p слишком велико, то значение корреляции можно отбросить как неважное.

Однако сначала данные нужно было масштабировать для анализа. Проблема заключалась в том, что многие районы имели очень мало отзывов. Таким образом, был установлен минимальный лимит отзывов для оценки округов.

Выбрать предельное число сложно. Если он слишком мал, то систематическая ошибка может быть высокой, поскольку баллы, которые могут быть низкими из-за других факторов, помимо местоположения, более выражены и не усредняются другими оценками. Однако, если он слишком высок, будет оцениваться недостаточное количество районов, и информация может быть упущена. Например, два разных округа с разным количеством отзывов демонстрируют очень разную изменчивость.

Затем был проведен тест проб и ошибок, и предел для статистического анализа был установлен на уровне 40, а для кластеризации — на уровне 20 (в противном случае для машинного обучения было бы доступно слишком мало данных).

Для расчета расстояния от районных центров до центра Лондона была выбрана формула Хаверсина для расстояний на земном шаре (https://www.movable-type.co.uk/scripts/latlong.html).

Количество станций было просто получено путем группировки всех станций по районам. Наконец, результирующий набор данных состоял из 4596 действительных отзывов, распределенных по 203 действительным районам, с 10 функциями.

Характеристики были масштабированы в соответствии со следующими критериями: расстояния и плотность станций были масштабированы по их максимумам, категории объектов - по среднему, а баллы - по расстоянию до среднего (фактическое значение минус среднее по ряду).

Наконец, кластеризация здесь выполняется с помощью K-средних, который представляет собой алгоритм кластеризации, стремящийся минимизировать несходство между кластерами и максимизировать несходство между разными кластерами. Это один из самых популярных алгоритмов кластеризации.

Параметры, используемые здесь для алгоритма K-средних, в основном были параметрами по умолчанию для метода K-средних sklearn (дополнительная информация: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) . Это означает, что количество кластеров было установлено равным 8, генератор случайных чисел был установлен как None (недетерминированный вариант). Однако количество запусков алгоритма было установлено равным 20 (вместо 10 по умолчанию). Хотя это по-прежнему не гарантирует достижения глобального минимума и требует больше времени для выполнения, это повышает шансы алгоритма на это.

Результаты

Результат анализа кратко изложен ниже. Всего было проанализировано 37 районов.

Мы видим, что значение P низкое (релевантное) для расстояния и плотности еды, ночной жизни, мест на свежем воздухе и отдыха. Расстояние отрицательно коррелирует с оценкой, что имеет смысл, так как обычно центр города концентрирует достопримечательности для туристов и деловых путешественников. Ночная жизнь положительно коррелирует, как и ожидалось, потому что Лондон славится своими барами и пабами.

С другой стороны, «Отдых на природе и отдых» и «Еда» показали отрицательную корреляцию, чего не ожидалось. Этому есть три возможные причины. Во-первых, места на открытом воздухе обычно связаны с окраинами городов, что означает более длительное время, чтобы добраться до центра города, и меньше достопримечательностей. Во-вторых, что касается еды, выбор использования «больших категорий» означает, что некоторые точки менее привлекательны, чем другие в той же категории. В-третьих, как упоминалось ранее, выбор ограничения количества отзывов влияет на результаты корреляций и p_values. Выбор других пределов просмотра может изменить эти результаты.

Наконец, важно отметить, что категория «Колледжи и университеты» привела к нечисловым значениям из-за минимального набора отзывов.

Результаты процесса кластеризации суммированы здесь. Во-первых, мы визуализируем географическое распределение различных кластеров. Из-за минимального количества отзывов представлены не все районы. Всего было проанализировано 72 района.

Визуально кажется, что районы на окраинах Лондона в основном сгруппированы вместе. Фактически, западные округа сгруппированы с западными округами, а восточные округа с восточными округами. Самые центральные районы или районы, следующие за основными магистралями, также кажутся связанными друг с другом.

Для простоты ниже обсуждаются только 3 из 8 кластеров. Для полного анализа, пожалуйста, ознакомьтесь с отчетом или записной книжкой, которые прилагаются к этому посту.

Кластер 1, по-видимому, относится к отзывам чуть выше среднего, связанным с расстоянием от центра города ниже среднего, плотностью мест питания ниже среднего, местами ночной жизни выше среднего и разным количеством мест на открытом воздухе. Кластер 2 включает районы с наихудшим рейтингом, которые связаны с расстояниями выше среднего, едой и местами на свежем воздухе, а также местами ночной жизни ниже среднего. Это также идет рука об руку со статистическим анализом. В целом, оба этих кластера хорошо соотносятся с тем, что, как показал корреляционный анализ, имеет наибольшее значение.

Кластер 8, включающий 11 из 72 проанализированных районов, относится к местам с разным (но в целом очень положительным) рейтингом отзывов. Это районы, которые находятся относительно далеко от центра города, имеют много мест, где можно поесть, разное количество ночных клубов и мало мест на открытом воздухе. Это противоречит статистическому анализу, но может быть связано с причинами, упомянутыми ранее, в основном с причиной «Большой категории». Интересно, что они расположены в основном в юго-восточном и юго-западном регионах, что также может указывать на другие важные особенности, которые не были упомянуты в этом исследовании.

Обсуждение

Что касается распределения отзывов по категориям по Лондону, можно заметить, что, хотя большинство объектов со средними отзывами находятся на окраинах города, есть много мест с хорошими отзывами, которые также находятся на окраинах. Более того, несколько объектов с плохими отзывами, похоже, не соответствуют принципу близости к центру города. Это соответствует тому, что было обнаружено в процессе кластеризации, что подтверждает это.

Многое можно улучшить благодаря этому исследованию. Прежде всего, техника использования «Больших категорий», вероятно, была не лучшим выбором, так как она группировала подкатегории, которые очень разные и релевантные сами по себе. Кроме того, методы масштабирования должны быть пересмотрены и лучше изучены. Затем следует попытаться разделить каждую характеристику на «ниже среднего», «среднее» и «выше среднего» для облегчения анализа результатов и, возможно, большей точности. Еще одно возможное решение — не группировать списки по районам, вместо этого либо выбрав другой критерий, либо вообще не группируя их — это, вероятно, будет самым точным, хотя и очень затратным по времени и ресурсам решением. Наконец, следует оценить вопрос о «минимальном лимите отзывов». Одно из возможных решений — получить больше отзывов из других наборов данных, чтобы гарантировать хороший подсчет для всех районов.

Вывод

Хотя необходимость дальнейших оценок препятствует возможности подтверждения того, что является критическим критерием плохой оценки местоположения, это исследование дало хорошее представление о том, какими могут быть: большие расстояния от центра города и небольшое количество мест ночной жизни, таких как пабы и бары. Было обнаружено, что многие ролики «Еда» и «На свежем воздухе и отдыхе» отрицательно коррелируют с оценками в отзывах, что может означать просто высокую корреляцию с большими расстояниями от центра города или что-то совсем другое, например, безопасность. Это нужно лучше исследовать.

В этом отчете я применил интеллектуальный анализ данных, анализ данных, машинное обучение

Полный отчет можно прочитать здесь: https://github.com/bpbrum/Coursera_Capstone/blob/master/Report%20-%20Airbnb%20Location%20Reviews.pdf

Блокнот со всеми анализами, здесь: https://github.com/bpbrum/Coursera_Capstone/blob/master/What%20makes%20a%20location%20bad%20for%20an%20Airbnb%20guest.ipynb

Надеюсь, это было полезно для всех!

~ Марианна

использованная литература

  1. Airbnb, Inc. (2019 г.) Airbnb. Доступно по адресу: https: www.airbnb.com
  2. Белл, К. (2019) Почтовые индексы Лондона. Доступно по адресу: https://www.doogal.co.uk/london_postcodes.php
  3. Booking Holdings Inc. (2019 г.) Booking.com. Доступно по адресу: https://www.booking.com
  4. Ченг, М. и Джин, X. (2019) Что волнует пользователей Airbnb? Анализ комментариев в онлайн-обзорах, International Journal of Hospitality Management, 76(A), стр. 58–70. Доступно по адресу: https://www.sciencedirect.com/science/article/pii/S0278431917307491
  5. Кокс, М. (2019) Внутри Airbnb. Доступно по адресу: http://insideairbnb.com/get-the-data.html
  6. Догру, Т. и Пекин, О. (2017) Что гости больше всего ценят в жилье Airbnb? Применение гедонистического подхода к ценообразованию, Boston Hospitality Review. Доступно по адресу: https://www.bu.edu/bhr/2017/06/07/airbnb-guest-pricing-value/
  7. FOURSQUARE (2019 г.) API Places. Доступно по адресу: https://developer.foursquare.com/places-api
  8. Фрадкин А., Гревал Э. и Хольц Д. (2019) Взаимность в двусторонних системах репутации: данные эксперимента на Airbnb. Доступно по адресу: https://andreyfradkin.com/assets/reviews_paper.pdf
  9. Plautz, J. (2015) Оценка выше среднего? 95 % объявлений Airbnb имеют рейтинг от 4,5 до 5 звезд. Доступно по адресу: https://mashable.com/2015/02/25/airbnb-reviews-above-average/
  10. Транспорт в Лондоне (2019 г.) Наши открытые данные. Доступно по адресу: https://tfl.gov.uk/info-for/open-data-users/our-open-data
  11. Tussyadiah, I. P. и Zach, F. (2016) Определение характерных признаков однорангового опыта размещения, Journal of Travel & Tourism Marketing, 34(5), стр. 636–652. Доступно по адресу: https://www.tandfonline.com/doi/full/10.1080/10548408.2016.1209153?needAccess=true&instName=Newcastle+University
  12. Зервас Г., Просерпио Д. и Байерс Дж. (2015) Первый взгляд на онлайн-репутацию на Airbnb, где каждое пребывание выше среднего. Доступно по адресу: http://people.bu.edu/zg/publications/airbnbreviews.pdf