Что нужно знать о бизнесе Airbnb в Берлине?

Доля рынка Airbnb растет. Более чем когда-либо вы могли бы стать простым хозяином или бизнесменом. Прежде чем выбрать свой путь, вы должны запросить данные. Берлин может стать вашей игровой площадкой.

Столица андеграунда раскрывает свои секреты на Kaggle. Можно найти огромный набор данных Airbnb с 22552 объявлениями и их 95 функциями, такими как цена, тип комнаты, тип кровати, район, идентификатор хозяина, идентификатор гостя и многое другое. На все из них у нас есть 401963 отзыва за последние 10 лет (2009–2018). Наконец, в календарной таблице так называемая «доступность» позволяет нам узнать, когда хозяева выставляют свой дом на рынок в течение 1 года (2018–2019).

Мы изучили этот набор данных и задались вопросом, что мы можем спросить из данных. Затем мы представили себя начинающими хостерами и придумали следующие вопросы:

  1. Какие районы предпочитают гости?
  2. Что оправдывает цену?
  3. Чем выделяются профессиональные хосты?
  4. На каком языке общаться с гостями?

Мы попытались ответить на эти вопросы один за другим. Давайте проанализируем нашу работу вместе.

1. Какие районы предпочитают гости?

Говорят, что клиент — король. Согласно этому золотому правилу, должно быть больше объявлений, где клиенты чувствуют себя комфортно, но рынок — это вопрос прибыли. Соответствует ли это предпочтениям клиентов? Посмотрим, следуют ли хозяева за гостями, куда им вздумается.

В наборе данных у нас есть 2255 объявлений, помеченных названиями 140 различных районов и местоположением в рейтинге от 0 до 10. Оно отражает, насколько гостям понравилось это место. Все ингредиенты у нас в руках. Мы просто должны преобразовать их.

Для каждого региона мы подсчитываем количество списков и рассчитываем относительное среднее местоположение по отзывам.

  • Подсчет списков дает представление о распространении дома.

  • Средняя оценка местоположения дает представление об оценке региона.

После сортировки получаем названия любимых районов. В порядке важности: «Prenzlauer Berg Südwest», «Brunnenstr. Süd», «Regierungsviertel», «Helmholtzplatz». Это не очень полезно, если вы не из Берлина. По крайней мере, мы понимаем, что среди топ-10 только 4 района очень плотные и ценятся.

Чтобы получить общую картину, мы должны спроецировать наши выводы на 2D-карту. К счастью, в сети есть еще один набор данных Airbnb с виртуальной картой Берлина. Он содержит названия районов и их контуры.

Благодаря названиям районов мы можем привязать две новые метрики к контурам региона. Теперь связь установлена, мы отображаем плотность объявлений и местоположение средней оценки по отзывам на картограмме.

Это тип тематической карты, на которой набор предварительно определенных областей окрашен или оформлен пропорционально статистической переменной, которая представляет собой совокупную сводку географических характеристик в каждой области.

Чем темнее, тем сильнее показатели. Важно отметить, что цветовые диапазоны не являются линейными. Диапазоны определяются алгоритмом Фишера Дженкса. Это метод кластеризации данных, предназначенный для определения наилучшего распределения значений по разным классам. Учитывая 10 категорий, он находит, где находятся естественные разрывы.

Красная карта (слева) представляет плотность объявлений по районам, а зеленая карта (справа) представляет среднюю оценку отзывов по регионам. Рядом они показывают, где есть предложение и где гости довольны.

Без сюрпризов предложения отвечают предпочтениям гостей в центре города, в пределах берлинского кольца — там, где ходит общественный транспорт. Предложение высокое, и гостям это нравится. Оценка обзора устарела за пределами центра города. На окраинах города некоторые районы на севере, юго-востоке и юго-западе имеют хорошие оценки по отзывам. Более пристальный взгляд на эти районы показывает близость к озерам.

Гости наслаждаются центром города, где много предложений. Оказывается, они тоже любят жить на окраине города.

2. Чем оправдана цена?

Цены могут быть очень неясными. Сами хозяева могут изо всех сил пытаться найти справедливую цену. В свою очередь, гости иногда выражают неодобрение и сообщают об этом либо в хороших, либо в плохих отзывах. Это веская причина исследовать, что скрывается за ценой. Есть множество причин, но у нас есть только 94 функции (столбца) для каждого листинга. 95-й особенностью является сама цена. Посмотрим, как они коррелируют.

Корреляционный анализ

Слово «корреляция» говорит само за себя. Это математическая операция, которая измеряет степень, в которой две переменные изменяются по отношению друг к другу. Использование этого метода предполагает, что мы работаем с числовыми данными, поэтому мы должны избавиться от категориальных данных и по возможности вменить пропущенные значения. После очистки у нас осталось только 43 функции.

Попарная корреляция признаков во всех списках дает матрицу, известную как матрица корреляции. Матрица симметрична относительно диагонали. Каждая ячейка в таблице показывает корреляцию между двумя переменными. В представлении тепловой карты цвет настраивается величиной корреляции.

Чем темнее, тем больше корреляция. Диагональ такая темная, потому что она изображает коэффициент корреляции признака с самим собой. Это не может быть лучше. Другие функции, такие как оценка отзывов, связаны друг с другом, потому что они становятся темными, когда встречаются.

В качестве ординаты нас интересует линия, соответствующая цене. Вдоль этой линии мы ищем самые темные квадраты.

Не очень понятно, поэтому переносим строку в таблицу и сортируем по коэффициентам. Мы замечаем 3 различные категории силы корреляции.

В поул-позиции мы находим количество людей, которое может вместить дом. По второй группе цена меняется в зависимости от количества спальных мест, спален и включенных гостей. В третьей группе перечислены менее коррелированные признаки. Там политика отмены и доступность на первом месте.

Корреляционный анализ показывает, что колебания цен зависят от практических характеристик, таких как вместимость дома, удобства и плата за уборку.

Анализ машинного обучения

Есть еще один элегантный способ понять, какие функции влияют на ценообразование. Идея состоит в построении модели машинного обучения для прогнозирования цены на основе всех других заданных характеристик. Во время обучения модель должна понимать основные корреляции между данными и то, как они влияют на цену. После этого мы попытаемся определить, какие черты наиболее важны для него.

Для этой задачи регрессии мы используем ансамбль деревьев решений, оптимизированный с помощью регрессора повышения градиента. Модель позволяет прогнозировать цену с погрешностью 5 долларов на обучающих данных (17606 входных данных) против 13,5 долларов на тестовых данных (4402 входных данных). Ошибка по-прежнему довольно высока, но мы считаем, что этого достаточно, чтобы знать, какие функции имеют значение. Как? Сначала мы должны оценить важность функции.

2 метода:

  • Открытая: модели деревьев решений являются явными. Оценка важности функции неотъемлема от процесса обучения деревьев решений. Он используется, чтобы узнать, какие функции важны для ветвления.
  • Закрыто: модель рассматривается как черный ящик. Этот метод известен как метод перестановки из-за того, как он работает. Модель пытается делать прогнозы, в то время как значения одного признака многократно меняются местами. Если прогнозы совершенно неверны, то модель в основном полагается на эту функцию, в противном случае это не так.

В обоих случаях чем выше оценка, тем важнее функция. Давайте посмотрим на топ-15:

Оба метода согласуются с двумя наиболее важными характеристиками прогнозирования цен: типы номеров и количество человек, которые они могут вместить. Пока это соответствует корреляционному анализу.

Первый метод придает особое значение положению (широте и долготе). Это имеет смысл, но это что-то новое. Для следующих признаков модель подобрала наиболее коррелирующие. Опять же, мы находим спальни, плату за уборку и включенных гостей.

По сравнению с первым методом второй подтверждает важность тех же признаков, но не в том же порядке. Вместо положения мы находим плату за уборку, расходы на дополнительных людей и минимальное количество ночей.

В машинном обучении и корреляционном анализе функции доступности не очень важны, но повторяются. Они (30, 60, 90, 365) сильно коррелированы друг с другом, поэтому их влияние на цену сопоставимо. Их следует рассматривать в комплексе. Похоже, что концепция этой переменной влияет на цену.

Цена зависит в первую очередь от типа номера, а затем от вместимости дома. Эти две особенности неоспоримы. Удобства и плата за уборку значительны, дополнительные люди и положение заслуживают внимания. Влияние доступности не установлено, но заслуживает дальнейшего изучения. Удивительно, но оценки по отзывам отсутствуют.

3. Чем отличаются профессиональные хосты?

К сожалению, нет информации, указывающей непосредственно на профессиональные списки. С другой стороны, для каждого объявления мы знаем хозяина и общее количество объявлений, которыми он управляет.

Начнем с простой гипотезы: листинг считается профессиональным, если у хозяина есть как минимум 4 вещи. Оттуда мы фильтруем все списки и делим их на 2 отдельные группы: профессиональные и непрофессиональные. Мы рассчитываем среднее значение стандартизированных признаков в каждой группе и сравниваем результаты. Разница показывает, насколько функции сбалансированы между обеими группами. Стандартизация важна для возможности сравнения всех функций в одном масштабе.

Наконец, мы можем видеть, как функции сбалансированы между левыми и правыми, между непрофессиональными списками и списками профессий.

Преобладание доступности среди профессионалов означает, что они чаще позволяют своим календарям открываться для бронирований. Это может объяснить, почему у них больше отзывов. Что касается удобств, то в них больше кроватей, ванных комнат, спален, и они вмещают больше людей. Цена выше, а также такие сборы, как плата за уборку и залог.

У профессионалов всего больше, но самое поразительное наблюдение заключается в том, что все оценки (местоположение, регистрация, уборка, общение) в пользу непрофессионалов.

До сих пор мы рассматривали числовые признаки только потому, что ими легко манипулировать и сравнивать. Осталось много категориальных признаков. Одним из них является тип номера. В предыдущей главе мы увидели, насколько это важно в ценообразовании, поэтому давайте посмотрим, чем отличаются профессионалы и непрофессионалы в этом конкретном вопросе.

Непрофессионалы арендуют почти столько же всего дома, сколько и отдельные комнаты. 46% для первого и 52% для второго.

Для сравнения, профессионалы сдают в два раза больше целых квартир, чем отдельных комнат. От 30% до 64%.

Наряду с этим получается, что профессионалы превышают непрофессионалов на 18% на всем рынке квартир. На рынке частных комнат роли меняются местами. Непрофессионалы опережают на 22%.

Очевидно, что профессиональные хосты хотят получать прибыль. Их стратегия основана на количестве. Они чаще арендуют большие дома, более дорогие, с большим количеством удобств. Качество удовлетворительное (средняя оценка по отзывам 8,9/10), но относительно низкое по сравнению с другими (средняя оценка по отзывам 9,4/10).

4. На каком языке общаться с гостями?

Было бы неплохо работать с национальностью гостей, но информация отсутствует. Общение в любом случае выходит за рамки. Люди могут говорить и понимать на многих языках, но если бы вам пришлось давать инструкции в распоряжение ваших гостей, какие из них вы бы использовали в первую очередь?

У нас есть одна часть информации, которая более ценна, чем национальность: Отзывы. Действительно, за последнее десятилетие у нас есть 401963 комментария к обзору. Если нам удастся прочитать их все и определить язык, мы получим ответ на вопрос. Однако на чтение такого количества отзывов уйдет еще десятилетие.

Вместо этого мы можем использовать модель НЛП, обученную распознавать языки. На выполнение работы уходит всего несколько часов. Он помечает каждый комментарий к обзору идентификатором языка («en», «fr», «de», …). Тогда становится очень легко подсчитать, сколько отзывов попадает в каждую категорию.

Всего 43 языка. Распределение квазиэкспоненциальное. Английский достигает кульминации в 66%, намного опережая другие языки. Немец занимает второе место с 19%. Из этих 2 цифр делаем вывод, что гости в основном иностранцы.

Французский и испанский языки находятся соответственно на третьей и четвертой позициях с 4% и 3%.

Имея всего 4 языка, общение гарантировано с 90% гостей.

Теперь давайте посмотрим, как разные языки распределяются в течение года. Складываем 8 полных лет подряд (с начала 2010 по начало 2018) в один.

Английский доминирует каждый день. В отличие от других языков, он сильно варьируется, в то время как другие языки остаются низкими в пределах небольшого диапазона. Английский медленно растет и остается довольно высоким и стабильным в течение лета. Высокий пик в конце сентября закрывает сезон. Он медленно снижается до конца года. Новый год начинается с пика, и цикл повторяется.

Немецкий конкурирует с английским в конце мая. Оба имеют очень высокие пики. После быстрого тура онлайн можно найти матч с Pyronale (соревнование фейерверков). Немецкий поднимается выше нормы в сентябре и октябре.

Френч показывает циклическое поведение. Он поднимается и опускается в зависимости от сезона.

В Берлине английский обязателен. Немецкий язык важен, но на втором месте. Остальные языки опциональны. Французский можно рассматривать в зависимости от сезона.

Резюме

В этой статье мы попытались ответить на 4 вопроса по данным.

  1. Какие районы предпочитают гости?
    Гостям нравится центр города и некоторые пригородные районы с озерами.
  2. Чем обоснована цена?
    Цена в основном зависит от типа комнаты и вместимости дома. Плата за уборку, дополнительные гости и положение также имеют значение. Удивительно, но оценки по отзывам не имеют никакого значения.
  3. Чем отличаются профессиональные хозяева?
    Они арендуют большие дома для большего количества гостей, но их оценки в отзывах ниже.
  4. На каком языке общаться с гостями?
    Самые важные языки, безусловно, английский и немецкий. Французский не пренебрежимо мал.

Если бы вам пришлось заняться бизнесом Airbnb, вы бы сказали, что стоит взглянуть на данные?