Бинарная классификация доходов домохозяйств на Филиппинах

Введение

Надеемся, что большинство из вас в Соединенных Штатах заполнили данные переписи населения 2020 года. Я так и сделал, и это было своевременное упражнение, когда я одновременно работал с набором данных о домохозяйствах, выбирая население страны. Статистическое управление Филиппин каждые три года проводит обследование под названием «Обследование семейных доходов и расходов» (FIES) для сбора информации о доходах, уровне жизни и расходах на жилье во всех семнадцати регионах.

Филиппины — двенадцатая по численности населения страна в мире и одна из самых быстрорастущих экономик Азии. Существует большая зависимость от сельского хозяйства, поэтому население сосредоточено там, где есть хорошие сельскохозяйственные угодья; кроме того, одна восьмая населения страны проживает в Маниле, столице. Поскольку я хотел размять свои мышцы моделирования, изучая задачу классификации, это был отличный набор данных, с помощью которого можно было изучить важность данных и функций, благодаря широте и уровню детализации, задокументированным в опросе.

Набор данных

Набор данных, состоящий из 41 544 строк, первоначально доступных в Статистическом управлении Филиппин, доступен на Kaggle здесь, и я изменил целевой столбец (Общий доход домохозяйства) с непрерывной переменной на двоичную переменную, где 1 указывает, что семья делает выше медианы. Средний доход домохозяйства в этом наборе данных составляет 164 079 песо, в среднем 247 555 песо.

59 столбцов характеристик в форме объектных и целочисленных типов данных широко варьируются в описании типичного филиппинского домохозяйства. Полный набор вопросов опроса в каждой категории еще более детализирован и составляет 81 страницу, документируя потребление и сельскохозяйственную деятельность вплоть до количества собранных яиц и суммы, потраченной на проезд в джипни. Я свободно сгруппировал 59 столбцов в четыре разных типа, как показано ниже.

Расходы: например. рис, мясо, алкоголь, табак, транспорт, общение и образование (единица времени для расходов на еду — неделя, а для всех остальных — месяц, чтобы уменьшить предвзятость памяти)
Описание домохозяйства: например. регион, источник дохода, семейное положение главы домохозяйства, количество детей, количество работающих членов семьи
Имущество: например. количество телевизоров, кондиционеров, транспортных средств, мобильных телефонов и компьютеров
Жизненные условия: напр. тип здания/дома, тип крыши, туалет, электричество, источник водоснабжения

Библиотеки

Для очистки/исследования данных: pandas, NumPy
Для построения графиков: Matplotlib, seaborn, Scikit-plot, pydotplus, IPython.
Для моделирования: scikit-learn, XGBoost

Исследовательский анализ данных

На этапе исследования моей основной целью было убедиться, что у меня есть полный набор данных о полезных функциях, а также сохранить/преобразовать столбцы объектов, которые имеют видимую связь с доходом домохозяйства. Поскольку в наборе данных всего около 41 тыс. строк, я хотел сохранить его длину и удалил два столбца объектов с отсутствующими данными (Должность главы домохозяйства и
Класс работника главы домохозяйства), в каждом из которых отсутствовало 7536 значений.

Чтобы понять мой подход к остальным столбцам объектов, сравните графики слева. Я исключил пол главы домохозяйства, так как он, похоже, не оказывает значительного влияния на доход домохозяйства, но применил другой подход к типу стен, где, по-видимому, существует более сильная корреляция между доходом домохозяйства и типом стен. Вместо того, чтобы создавать фиктивные переменные для каждого уникального значения в пределах Типа стен, я создал один двоичный столбец Сильные стены и сразу закодировал все значения, кроме Сильные, равными 0.

Этот процесс оставил мне 49 признаков исходного набора данных для начала процесса моделирования.

Моделирование

Из методов, которые мы рассмотрели, я использовал приведенные ниже модели в общей сложности 8. Я разделил свои данные на набор тестов поезда 70/30 для проверки каждой модели и добавил оценки в сводную таблицу данных для каждой модели на основе производительности. с тестовыми данными. Модель логистической регрессии с рекурсивным исключением функций сократила мой набор функций с 49 до 40, количество функций, которые достигли наилучшего результата F1, и каждая последующая модель использует эти 40 функций.

Логистическая регрессия (одна ванильная, одна с RFE)
Деревья решений
Случайный лес (один ванильный, один с GridSearch)
K-ближайшие соседи
XGBoost (один ванильный, один с GridSearch)

В приведенной ниже сводке показаны баллы отзыва, точности, точности и F1. Я не имею дело с каким-либо дисбалансом классов и не стремлюсь конкретно настроиться на точность или отзыв, но XGBoost с GridSearch просто вытеснил мои базовые XGBoost и Random Forest с GridSearch.

Интерпретация выбора признаков

Одна из самых приятных частей выполнения упражнения по моделированию — это возможность визуализировать важность функций. Поскольку XGBoost представляет собой ансамблевый алгоритм, состоящий из слабых учеников (деревья решений с ограниченной глубиной), важность придается переменным, которые повышают производительность каждого итеративного ученика, и возвращается как среднее значение важности всех деревьев решений в модели.

Мы можем видеть, что в первой десятке ниже расходы значительно способствуют достижению нашей цели, хотя я был удивлен, увидев Коммуникации и Разные товары и услуги в верхней части списка. Я углубился в сводные документы FIES, чтобы лучше понять, что было задано в этом вопросе опроса.

Связь включает в себя расходы на Интернет, включая такие способы, как предоплаченные интернет-карты, персональные телефоны (как ежемесячная плата за обслуживание, так и стоимость установки нового сотового или стационарного телефона) и почтовые услуги. Поскольку страна продолжает развиваться и модернизироваться, стоит продолжить изучение того, как эта категория расходов является определяющим фактором в способности семьи тратить или получать доход.
Разные товары и услуги включают расходы на личный уход, такие как косметические товары и услуги (включая туалетные принадлежности), личные вещи, не включенные в категорию «Одежда, обувь и прочая одежда» (например, сумки и украшения), все виды страхования, расходы на дом престарелых и любые другие расходы. услуги, не упомянутые в других категориях. Что самое интересное для меня, финансовые услуги также являются частью этой категории. Поскольку филиппинцы за границей составляют одну из крупнейших диаспор (около 12% населения работает за границей по состоянию на 2019 год), объем денежных переводов, отправляемых на Филиппины, огромен. Если в эту категорию включены какие-либо сопутствующие сборы, то логично предположить, что влияние такой широкой категории, которая может охватывать как предметы роскоши, так и финансовые услуги, коррелирует с доходом домохозяйства.

Будущая работа

Есть много направлений, которые можно использовать с набором данных такого рода для дальнейшего улучшения нашей модели и нашей способности интерпретировать результаты и особенности, а также то, как они отражаются на модернизирующемся разнообразном филиппинском обществе. Например, я мог бы использовать эти данные и сравнить их с предыдущими и более поздними опросами, чтобы увидеть, как важность функций могла меняться с течением времени. В качестве альтернативы, сравнение между сельскохозяйственными, туристическими или городскими регионами также проливает свет на неравенство в доходах. Поскольку ряд непрерывных столбцов имеют схожий характер (например, расходы на питание и характеристики жилья), существует также потенциал для разработки признаков, чтобы увидеть, приводит ли такое упрощение к каким-либо изменениям в модели и ранжировании важности признаков. Альтернативным способом создания объектов может быть создание оценки условий жизни, охватывающей все связанные столбцы, такие как тип крыши, стен, туалеты и водоснабжение.

Вывод

Эти данные и сопутствующее резюме открывают множество областей для изучения методов классификации или линейной регрессии, а также позволяют получить глубокое представление о том, как филиппинские семьи тратят и зарабатывают свой доход. Я с нетерпением жду возможности использовать этот набор данных для постоянного обучения и надеюсь рассказать больше о том, как можно визуализировать, выражать и прогнозировать развивающуюся экономику на Филиппинах. Если у вас есть какие-либо отзывы об этом посте или вы хотите просмотреть мой репозиторий, оставьте комментарий ниже.

Источники

«Обзор доходов и расходов семьи, 2015 г.». Статистическое управление Филиппин, январь 2017 г., psa.gov.ph/sites/default/files/FIES 2015 Final Report.pdf. Веб. 21 апреля 2020 г.

Денежные переводы филиппинцев за границу достигли 2,9 млрд долларов США в августе 2019 года. Агентство новостей Синьхуа, 15 октября 2019 г., www.xinhuanet.com/english/2019-10/15/c_138473763.htm. Веб. 21 апреля 2020 г.

Всемирная книга фактов: Филиппины. Центральное разведывательное управление, Центральное разведывательное управление, 1 февраля 2018 г. (обновлено 21 апреля 2020 г.), www.cia.gov/library/publications/the-world-factbook/geos/rp.html. Веб. 21 апреля 2020 г.

Информационный бюллетень для членов Азиатского банка развития: Филиппины. Азиатский банк развития, июль 2019 г., https://www.adb.org/sites/default/files/publication/27790/phi-2018.pdf. Веб. 21 апреля 2020 г.

Важность функций и выбор функций с помощью XGBoost в Python. Джейсон Браунли. Мастерство машинного обучения, 31 августа 2016 г., https://machinelearningmastery.com/feature-importance-and-feature-selection-with-xgboost-in-python/. Веб. 21 апр 2020.