МИНИ БЛОГ

ПРОГНОЗ УСПЕХА ЗАПУСКА

Оценка производительности нескольких контролируемых моделей машинного обучения для прогнозирования успеха стартапа.

ВВЕДЕНИЕ

Стартапы – это недавно созданные компании, основной целью которых является разработка и вывод продукта на рынок. Инвесторы вкладывают деньги в стартапы, исходя из потенциала и роста компании. Многочисленные исследования, в которых утверждается, что у них есть ответы на вопрос, почему стартапы успешны или терпят неудачу, могут или должны быть более точными, поскольку должно быть достаточно доказательств, подтверждающих предоставленную статистику. Принятие конкретной технологии, местоположение компании, ее сравнение с конкурирующими предприятиями и т. д. — все это играет роль в успехе или провале стартапа. Успех стартапа измеряется тем, сколько денег получает основатель, когда стартап становится публичным или частным. Этот блог посвящен исследованию, которое мы провели для оценки эффективности моделей машинного обучения, таких как логистическая регрессия, SVM, KNN, случайный лес, классификаторы деревьев решений и классификаторы с повышением градиента.

ПОСТАНОВКА ПРОБЛЕМЫ

Вы когда-нибудь предсказывали успех компании? Если да, то был ли ваш прогноз точным? Анализ того, будет ли концепция стартапа успешной, требует проведения анализа тенденций, и для этого нам нужен набор данных, в котором есть стартапы и несколько атрибутов, влияющих на успех или неудачу стартапа. Основная цель — разработать модели машинного обучения, которые используют контролируемые алгоритмы для определения компаний как «приобретенных» или «закрытых» на основе критических факторов, влияющих на эволюцию стартапов. Производительность моделей оценивается с помощью таких показателей оценки, как Precision, Recall, Accuracy, F1, Cohen Kappa и Roc_auc.

НАБОР ДАННЫХ:

Используя CRISP-DM, мы пройдем шесть этапов, которые помогут нам построить модель. Первый этап — это сбор данных на основе нашего варианта использования. Данные можно взять из любого источника, такого как Kaggle, CrunchBase и т. д., в котором есть данные о стартапах. Используемый нами набор данных был взят из Kaggle по ссылке https://www.kaggle.com/datasets/manishkc06/startup-success-prediction, которая содержит 49 функций и 923 строки. Набор данных был экспортирован и объединен в единый фрейм данных. Функции можно увидеть на изображении ниже, а целевой столбец — это статус, который имеет два значения: приобретено и закрыто.

ИССЛЕДОВАНИЕ И ОЧИСТКА ДАННЫХ

Повторяющиеся значения возникнут из-за неправильного ввода данных. Эти параметры могут влиять на точность модели. Удаление всех повторяющихся значений из набора данных жизненно важно, поскольку они не помогают в создании модели. При просмотре набора данных не было повторяющихся значений. Нулевые значения должны быть удалены на следующем этапе очистки данных. Несколько столбцов были исключены из переменных для прогнозирования успеха запуска, поскольку они содержали нерелевантную информацию. Некоторые столбцы, такие как идентификатор и идентификатор объекта, были просто числовыми значениями, которые не использовались при моделировании. Во время исследования столбец «Без имени» был признан тривиальным, с большим количеством пустых значений.

Есть несколько столбцов со значениями NaN, которые не были нужны во время вычислений. В результате, прежде чем выполнять какие-либо операции, мы преобразуем его в числовое значение, такое как 0 или медианное значение связанного столбца. Поле last_year_fundings имеет отрицательные значения, что приводит к ошибкам генерации модели. Отрицательные значения обнаруживаются и удаляются, поэтому точность модели не изменяется.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ

Исследование данных – это необходимый процесс, который позволяет обнаруживать закономерности в данных и выявлять выбросы. Пакеты визуализации данных, такие как Plotly, seaborn и matplotlib, помогают исследовать данные. Наиболее важной задачей при определении сбалансированности данных в столбце является проверка распределения данных в целевой переменной. Если данные несбалансированы, можно использовать SMOTE, который будет использовать недостаточную или избыточную выборку на основе нашего набора данных. На рисунке ниже показано распределение данных в столбце статуса. Более 50% стартапов «приобретаются».

Чтобы обнаружить корреляцию между данными, матрица корреляции отображается в виде тепловой карты. Тепловые карты определяют интенсивность связи между числовыми величинами в наборе данных. На рисунке ниже показана тепловая карта, полученная из набора данных

Анализ выбросов также необходим, чтобы выделить модель при использовании нескольких показателей оценки. Чтобы найти выбросы в наборе данных, мы использовали график расстояний. На рисунке ниже показан анализ выбросов, используемый для выявления выбросов или несогласованных данных в наборе данных.

РАЗРАБОТКА ФУНКЦИЙ

Инженерия признаков – это подход к машинному обучению, который использует данные для построения переменных, не включенных в обучающий набор.
Он может создавать новые функции обучения с учителем и без учителя, чтобы упростить и ускорить преобразование данных, а также повысить точность модели. Разработка признаков требуется для моделей машинного обучения. Плохая функция повлияет на модель независимо от архитектуры или данных.

• Чтобы оценить легитимность каждого стартапа, добавляется столбец «есть инвестор», в котором сообщается, получал ли когда-либо стартап инвестиции.
• Чтобы определить, получает ли начинающий стартап средства самостоятельно или от инвесторов, через столбец под названием « имеет начальное значение".
• Чтобы сохранить важные данные и предотвратить чрезмерную обработку, мы оценивали строки, добавляя новый столбец под названием "недопустимый запуск".

РАЗДЕЛИТЬ ПОЕЗД И ИСПЫТАТЬ ДАННЫЕ

Обучающий и тестовый наборы создаются путем разделения набора данных на 75 % и 25 % соответственно. Для этого необходимо выбрать случайную выборку без изменения около 75 % строк, поместить их в обучающий набор и добавить оставшиеся 25 % в тестовый набор.

МОДЕЛИРОВАНИЕ

Мы использовали контролируемые алгоритмы классификации, такие как SVM, классификатор случайного леса, логистическая регрессия, классификатор дерева решений, классификатор Gradient Boosting и KNN. В отличие от деревьев решений, которые полагаются на один узел или первое дерево, в случайном лесу используются прогнозы из всех деревьев.

СЛУЧАЙНЫЙ ЛЕС

Случайный лес – это классификатор, который использует среднее значение нескольких деревьев решений в разных подмножествах набора данных для повышения прогнозируемой точности. Среди всех моделей наибольшей точностью обладал классификатор Random Forest. Классификатор Random Forest для наших наборов данных обеспечил точность 87 %.

СВК

SVC, или классификатор опорных векторов, представляет собой контролируемый алгоритм машинного обучения, часто используемый для задач классификации. Сопоставляя точки данных с многомерным пространством и выбирая оптимальную гиперплоскость, SVC делит данные на два класса. Модель SVC показала точность 70 %.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Вывод категориальной зависимой переменной прогнозируется с помощью логистической регрессии. В результате результат должен быть дискретным или категоричным. Вместо того, чтобы предоставлять точные значения от 0 до 1, он предоставляет вероятностные значения от 0 до 1. Точность 70 % аналогична SVC.

КЛАССИФИКАТОР ДЕРЕВА РЕШЕНИЙ

Дерева решений — это тип машинного обучения с учителем, в котором обучающие данные постоянно сегментируются в зависимости от определенного параметра, а вы описываете входные и соответствующие выходные данные. Двумя компонентами, которые можно использовать для иллюстрации дерева, являются узлы принятия решений и листья. В целевом столбце всего два класса, поэтому деревья решений превзошли SVC и логистическую регрессию. Модель дерева решений показала точность 73 %.

КЛАССИФИКАТОР ПОВЫШЕНИЯ ГРАДИЕНТА

Повышение градиента – это алгоритм машинного обучения, который используется для решения задач классификации и регрессии. Путем слияния слабых или отдельных деревьев решений модель использовалась для прогнозирования. Он превзошел SVC, логистическую регрессию и деревья решений. Точность модели составила 78%.

КНН (N=2)

Мы внедрили KNN с n = 2, чтобы посмотреть, как он работает с различными алгоритмами. Алгоритм k-ближайших соседей, часто известный как KNN или k-NN, представляет собой обучаемый классификатор с учителем, который делает классификации или прогнозирует группировку одной точки данных на основе близости. Эта модель имеет самую низкую точность 64%.

МОДЕЛИРОВАНИЕ АНСАМБЛЯ

Обучение ансамблем – это широкий метаподход к машинному обучению, который объединяет прогнозы из многих моделей для повышения эффективности прогнозирования. Моделирование ансамбля часто означает обучение каждой модели на другом подмножестве одного и того же набора обучающих данных с использованием одного и того же подхода машинного обучения, который почти всегда представляет собой неусеченное дерево решений. Прогнозы членов ансамбля были объединены с использованием точных данных, таких как голосование или средний балл.

РЕЗУЛЬТАТЫ:

В нашем исследовании мы использовали множество алгоритмов классификации. Это помогло нам определить, какой метод будет наиболее подходящим для этого конкретного случая использования. Для дополнительного анализа мы использовали метрики и измерения, такие как показатель точности, точность и кривая ROC. Классификатор случайного леса имеет максимальную точность 86 процентов. Мы выбрали ансамблевое моделирование, выбрав слабые модели, что привело к точности 80%. Указанные характеристики, такие как размер капитала, местоположение и текущий статус, являются наиболее важными аспектами, определяющими успех стартапа.

ЗНАЧЕНИЕ ДЛЯ РЕАЛЬНОГО МИРА

стартапы с потенциалом развития, что позволяет им оставаться на шаг впереди. Стартапы играют важную роль в развитии экономики. Они вносят идеи, продвигают инновации и создают рабочие места, продвигая экономику вперед. В последние годы стартапы растут в геометрической прогрессии. Прогнозирование успеха также помогает аудитории, которая хочет реализовать концепцию своей компании, но нуждается в руководстве для оценки ее успеха, подталкивая их к реализации идеи. Количество хороших идей, выходящих на рынок, будет увеличиваться, предоставляя учредителям и инвесторам инструменты, методологии и рекомендации, необходимые им для получения конкурентного преимущества.

Пожалуйста, используйте поле для комментариев ниже, если у вас есть какие-либо мысли или критика, или если у вас есть другой метод прогнозирования успеха стартапа.