Этот анализ данных является частью моего проекта по внедрению машинного обучения. Здесь мы собираемся использовать различные методы модели машинного обучения, такие как логистическая регрессия. Мой набор данных — качество белого вина, связанное с процессом виноделия.

В процессе виноделия компании будут использовать несколько типов химических ингредиентов. Этот набор данных содержит 4898 белых вин с 11переменными для количественной оценки химических свойств каждого вина.

Цель: — Выяснить, какой признак более эффективен для прогнозирования качества белого вина.

Мы начнем с исследовательского анализа набора данных. В котором мы больше изучим существующие данные, такие как их шаблон, типы данных, нормальное распределение и т. д.

Загрузка набора данных и библиотек

Пояснение переменной

1) Фиксированная кислотность: представляет собой уровень фиксированной кислоты в процессе виноделия. В его состав входят винная, яблочная, лимонная и янтарная кислоты. Фиксированная кислотность даст кислые ингредиенты в виноделии.

2) Летучая кислотность: представляет собой уровень уксусной кислоты в процессе виноделия. Которые состоят из кислот, таких как молочная, муравьиная, масляная и пропионовая. Летучая кислотность добавит соленых кислот в виноделии.

3) Критическая кислота: — это компонент фиксированной кислотности. Что придаст вину кисловатый и хрустящий вкус.

4) Остаточный сахар: — относится к любому натуральному виноградному сахару, оставшемуся после прекращения брожения.

5) Хлориды: — Это компонент летучих кислот. Что добавит солености, как уксус при прекращении брожения? 356 мг/л

6) Свободный диоксид серы: — • «Свободный» SO2 — это тот, который не связан с соединениями в вине и поэтому способен оказывать антиоксидантное/консервирующее действие. Связанный SO2 — это тот, который уже образовал комплексы с другими соединениями в вине (такими как сахара) и по существу был погашен, так что он больше не обладает антиоксидантной/консервирующей активностью. Общий SO2 представляет собой сумму обеих этих форм.

7) Общий диоксид серы: — это сумма связанных и несвязанных форм SO2s.0,8 мг/л молекулярного SO2.

8) pH. Значение: — pH описывает, насколько вино кислое или щелочное по шкале от 0 (очень кислое) до 14 (очень щелочное); большинство вин имеют рН от 3 до 3,4 по шкале pH.

9) Сульфаты: — Сульфаты являются головной частью SO2. Диоксид серы входит в состав сульфатов. Вино колеблется от примерно 5 мг/л (5 частей на миллион) до примерно 200 мг/л.

10) Алкоголь: — измеряет уровень этанола (вкус) газа в вине.

Типы данных в наборе данных

В этом наборе данных у нас всего 4898 измерений и 11 функций, 12 столбцов — это метка класса. Все 11 функций находятся в плавающем состоянии. Все являются числовыми переменными. 12-я переменная является целым числом, но это категориальная переменная. В этом наборе данных нет пропущенных значений. Это означает, что набор данных находится в стандартизированной форме. Итак, мы можем приступить к дальнейшему исследовательскому анализу.

Метка класса и частота

Так как здесь Класс представляет рейтинг качества вина. У нас есть шкала измерения от 1 до 7. Из приведенной выше гистограммы мы можем проанализировать, что качество вина находится в пределах 3-4 баллов. Мы можем разделить метку класса на три категории, например:

а) 1–3 = «плохо»

б) 4–5 = «Хорошо»

в) 6–7 = «богатый»

Нормальное распределение всех функций

Прежде всего, значения функций не имеют стандартного значения меры в данном наборе данных. В случае принятия предположения оно даст ложные или не относящиеся к делу интерпретации. Он может быть переоценен или недооценен. Из 11 функций только 1 тел. значение имеет стандартную единицу измерения. Он будет варьироваться в пределах 3–3,4 кислотных значений для вина. Среднее значение ph. Значение составляет 3,21, что означает более кислую среду. Остальные другие характеристики стандартного значения меры будут варьироваться в зависимости от местоположения, правовых норм, тел. стоимость, тип вина и т. д.

Цель

Из этого набора данных мы пытаемся определить, какая функция влияет на уровень класса вина. Для этого сначала мы должны увидеть взаимосвязь между функциями и классом.

Лучший способ найти взаимосвязь — корреляция. Что покажет отношение, каково отношение между всеми функциями и классом?

Из приведенных выше рисунков мы можем узнать, сколько функций коррелирует с классом.

Отрицательная корреляция

1) значение pH отрицательно связано с фиксированной кислотностью

2) Алкоголь имеет отрицательную связь с плотностью, остаточным сахаром и общим диоксидом серы.

3) Плотность имеет отрицательную связь с классом

Положительное соотношение

1) Плотность положительно связана с остаточным сахаром.

2) Алкоголь и сульфат имеют положительную связь с классом.

3) Свободная сера и общая сера также имеют положительную связь.

Глубинный анализ корреляции

Из отчета о корреляции мы узнали зависимые и независимые переменные. Алкоголь и сульфат имеют положительную корреляцию с классом вина. Что поможет нам в подготовке модели прогнозирования?

Связь между алкоголем и классом

Корреляция между сульфатами и уровнем класса

Корреляция между class_level и плотностью

Влияние корреляции

На графиках с тремя блоками мы можем обнаружить сульфат и спирт, представляющие положительные и отрицательные плотности с более высокой маркировкой класса вина.

Процентное содержание алкоголя увеличено с 10 до 13 с классом от бедного до богатого.

Сульфатные единицы увеличены с 0,4 до 0,6 с метками класса.

Объем плотности уменьшен с 1,00 до 0,99 с метками классов.

Логистическая регрессия

Мы используем логистическую регрессию, потому что метка класса является категориальной переменной. Таким образом, мы должны использовать классификатор, чтобы предсказать качество вина. Сначала мы разделим наш набор данных на наборы для обучения и тестирования, а затем создадим модель логистической регрессии, используя набор для обучения.

Разделение набора данных на поезд и тест. Позже подгонка строки классификатора.

Проверка значения прогноза с помощью подобранной модели.

Выше мы видим здесь наш файл y_pred. может классифицировать набор тестовых данных. Строка классификатора изучила шаблон классификации из обученного набора данных. Теперь наша следующая проверка точности классификатора. Насколько точно в процентах можно предсказать или классифицировать набор данных.

Таким образом, процент точности предиктора составляет 88%. Для идеального классификатора точность должна быть более 90%. Для этого мы будем использовать нелинейный классификатор, который представляет собой нейронную сеть.

Нейронная сеть

Другой метод машинного обучения — нейронная сеть. Когда логистическая регрессия не может выполнить линейную классификацию. Чтобы решить проблему линейности в логистической регрессии, мы будем использовать нейронную сеть.

После использования нейронной сети наша точность увеличилась с 88% до 99. В отчете о классификации также представлены значения отзыва и точности для рейтинга от 1 до 6. Но метка 7-го класса не может классифицировать. Что будет подпадать под 1% ошибки в классификации.