для четкого мыслительного процесса

1. В чем разница между глубоким обучением и машинным обучением?

Глубокое обучение позволяет машинам принимать различные решения, связанные с бизнесом, с использованием искусственных нейронных сетей, имитирующих человеческий мозг, что является одной из причин, по которой для обучения требуется огромное количество данных. Машинное обучение дает машинам возможность принимать бизнес-решения без какой-либо внешней помощи, используя знания, полученные из прошлых данных. Системы машинного обучения требуют относительно небольших объемов данных для самообучения, а большинство функций необходимо запрограммировать вручную и понять заранее.

2. Что такое перекрестная проверка в машинном обучении?

Перекрестная проверка позволяет системе повысить производительность данного алгоритма машинного обучения. Этот процесс выборки выполняется для разбиения набора данных на более мелкие части с одинаковым количеством строк, из которых случайная часть выбирается в качестве тестового набора, а остальные части сохраняются в виде наборов поездов. Перекрестная проверка состоит из следующих методов:

• Метод удержания

• K-кратная перекрестная проверка

• Стратифицированная k-кратная перекрестная проверка

• Оставить перекрестную проверку p-out

3. Что такое эпоха в машинном обучении?

Эпоха в машинном обучении используется для указания количества проходов в данном наборе обучающих данных, где алгоритм машинного обучения выполнил свою работу. Как правило, когда имеется большой блок данных, он группируется в несколько пакетов. Все эти партии проходят через заданную модель, и этот процесс называется итерацией. Теперь, если размер пакета включает в себя полный набор обучающих данных, количество итераций будет таким же, как и количество эпох.

4. Что такое уменьшение размерности?

В реальном мире модели машинного обучения строятся на основе функций и параметров. Эти признаки могут быть многомерными и многочисленными. Иногда функции могут быть несущественными, и их визуализация становится сложной задачей. Именно здесь используется уменьшение размерности, чтобы сократить ненужные и избыточные функции с помощью основных переменных. Эти основные переменные сохраняют функции и являются подгруппой родительских переменных.

5. Что такое взрывные градиенты?

Взрыв градиентов — это проблематичный сценарий, в котором большие градиенты ошибок накапливаются, что приводит к очень большим обновлениям весов моделей нейронных сетей на этапе обучения. В крайнем случае значение весов может переполниться и привести к значениям NaN. Следовательно, модель становится нестабильной и не может учиться на обучающих данных.

6. Что такое систематическая выборка и кластерная выборка?

Систематическая выборка является разновидностью метода вероятностной выборки. Члены выборки выбираются из большей совокупности со случайной начальной точкой, но с фиксированным периодическим интервалом. Этот интервал известен как интервал выборки. Интервал выборки рассчитывается путем деления размера совокупности на желаемый размер выборки.

Кластерная выборка предполагает разделение совокупности выборки на отдельные группы, называемые кластерами. Затем из генеральной совокупности выбирается простая случайная выборка кластеров. Анализ проводится на данных из отобранных кластеров.

7. Какие существуют типы чувствительности сопоставления?

Ниже приведены различные типы чувствительности сопоставления:

- С учетом регистра: A и a, B и b

- Чувствительность каны: японские иероглифы кана

- Чувствительность к ширине: однобайтовые символы и двухбайтовые символы.

- Чувствительность к акценту.

8. Что такое OLTP?

OLTP или онлайн-обработка транзакций — это тип обработки данных, который состоит из выполнения ряда транзакций, происходящих одновременно, например, онлайн-банкинга, покупок, ввода заказов или отправки текстовых сообщений. Эти операции традиционно называются экономическими или финансовыми операциями, которые регистрируются и защищаются, чтобы предприятие могло в любое время получить доступ к информации для целей бухгалтерского учета или отчетности.

9. Что такое OLAP?

OLAP расшифровывается как On-Line Analytical Processing. OLAP — это классификация программных технологий, позволяющая аналитикам, менеджерам и руководителям проникать в суть информации посредством быстрого, последовательного, интерактивного доступа в широком диапазоне возможных представлений данных, которые были преобразованы из необработанной информации, чтобы отразить реальную размерность данных. предприятие, как его понимают клиенты.

OLAP реализует многомерный анализ бизнес-информации и поддерживает возможность сложных оценок, анализа тенденций и сложного моделирования данных.

10. Как работает OLAP?

По сути, OLAP имеет очень простую концепцию. Он предварительно вычисляет большинство запросов, которые обычно очень сложно выполнить к табличным базам данных, а именно агрегацию, объединение и группировку. Эти запросы рассчитываются во время процесса, который обычно называют «построением» или «обработкой» куба OLAP. Этот процесс происходит в одночасье, и к тому времени, когда конечные пользователи приступят к работе, данные уже будут обновлены.

11. Когда в машинном обучении возникает необходимость в регуляризации?

Регуляризация необходима всякий раз, когда модель начинает переобучать/неподходить. Это стоимостной термин для добавления большего количества функций с целевой функцией. Следовательно, он пытается довести коэффициенты для многих переменных до нуля и сократить срок затрат. Это помогает уменьшить сложность модели, чтобы модель могла лучше прогнозировать (обобщать).

12. Что вы понимаете под счетом F1?

Оценка F1 представляет собой измерение производительности модели. Это называется средневзвешенным значением точности и полноты модели. Результаты, стремящиеся к 1, считаются лучшими, а стремящиеся к 0 – худшими. Его можно использовать в классификационных тестах, где истинные отрицательные значения не имеют большого значения.

13. Что, по вашему мнению, важнее между точностью модели и производительностью модели?

Точность модели — это только подмножество производительности модели, а иногда и вводящее в заблуждение. Допустим, вы хотите обнаружить мошенничество в огромном наборе данных с выборкой из миллионов, более точная модель, скорее всего, предскажет отсутствие мошенничества вообще, если только меньшинство случаев будет мошенничеством. Однако это было бы бесполезно для прогностической модели — модели, предназначенной для обнаружения мошенничества, которая утверждала, что никакого мошенничества не было вообще! Подобные вопросы помогают продемонстрировать, что точность модели не всегда является хорошим способом оценки производительности модели. Поэтому производительность модели важнее.

14. Каковы необходимые шаги, связанные с проектом машинного обучения?

Есть несколько важных шагов, которые мы должны выполнить, чтобы получить хорошую рабочую модель при выполнении проекта машинного обучения. Эти шаги могут включать настройку параметров, подготовку данных, сбор данных, обучение модели, оценку модели, прогнозирование и т. д.

15. Что вы понимаете под моделью случайного леса?

Он объединяет несколько моделей вместе, чтобы получить окончательный результат, или, если быть более точным, он объединяет вместе несколько деревьев решений, чтобы получить окончательный результат. Таким образом, деревья решений являются строительными блоками модели случайного леса.

16. Как связаны друг с другом наука о данных и машинное обучение?

Наука о данных и машинное обучение — это два термина, которые тесно связаны, но часто неправильно понимаются. Оба они имеют дело с данными. Наука о данных — это широкая область, которая имеет дело с большими объемами данных и позволяет нам делать выводы из этих объемных данных. С другой стороны, машинное обучение можно рассматривать как подобласть науки о данных. Он также имеет дело с данными, но здесь мы сосредоточены исключительно на том, чтобы научиться преобразовывать обработанные данные в функциональную модель, которую можно использовать для сопоставления входных данных с выходными, например модель, которая может ожидать изображение в качестве входных данных и сообщать нас, если это изображение содержит цветок в качестве вывода.

17. Что такое функция ядра в SVM?

В алгоритме SVM функция ядра — это специальная математическая функция. Проще говоря, функция ядра принимает данные в качестве входных данных и преобразует их в требуемую форму. Это преобразование данных основано на так называемом трюке ядра, что и дало название функции ядра. Используя функцию ядра, мы можем преобразовать данные, которые не являются линейно разделимыми (не могут быть разделены с помощью прямой линии), в данные, которые можно разделить линейно.

18. Объясните векторизацию TF/IDF.

Выражение «TF/IDF» расшифровывается как Частота Термина – Обратная Частота Документа. Это числовая мера, которая позволяет нам определить, насколько важно слово для документа в наборе документов, называемом корпусом. TF/IDF часто используется при анализе текста и поиске информации.