3-недельное руководство для начинающих по Ace Data Science Interview: #Day 7

Исследовательский анализ данных Интервью Вопросы и ответы

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

Один из самых сложных вопросов, с которыми сталкиваются специалисты по обработке и анализу данных, заключается в том, как данные могут принести пользу для решения конкретной проблемы. Прежде чем приступить непосредственно к решению проблемы с помощью машинного обучения и ИИ, важно решить, разрешима эта проблема или нет.

И чтобы решить это, на сцену выходит аналитика данных. Правильное понимание ваших данных помогает вам обрести уверенность в том, что вы готовы задействовать алгоритм машинного обучения, что упрощает поиск наилучшего способа решения данной проблемы.

Исследовательский анализ данных (EDA) — это подход к анализу данных, в котором используются различные методы для максимального понимания набора данных; раскрыть основную структуру; извлечь важные переменные; обнаруживать выбросы и аномалии; разработать экономичные модели; и определить оптимальные настройки фактора.

Пришло время ответить на некоторые распространенные вопросы, касающиеся EDA, которые задает интервьюер.

Вопрос 1. Перечислите некоторые распространенные проблемы, с которыми сталкивается Data Analyst?

Ответ:

Некоторые из общих проблем, с которыми сталкивается аналитик данных:

Распространенная опечатка
Повторяющиеся записи
Отсутствующие значения
Недопустимые значения
Различные представления значений
Выявление перекрывающихся данных

Вопрос 2: Укажите название платформы, разработанной Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде?

Ответ:

Hadoop и MapReduce — это платформа программирования, разработанная Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде.

Вопрос 3.Объясните, что такое метод вменения KNN?

Ответ:

При вменении KNN отсутствующие значения атрибутов вменяются с использованием значения атрибута, наиболее похожего на атрибут, значения которого отсутствуют. С помощью функции расстояния определяется сходство двух атрибутов.

Вопрос 4. Объясните, что следует делать с подозрительными или отсутствующими данными?

Ответ:

Для работы с отсутствующими данными используйте лучшую стратегию анализа, такую как метод удаления, методы одиночного вменения, методы на основе моделей и т. д.
Подготовьте отчет о проверке, содержащий информацию обо всех подозрительных данных. Он должен предоставлять такую информацию, как критерии проверки того, что он не прошел, а также дату и время возникновения.
Опытный персонал должен изучить подозрительные данные, чтобы определить их приемлемость.
Неверные данные должны быть присвоены и заменены кодом проверки

Вопрос 5.Объясните, что такое выброс?

Ответ:

Выброс — это обычно используемый аналитиками термин, обозначающий значение, которое появляется далеко и отличается от общей картины в выборке.

Вопрос 6. Перечислите различные типы методов вменения?

Ответ:

Во время вменения мы заменяем отсутствующие данные замещенными значениями. Типы методов вменения включают:

Однократное вменение ( вменение горячей колоды, вменение холодной колоды, вменение среднего значения, вменение регрессии)
Множественное вменение ( в отличие от одиночного вменения, множественное вменение оценивает значения несколько раз)

Вопрос 7. Укажите некоторые распространенные проблемы, с которыми аналитики данных сталкиваются во время анализа.

Ответ:

Наличие плохо отформатированного файла данных. Например, наличие данных CSV с неэкранированными символами новой строки и запятыми в столбцах.
Наличие противоречивых и неполных данных может вызывать разочарование.
Распространенные орфографические ошибки и повторяющиеся записи являются распространенной проблемой качества данных, с которой сталкивается большинство аналитиков данных.
Имея различные представления значений и неправильно классифицированные данные.

Вопрос 8. Что вы знаете о межквартильном диапазоне как аналитик данных?

Ответ:

Мера дисперсии данных, показанная на блочной диаграмме, называется межквартильным размахом. Это разница между верхней и нижней квартилями.

Вопрос 9. Что такое A/B-тестирование?

Ответ:

A/B-тестирование — это проверка статистической гипотезы для рандомизированного эксперимента с двумя переменными A и B. Также известное как сплит-тестирование, это аналитический метод, который оценивает параметры совокупности на основе статистики выборки. В этом тесте сравниваются две веб-страницы, показывая два варианта A и B, с одинаковым количеством посетителей, и побеждает вариант, дающий лучший коэффициент конверсии.

Цель A/B-тестирования — определить, есть ли какие-либо изменения на веб-странице. Например, если у вас есть рекламный баннер, на который вы потратили достаточно денег. Затем вы можете узнать окупаемость инвестиций, то есть рейтинг кликов по рекламному баннеру.

Вопрос 10.В чем разница между одномерным, двумерным и многомерным анализом?

Ответ:

Различия между одномерным, двумерным и многомерным анализом заключаются в следующем:

Одномерный: описательный статистический метод, который можно дифференцировать на основе количества переменных, задействованных в данный момент времени.
Двумерный анализ. Этот анализ используется для одновременного нахождения разницы между двумя переменными.
Многомерный анализ. Изучение более двух переменных представляет собой не что иное, как многофакторный анализ. Этот анализ используется для понимания влияния переменных на ответы.

Вопрос 11. В чем разница между интеллектуальным анализом данных и анализом данных?

Ответ:

Итак, если подытожить, интеллектуальный анализ данных часто используется для выявления закономерностей в хранимых данных. В основном он используется для машинного обучения, а аналитики должны просто распознавать закономерности с помощью алгоритмов. Принимая во внимание, что анализ данных используется для сбора информации из необработанных данных, которые необходимо очистить и систематизировать перед выполнением анализа.

Узнайте, как начать работу с машинным обучением, используя надежные ресурсы

Как лучше всего изучить искусственный интеллект для начинающих? [Часть 1]
Хронология человеческого обучения искусственному интеллектуmedium.com

Как лучше всего изучить искусственный интеллект для начинающих? [Часть 2]
Хронология человеческого обучения для искусственного интеллектаmedium.com

Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

Проверьте, что находится в День1, День2, День3, День4, День5, День6.

3-недельное руководство для начинающих по Ace Data Science Interview: #Day 7

Исследовательский анализ данных Интервью Вопросы и ответы

Узнайте, как начать работу с машинным обучением, используя надежные ресурсы

Похожие вопросы