Исследовательский анализ данных Интервью Вопросы и ответы
О сериале
Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.
Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.
И чтобы решить это, на сцену выходит аналитика данных. Правильное понимание ваших данных помогает вам обрести уверенность в том, что вы готовы задействовать алгоритм машинного обучения, что упрощает поиск наилучшего способа решения данной проблемы.
Исследовательский анализ данных (EDA) — это подход к анализу данных, в котором используются различные методы для максимального понимания набора данных; раскрыть основную структуру; извлечь важные переменные; обнаруживать выбросы и аномалии; разработать экономичные модели; и определить оптимальные настройки фактора.
Пришло время ответить на некоторые распространенные вопросы, касающиеся EDA, которые задает интервьюер.
Вопрос 1. Перечислите некоторые распространенные проблемы, с которыми сталкивается Data Analyst?
Ответ:
Некоторые из общих проблем, с которыми сталкивается аналитик данных:
- Распространенная опечатка
- Повторяющиеся записи
- Отсутствующие значения
- Недопустимые значения
- Различные представления значений
- Выявление перекрывающихся данных
Вопрос 2: Укажите название платформы, разработанной Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде?
Ответ:
Hadoop и MapReduce — это платформа программирования, разработанная Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде.
Вопрос 3.Объясните, что такое метод вменения KNN?
Ответ:
При вменении KNN отсутствующие значения атрибутов вменяются с использованием значения атрибута, наиболее похожего на атрибут, значения которого отсутствуют. С помощью функции расстояния определяется сходство двух атрибутов.
Вопрос 4. Объясните, что следует делать с подозрительными или отсутствующими данными?
Ответ:
- Для работы с отсутствующими данными используйте лучшую стратегию анализа, такую как метод удаления, методы одиночного вменения, методы на основе моделей и т. д.
- Подготовьте отчет о проверке, содержащий информацию обо всех подозрительных данных. Он должен предоставлять такую информацию, как критерии проверки того, что он не прошел, а также дату и время возникновения.
- Опытный персонал должен изучить подозрительные данные, чтобы определить их приемлемость.
- Неверные данные должны быть присвоены и заменены кодом проверки
Вопрос 5.Объясните, что такое выброс?
Ответ:
Выброс — это обычно используемый аналитиками термин, обозначающий значение, которое появляется далеко и отличается от общей картины в выборке.
Вопрос 6. Перечислите различные типы методов вменения?
Ответ:
Во время вменения мы заменяем отсутствующие данные замещенными значениями. Типы методов вменения включают:
- Однократное вменение ( вменение горячей колоды, вменение холодной колоды, вменение среднего значения, вменение регрессии)
- Множественное вменение ( в отличие от одиночного вменения, множественное вменение оценивает значения несколько раз)
Вопрос 7. Укажите некоторые распространенные проблемы, с которыми аналитики данных сталкиваются во время анализа.
Ответ:
- Наличие плохо отформатированного файла данных. Например, наличие данных CSV с неэкранированными символами новой строки и запятыми в столбцах.
- Наличие противоречивых и неполных данных может вызывать разочарование.
- Распространенные орфографические ошибки и повторяющиеся записи являются распространенной проблемой качества данных, с которой сталкивается большинство аналитиков данных.
- Имея различные представления значений и неправильно классифицированные данные.
Вопрос 8. Что вы знаете о межквартильном диапазоне как аналитик данных?
Ответ:
Мера дисперсии данных, показанная на блочной диаграмме, называется межквартильным размахом. Это разница между верхней и нижней квартилями.
Вопрос 9. Что такое A/B-тестирование?
Ответ:
A/B-тестирование — это проверка статистической гипотезы для рандомизированного эксперимента с двумя переменными A и B. Также известное как сплит-тестирование, это аналитический метод, который оценивает параметры совокупности на основе статистики выборки. В этом тесте сравниваются две веб-страницы, показывая два варианта A и B, с одинаковым количеством посетителей, и побеждает вариант, дающий лучший коэффициент конверсии.
Цель A/B-тестирования — определить, есть ли какие-либо изменения на веб-странице. Например, если у вас есть рекламный баннер, на который вы потратили достаточно денег. Затем вы можете узнать окупаемость инвестиций, то есть рейтинг кликов по рекламному баннеру.
Вопрос 10.В чем разница между одномерным, двумерным и многомерным анализом?
Ответ:
Различия между одномерным, двумерным и многомерным анализом заключаются в следующем:
- Одномерный: описательный статистический метод, который можно дифференцировать на основе количества переменных, задействованных в данный момент времени.
- Двумерный анализ. Этот анализ используется для одновременного нахождения разницы между двумя переменными.
- Многомерный анализ. Изучение более двух переменных представляет собой не что иное, как многофакторный анализ. Этот анализ используется для понимания влияния переменных на ответы.
Вопрос 11. В чем разница между интеллектуальным анализом данных и анализом данных?
Ответ:
Итак, если подытожить, интеллектуальный анализ данных часто используется для выявления закономерностей в хранимых данных. В основном он используется для машинного обучения, а аналитики должны просто распознавать закономерности с помощью алгоритмов. Принимая во внимание, что анализ данных используется для сбора информации из необработанных данных, которые необходимо очистить и систематизировать перед выполнением анализа.
Узнайте, как начать работу с машинным обучением, используя надежные ресурсы
Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.
Проверьте, что находится в День1, День2, День3, День4, День5, День6.