Исследовательский анализ данных Интервью Вопросы и ответы

О сериале

Область науки о данных — это захватывающий карьерный выбор, и мы видим много найма на свежие, нестандартные и опытные должности. Одно дело знать концепции, и совсем другое — пройти строгие собеседования на должности в области науки о данных. Если кандидат знаком с различными вопросами и процессом собеседования, он находится на правильном пути к отличной карьере в развивающейся области науки о данных.

Это трехнедельное руководство для начинающих по Ace Data Science Interview будет полезным для тех, кто готовится к собеседованию по Data Science. Каждый день в течение следующих 21 дня мы будем говорить о различных областях науки о данных и подробно их освещать. Так что устройтесь поудобнее и начните читать статью, чтобы лучше понять область науки о данных и подготовиться к интервью.

Один из самых сложных вопросов, с которыми сталкиваются специалисты по обработке и анализу данных, заключается в том, как данные могут принести пользу для решения конкретной проблемы. Прежде чем приступить непосредственно к решению проблемы с помощью машинного обучения и ИИ, важно решить, разрешима эта проблема или нет.

И чтобы решить это, на сцену выходит аналитика данных. Правильное понимание ваших данных помогает вам обрести уверенность в том, что вы готовы задействовать алгоритм машинного обучения, что упрощает поиск наилучшего способа решения данной проблемы.

Исследовательский анализ данных (EDA) — это подход к анализу данных, в котором используются различные методы для максимального понимания набора данных; раскрыть основную структуру; извлечь важные переменные; обнаруживать выбросы и аномалии; разработать экономичные модели; и определить оптимальные настройки фактора.

Пришло время ответить на некоторые распространенные вопросы, касающиеся EDA, которые задает интервьюер.

Вопрос 1. Перечислите некоторые распространенные проблемы, с которыми сталкивается Data Analyst?

Ответ:

Некоторые из общих проблем, с которыми сталкивается аналитик данных:

  • Распространенная опечатка
  • Повторяющиеся записи
  • Отсутствующие значения
  • Недопустимые значения
  • Различные представления значений
  • Выявление перекрывающихся данных

Вопрос 2: Укажите название платформы, разработанной Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде?

Ответ:

Hadoop и MapReduce — это платформа программирования, разработанная Apache для обработки больших наборов данных для приложения в распределенной вычислительной среде.

Вопрос 3.Объясните, что такое метод вменения KNN?

Ответ:

При вменении KNN отсутствующие значения атрибутов вменяются с использованием значения атрибута, наиболее похожего на атрибут, значения которого отсутствуют. С помощью функции расстояния определяется сходство двух атрибутов.

Вопрос 4. Объясните, что следует делать с подозрительными или отсутствующими данными?

Ответ:

  • Для работы с отсутствующими данными используйте лучшую стратегию анализа, такую ​​как метод удаления, методы одиночного вменения, методы на основе моделей и т. д.
  • Подготовьте отчет о проверке, содержащий информацию обо всех подозрительных данных. Он должен предоставлять такую ​​информацию, как критерии проверки того, что он не прошел, а также дату и время возникновения.
  • Опытный персонал должен изучить подозрительные данные, чтобы определить их приемлемость.
  • Неверные данные должны быть присвоены и заменены кодом проверки

Вопрос 5.Объясните, что такое выброс?

Ответ:

Выброс — это обычно используемый аналитиками термин, обозначающий значение, которое появляется далеко и отличается от общей картины в выборке.

Вопрос 6. Перечислите различные типы методов вменения?

Ответ:

Во время вменения мы заменяем отсутствующие данные замещенными значениями. Типы методов вменения включают:

  • Однократное вменение ( вменение горячей колоды, вменение холодной колоды, вменение среднего значения, вменение регрессии)
  • Множественное вменение ( в отличие от одиночного вменения, множественное вменение оценивает значения несколько раз)

Вопрос 7. Укажите некоторые распространенные проблемы, с которыми аналитики данных сталкиваются во время анализа.

Ответ:

  • Наличие плохо отформатированного файла данных. Например, наличие данных CSV с неэкранированными символами новой строки и запятыми в столбцах.
  • Наличие противоречивых и неполных данных может вызывать разочарование.
  • Распространенные орфографические ошибки и повторяющиеся записи являются распространенной проблемой качества данных, с которой сталкивается большинство аналитиков данных.
  • Имея различные представления значений и неправильно классифицированные данные.

Вопрос 8. Что вы знаете о межквартильном диапазоне как аналитик данных?

Ответ:

Мера дисперсии данных, показанная на блочной диаграмме, называется межквартильным размахом. Это разница между верхней и нижней квартилями.

Вопрос 9. Что такое A/B-тестирование?

Ответ:

A/B-тестирование — это проверка статистической гипотезы для рандомизированного эксперимента с двумя переменными A и B. Также известное как сплит-тестирование, это аналитический метод, который оценивает параметры совокупности на основе статистики выборки. В этом тесте сравниваются две веб-страницы, показывая два варианта A и B, с одинаковым количеством посетителей, и побеждает вариант, дающий лучший коэффициент конверсии.

Цель A/B-тестирования — определить, есть ли какие-либо изменения на веб-странице. Например, если у вас есть рекламный баннер, на который вы потратили достаточно денег. Затем вы можете узнать окупаемость инвестиций, то есть рейтинг кликов по рекламному баннеру.

Вопрос 10.В чем разница между одномерным, двумерным и многомерным анализом?

Ответ:

Различия между одномерным, двумерным и многомерным анализом заключаются в следующем:

  • Одномерный: описательный статистический метод, который можно дифференцировать на основе количества переменных, задействованных в данный момент времени.
  • Двумерный анализ. Этот анализ используется для одновременного нахождения разницы между двумя переменными.
  • Многомерный анализ. Изучение более двух переменных представляет собой не что иное, как многофакторный анализ. Этот анализ используется для понимания влияния переменных на ответы.

Вопрос 11. В чем разница между интеллектуальным анализом данных и анализом данных?

Ответ:

Итак, если подытожить, интеллектуальный анализ данных часто используется для выявления закономерностей в хранимых данных. В основном он используется для машинного обучения, а аналитики должны просто распознавать закономерности с помощью алгоритмов. Принимая во внимание, что анализ данных используется для сбора информации из необработанных данных, которые необходимо очистить и систематизировать перед выполнением анализа.

Узнайте, как начать работу с машинным обучением, используя надежные ресурсы





Если этот блог каким-то образом вам помог, нажмите Подпишитесь и Аплодируйте👏, потому что ваша поддержка стимулирует вдохновение и помогает создавать еще больше таких крутых вещей. Как всегда, я приветствую отзывы и конструктивную критику, рад услышать от вас.

Проверьте, что находится в День1, День2, День3, День4, День5, День6.