Публикации по теме 'data-analysis'


Перенос ваших данных с помощью Python, SQL или электронных таблиц
Перенос ваших данных с помощью Python, SQL или электронных таблиц В наши дни сбор данных кажется проще, чем когда-либо, но это не значит, что вы всегда сможете собирать их в форме, обеспечивающей необходимую информацию. Иногда вам нужно будет манипулировать своими данными таким образом, чтобы изменить их организацию, чтобы вы могли увидеть их в новом ракурсе. Смещение данных часто является простым способом реорганизации столбцов и строк данных, преобразования их в группы,..

Готовы ли вы принять вызов науки о данных?
Вы специалист по данным или стремитесь им стать? Вас заинтересует наша задача по науке о данных — Data Sense 1.0 . Мы объявляем о нашем первом соревновании по науке о данных. Что это? Существует реальная проблема, которую необходимо решить, связанную с большим количеством данных. Это не стандартное домашнее задание — это нечто большее. Кто может участвовать? Кто-нибудь. Какой формат? Это многоуровневая задача, в которой вы соревнуетесь с другими участниками со всего..

Регуляризация: настройка гиперпараметров в нейронной сети.
В моем предыдущем посте о Deep Learning я кратко представил идею и структуру того, как выглядит Deep Learning. Мы обсудили, что такое матрица весов ( W ), вектор смещения ( B ) и скорость обучения ( альфа ) и что нейронные сети могут иметь много слоев, и каждый слой может иметь много нейронов. Сегодня мы подробно обсудим, как реализовать шаги по повышению производительности нашей нейронной сети. Что такое гиперпараметр? Это параметр в машинном обучении, значение которого..

Нет против NaN в Python/Numpy | NaN исследовано
Я работаю на python и начал изучать анализ данных, и в качестве первого шага к анализу данных в Python я начал с Numpy, а затем переключился на Pandas. Я столкнулся с термином NaN in Numpy и часто используется в pandas, потому что Numpy является строительным блоком Pandas Dataframes. Я знал о None in Python , но у меня возник следующий вопрос: →Что такое фактический difference between None and NaN , который обычно сбивает с толку новичков. Давайте сначала изучим тип обоих..

Данные растут на деревьях решений
Дерево решений  – это инструмент принятия решений, который позволяет вам, аналитику данных, принимать решения на основе ключевых вопросов, которые вы можете задать себе. Имея так много вариантов визуализации, которые вы можете выбрать, как решить, какой способ лучше всего представить ваши данные? Дерево решений  – это инструмент для принятия решений, который позволяет вам, аналитику данных, принимать решения на основе ключевых вопросов, которые вы можете задать себе. Каждый вопрос в..

Три основных ошибки кластеризации K-средних во время анализа данных
Вступление В этом посте мы рассмотрим несколько случаев, когда алгоритм KMC не работает должным образом или может давать неинтуитивные результаты. В частности, мы рассмотрим следующие сценарии: Наше предположение о количестве (реальных) кластеров неверно. Пространство функций очень размерно. Грозди бывают странной или неправильной формы. Все эти условия могут привести к проблемам с K-средними, так что давайте посмотрим. Неправильное количество кластеров Чтобы упростить задачу,..

Необходимо ли при регрессии нормальное распределение? Как отследить и исправить?
Преобразование Бокса-Кокса, тест Шапиро-Уилка, график QQ Я считаю, что для каждого человека, который раньше изучал статистику, нормальное распределение (распределение Гаусса) является одной из самых важных концепций, которые они усвоили. Каждый раз, когда я запускаю модель или занимаюсь анализом данных, я стараюсь проверить распределение зависимых переменных и независимых переменных и посмотреть, нормально ли они распределяются. Если некоторые переменные искажены и не распределяются..