Статьи по тематике data-science

Публикации по теме 'data-science'

Найдите выбросы, используя два простых метода.

Выбросы могут негативно повлиять на производительность модели и привести к неправильному суждению во время анализа данных. Вот два простых способа уменьшить выбросы. Что такое выброс? Выброс — это точка данных, которая не соответствует общему шаблону своего окружения. Взглянем: Вот два разных способа уменьшить выбросы: Использование Z-оценки. Используя межквартильный диапазон (IQR). Использование Z-показателя: Теперь, чтобы использовать этот метод, мы..

Зачем изучать язык программирования Python

Если вы планируете погрузиться в мир программирования, вам может быть интересно, почему вы должны изучать Python. Существует множество языков программирования, каждый из которых имеет свои преимущества и недостатки. Так что же отличает Python от остальных? Вот несколько причин, по которым изучение Python может быть для вас хорошим выбором. Python легко освоить Одна из основных причин, по которой люди предпочитают изучать Python, заключается в том, что его относительно легко..

Как создать настоящий Besserwisser с классификацией текста BERT для сообщений Slack

Меня всегда забавляло, когда люди злятся, когда другие «отвечают всем» в электронных письмах, когда они не должны этого делать, или когда кто-то пишет сообщение Slack на канале, которому оно не принадлежит. В свете этого я решил поиграть с недавно выпущенным предварительно обученным блоком BERT (двунаправленные представления кодировщика от трансформаторов) на платформе Peltarion, чтобы посмотреть, смогу ли я построить модель для определения шаблонов сообщений Slack, чтобы сообщить людям..

Вызов Microsoft Malware Detection Kaggle Challenge - BIG-2015

Мое YouTube-видео , объясняющее весь проект Ссылка на полный код в Kaggle Notebook Ссылка на Github с полным кодом Один из крупнейших общедоступных наборов данных о вредоносных программах можно найти в Microsoft Malware Classification Challenge . Он состоит из более чем 400 ГБ данных, включая двоичный и дизассемблированный код, от использования дизассемблера и отладчика IDA. быть сделаны неисполняемыми по соображениям безопасности. Это ограничивает значение..

Как парные сравнения используются в машинном обучении, часть 3

Анализ приятности, вызываемой различными тактильными стимулами воздушного ультразвука, с использованием парных сравнений и модели Брэдли-Терри (arXiv) Автор: Сора Сатаке , Ёсихиро Нагано , Масаси Сугияма , Масахиро Фудзивара , Ясутоши Макино , Хироюки Шинода . Аннотация: Предложение движущегося тактильного раздражителя к предплечью человека вызывает приятные ощущения. Скорость, интенсивность и площадь контакта поглаживаний следует систематически изменять, чтобы более детально..

Полные строки Python - Часть 1

С внедрением… Строки Python представляют собой массивы байтов, представляющих символы Юникода. Строки в Python заключаются в одинарные или двойные кавычки. «Сегодня» - это то же самое, что «сегодня». Пример : var1 = «Привет» var2 = «Полный курс Python» Вы можете присвоить переменной многострочную строку, используя три кавычки. Реализация - str1 = "Welcome to complete Python Course" str2 = 'Welcome to the complete Python Course' str3 = """This is..

Лучшие ресурсы по статистике в науке о данных 2022

Наука о данных – это концепция, объединяющая статистику, анализ данных и связанные с ними методы для понимания реальных явлений, связанных с данными. Сегодня каждая отрасль полагается на понимание данных, генерируемых процессами, продуктами, услугами, клиентами и командами. Чтобы выйти на широкое рыночное пространство, компаниям сначала необходимо поработать над сильными сторонами существующих продуктов, а затем проникнуть в неиспользованные области рынка. Целые отрасли поставляются..