Статьи по тематике big-data

Публикации по теме 'big-data'

Дьявол кроется в деталях — «От того, как ваша компания собирает данные, будет зависеть ваш успех в…

Дьявол кроется в деталях. От того, как ваша компания собирает данные, зависит ваш успех во внедрении машинного обучения. Наступает понедельник, и, поскольку вы вернулись к работе из офиса, вы вытаскиваете Waze, чтобы приложение продиктовало лучший маршрут, чтобы избежать пробок. К сожалению, на полпути к работе вы съезжаете с шоссе, руководствуясь другим маршрутом, о котором Waze вас не предупредил, добавляя 20 ценных минут к поездке на работу и, скорее всего, испортив себе день...

Большие данные и машинное обучение: брак между гигантами!

Последнее десятилетие стало свидетелем огромного распространения больших данных. И аналитика больших данных, непреднамеренно привязанная к мощной технологии машинного обучения. По сути, большие данные - это просто большие объемы данных, большие по объему, разнообразию, достоверности и скорости. Это делает большие данные особенно сложными для обработки, расшифровки и / или упрощения традиционных аналитических методов. С другой стороны, машинное обучение - это продвинутое приложение..

9 советов, как повысить точность прогнозов доходов от игр

И аналитики, и маркетологи, вне зависимости от сферы, в которой они работают, регулярно решают одну и ту же задачу: прогноз выручки. Единственное, что разнится, это постановка задачи: «Сколько денег мы заработаем к концу года?», «Какая функция (А или Б) принесет нам больше прибыли?», «Выгодно ли это для коммерческого использования?» смысл выходить на новый рынок?» и так далее. В этой статье Василий Сабиров, ведущий аналитик devtodev , собрал 9 проверенных советов, которые помогут..

Расчет TF-IDF с использованием алгоритма Map-Reduce в PySpark

В этой статье мы рассмотрим практическую реализацию вычисления оценок частоты термина-обратной частоты документов (TF-IDF) для соответствующих слов в каждом документе с использованием алгоритма Map-Reduce в Pyspark. Введение Тем не менее, Spark MLlib имеет встроенную функцию для вычисления оценки TD-IDF, которая использует алгоритм сопоставления / сокращения для выполнения кода распределенным образом. В этой статье мы будем использовать устойчивые распределенные наборы данных (RDD)..

20 лучших блогов и веб-сайтов по науке о данных для специалистов по данным

Область науки о данных постоянно растет, что позволяет предприятиям больше ориентироваться на данные с более глубоким пониманием и знаниями. Независимо от того, являетесь ли вы профессионалом, работающим в области науки о данных, или студентом, просмотрите эти 20 лучших блогов по науке о данных , которые часто обновляются и содержат наибольшее количество последователей. Никогда не пропустите ни одного события в области науки о данных. 1- Наука о данных | Reddit О блоге -..

Что в имени? Создайте профиль клиента, используя только имя — Часть 3

В первых двух частях этой серии мы поняли, что можно получить много информации, просто используя имя для создания профиля наших клиентов, чтобы иметь возможность лучше удовлетворять их потребности. Мы узнали, что большинство наших клиентов — это женщины в лучшие годы заработка, которые также являются наиболее желательными клиентами для всех предприятий, потому что они находятся на пике своего потенциала заработка и расходов. Теперь я хочу сделать что-то удивительное, чтобы получить более..

Моделирование данных в Cassandra и DataStax Astra DB

Автор: Артем Чеботко Что нужно для построения эффективной и надежной модели данных для Apache Cassandra ® и DataStax Astra DB ? С чего бы начать? Есть ли какие-то правила моделирования данных, которым нужно следовать? Можно ли это делать постоянно снова и снова? Ответы на эти и многие другие вопросы можно найти в методологии моделирования данных Cassandra. В этом посте мы представляем общий обзор методологии моделирования данных для Cassandra и Astra DB и делимся более чем..