КАЖДЫЙ МОЖЕТ БЫСТРО УЗНАТЬ О ТЕХНОЛОГИЯХ БОЛЬШИХ ДАННЫХ

Что такое большие данные?

1 — ИЗУЧАЙТЕ БОЛЬШИЕ ДАННЫЕ, НАУКУ О ДАННЫХ, АНАЛИТИКУ И МАШИННОЕ ОБУЧЕНИЕ

Статья 1 — Что такое большие данные

Большие данные вызывают любопытство.

Он представлял данные в больших объемах, в таком измерении, о котором еще несколько лет назад не могли и мечтать, что в один прекрасный день их можно будет сохранить и обработать с помощью компьютеров с низкими затратами.

Этот термин, по-видимому, относится к компьютерным приложениям, которые используют огромные объемы данных в различных форматах, классифицируют, считывают, преобразовывают и интерпретируют с использованием статистических, математических и вычислительных методов.

Результат породил новый тип знаний под названием «Понимание данных», что-то убедительное, чего нельзя было представить на основе исходных данных.

Понимание, полученное из данных, может привести к внезапному изменению направления бизнеса или созданию «продукта, управляемого данными», который может произвести революцию в компании и на ее рынке.

Мировые компании, применяющие эту технологию, называются «компаниями, управляемыми данными». Те компании, которые помогли основать эту новую область, стоят миллиарды долларов. Чтобы назвать некоторые из них, у нас есть Google, Yahoo, Uber, Tesla, Netflix, Amazon, LinkedIn, Facebook и другие.

Многие компании стремятся адаптироваться к современному миру больших данных. От этого знания зависит выживание.

Откуда столько данных?

Как он генерируется?

Как это используется?

Какие специалисты работают в Big Data?

Каковы основные технологии?

Какие существуют типы приложений для больших данных?

Как думаете, это влияет на бизнес и частных лиц?

На эти и другие вопросы вы найдете ответы в этой электронной книге.

Добро пожаловать в мир больших данных.

Раздел 1 — Источники генерации данных

Большие данные генерируют данные из трех шрифтов: «Люди», «Машины» и «Корпорации».

1 — Люди

Генерируйте данные из социальных сетей (Facebook, Twitter, Instagram, LinkedIn), электронной почты, Интернета, документов, блогов и т. д.

2 — Машины

Генерация данных с датчиков, спутников, файлов компьютерных журналов, камер, машин для генетического секвенирования, космических телескопов, зондов и т. д.

3 — Корпорации

Сгенерированные данные из транзакций, административной системы, кредитных карт, финансовой системы, отчетности, электронной коммерции, продаж, медицинских карт, исследований и других.

ИНТЕРЕСНО

· Более 90% всех данных мира было сгенерировано за последние два года.

· В минуту: мы отправили 204 миллиона электронных писем. Твит 456 тысяч раз сгенерировал 1,8 миллиона «лайков» и разместил 200 тысяч фотографий на Facebook.

· Каждую минуту на YouTube загружается более 100 часов видео.

· Если вы запишете на DVD все данные, произведенные миром за один день, они будут сложены вдвое, покрывая расстояние отсюда до Луны.

· Каждую минуту в Интернете создается и публикуется пятьсот семьдесят (570) новых сайтов.

Раздел 2. Машины генерируют больше данных

Большие данные стали возможными благодаря сочетанию больших объемов данных, низкой стоимости оборудования, программного обеспечения и облачных вычислений. Все это в сочетании с необходимостью для компаний и частных лиц оценивать эти данные и генерировать идеи.

Кто генерирует больше данных? Корпорации, люди или машины?

Машины генерируют больше данных, чем корпорации и люди.

Он производит в 100 (сто) раз больше данных, чем корпорации, и в 10 (десять) раз больше данных, чем люди.

В итоге:

Корпорации = 1X (один)

Люди = 10X (десять)

Машины = 100X (сотня)

Вот некоторые примеры машинно-генерируемых данных: датчики всех типов, встроенные в оборудование, машины в целом, компьютерные кластеры, журналы, генерируемые устройствами (компьютерами, сотовыми телефонами, сетевыми узлами, маршрутизаторами), спутниковая телеметрия, чипы RFID, системы GPS, программное обеспечение. которые делают автоматические вычисления, системы машинного обучения, системы автоматизации, Интернет вещей и другие.

ИНТЕРЕСНО

· Машинные данные генерируются без участия человека, создаются и собираются автоматически.

· Splunk — компания, которая специализируется на сборе и анализе машинных данных.

· Данные, генерируемые машинами, представляют собой цифровую деятельность, выполняемую компьютерами, телефонами, смартфонами, встроенными системами и сетевыми устройствами, среди прочего.

· Компании начинают осознавать важность машинно-генерируемых данных, таких как спутниковые изображения с метеорологическими данными, научные данные, такие как сейсмические изображения, физика высоких энергий, фотографии, видео с камер наблюдения, радиолокационные, метеорологические и океанографические данные.

Раздел 3. Данные — это новая нефть

Фраза «Данные — это новая нефть» появилась в 2006 году.

Он часто используется в ключевых публикациях, на которые ссылаются руководители компаний и мировые лидеры из списка Fortune 500, чтобы указать на важность данных и информации в эпоху больших данных.

Это аналогия, потому что, как и столетие назад, компании, которым удалось добывать нефть, накопили огромные богатства, установили монополии и построили основу экономики. Сегодня компании, работающие с данными, такие как Google, Facebook, Amazon, Yahoo и другие, могут сделать то же самое с нашей экономикой.

Наш мир живет в цифровой экономике, где данные ценны. Это ключ к функционированию мира, от правительств до бизнеса, и без него прогресс остановился бы.

Данные — это топливо, которое движет экономикой, и мы, вероятно, переходим к так называемой «экономике данных».

ИНТЕРЕСНО

· Данные определяют рост экономики, изменяя бизнес, политику и экономику.

· Подобно нефти, данные извлекаются, уточняются, оцениваются, покупаются и продаются. Битвы будущего будут выиграны с помощью данных.

· Создание фразы «Данные — это новая нефть» приписывается Клайву Хамби, английскому математику и создателю клубной карты Tesco.

· Вирджиния Рометти, генеральный директор IBM, процитировала в Послании по международным отношениям в 2013 году: «Я хочу, чтобы вы думали о данных как о следующем природном ресурсе».

· Меглена Кунева, комиссар ЕС по делам потребителей, 2009 г.: «Персональные данные — это новая нефть в Интернете и новая валюта цифрового мира».

Раздел 4 — Темные данные

По его оценкам, к 2030 году более 90% данных будут неструктурированными, и этот взрыв данных превзойдет человеческие возможности по их обработке.

Dark Data — это данные, полученные в результате различных операций компаний и не используемые для целей анализа. Компании могут решить сохранить эти данные для будущего использования с дополнительными затратами на хранение или отказаться от них как непригодных для использования.

Большой адронный коллайдер Европейской организации ядерных исследований — крупнейший в мире, генерирующий 25 ГБ данных в секунду. Он отбросил большую часть данных, потому что объем настолько велик, что это сделает недействительным его хранение и время для анализа.

Иногда невозможно хранить данные, сгенерированные на высокой скорости. Используются методы выборки, собирающие только наиболее репрезентативную часть данных, которая не ставит под угрозу анализ.

ИНТЕРЕСНО

· Название «Темные данные» является аналогом «Темной материи», используемой в области физики для описания энергии, которую невозможно наблюдать, но которая существует и покрывает 80% Вселенной.

· Gartner Consulting ввел термин «темные данные».

· Согласно исследованиям IDC, объем данных в мире удваивается каждые 12 месяцев, и к 2020 году мы должны генерировать 44 зеттабайта, что эквивалентно 44 триллионам гигабайт.

· Deep Web — это термин для обозначения данных в Интернете, которые не доступны и не индексируются Google и, следовательно, не являются общедоступными. Специалисты считают, что он в 500 раз больше, чем весь Интернет. Он считает такие как Dark Data.



Подробнее об этой статье

Эта статья выбрана из книги Большие данные для руководителей и профессионалов рынка — второе издание.

Читать следующую статью



Перейдите в раздел Большие данные для руководителей и профессионалов рынка и выберите ссылки на другие статьи.