КАЖДЫЙ МОЖЕТ БЫСТРО УЗНАТЬ О ТЕХНОЛОГИЯХ БОЛЬШИХ ДАННЫХ
Что такое большие данные?
1 — ИЗУЧАЙТЕ БОЛЬШИЕ ДАННЫЕ, НАУКУ О ДАННЫХ, АНАЛИТИКУ И МАШИННОЕ ОБУЧЕНИЕ
Статья 1 — Что такое большие данные
Большие данные вызывают любопытство.
Он представлял данные в больших объемах, в таком измерении, о котором еще несколько лет назад не могли и мечтать, что в один прекрасный день их можно будет сохранить и обработать с помощью компьютеров с низкими затратами.
Этот термин, по-видимому, относится к компьютерным приложениям, которые используют огромные объемы данных в различных форматах, классифицируют, считывают, преобразовывают и интерпретируют с использованием статистических, математических и вычислительных методов.
Результат породил новый тип знаний под названием «Понимание данных», что-то убедительное, чего нельзя было представить на основе исходных данных.
Понимание, полученное из данных, может привести к внезапному изменению направления бизнеса или созданию «продукта, управляемого данными», который может произвести революцию в компании и на ее рынке.
Мировые компании, применяющие эту технологию, называются «компаниями, управляемыми данными». Те компании, которые помогли основать эту новую область, стоят миллиарды долларов. Чтобы назвать некоторые из них, у нас есть Google, Yahoo, Uber, Tesla, Netflix, Amazon, LinkedIn, Facebook и другие.
Многие компании стремятся адаптироваться к современному миру больших данных. От этого знания зависит выживание.
Откуда столько данных?
Как он генерируется?
Как это используется?
Какие специалисты работают в Big Data?
Каковы основные технологии?
Какие существуют типы приложений для больших данных?
Как думаете, это влияет на бизнес и частных лиц?
На эти и другие вопросы вы найдете ответы в этой электронной книге.
Добро пожаловать в мир больших данных.
Раздел 1 — Источники генерации данных
Большие данные генерируют данные из трех шрифтов: «Люди», «Машины» и «Корпорации».
1 — Люди
Генерируйте данные из социальных сетей (Facebook, Twitter, Instagram, LinkedIn), электронной почты, Интернета, документов, блогов и т. д.
2 — Машины
Генерация данных с датчиков, спутников, файлов компьютерных журналов, камер, машин для генетического секвенирования, космических телескопов, зондов и т. д.
3 — Корпорации
Сгенерированные данные из транзакций, административной системы, кредитных карт, финансовой системы, отчетности, электронной коммерции, продаж, медицинских карт, исследований и других.
ИНТЕРЕСНО
· Более 90% всех данных мира было сгенерировано за последние два года.
· В минуту: мы отправили 204 миллиона электронных писем. Твит 456 тысяч раз сгенерировал 1,8 миллиона «лайков» и разместил 200 тысяч фотографий на Facebook.
· Каждую минуту на YouTube загружается более 100 часов видео.
· Если вы запишете на DVD все данные, произведенные миром за один день, они будут сложены вдвое, покрывая расстояние отсюда до Луны.
· Каждую минуту в Интернете создается и публикуется пятьсот семьдесят (570) новых сайтов.
Раздел 2. Машины генерируют больше данных
Большие данные стали возможными благодаря сочетанию больших объемов данных, низкой стоимости оборудования, программного обеспечения и облачных вычислений. Все это в сочетании с необходимостью для компаний и частных лиц оценивать эти данные и генерировать идеи.
Кто генерирует больше данных? Корпорации, люди или машины?
Машины генерируют больше данных, чем корпорации и люди.
Он производит в 100 (сто) раз больше данных, чем корпорации, и в 10 (десять) раз больше данных, чем люди.
В итоге:
Корпорации = 1X (один)
Люди = 10X (десять)
Машины = 100X (сотня)
Вот некоторые примеры машинно-генерируемых данных: датчики всех типов, встроенные в оборудование, машины в целом, компьютерные кластеры, журналы, генерируемые устройствами (компьютерами, сотовыми телефонами, сетевыми узлами, маршрутизаторами), спутниковая телеметрия, чипы RFID, системы GPS, программное обеспечение. которые делают автоматические вычисления, системы машинного обучения, системы автоматизации, Интернет вещей и другие.
ИНТЕРЕСНО
· Машинные данные генерируются без участия человека, создаются и собираются автоматически.
· Splunk — компания, которая специализируется на сборе и анализе машинных данных.
· Данные, генерируемые машинами, представляют собой цифровую деятельность, выполняемую компьютерами, телефонами, смартфонами, встроенными системами и сетевыми устройствами, среди прочего.
· Компании начинают осознавать важность машинно-генерируемых данных, таких как спутниковые изображения с метеорологическими данными, научные данные, такие как сейсмические изображения, физика высоких энергий, фотографии, видео с камер наблюдения, радиолокационные, метеорологические и океанографические данные.
Раздел 3. Данные — это новая нефть
Фраза «Данные — это новая нефть» появилась в 2006 году.
Он часто используется в ключевых публикациях, на которые ссылаются руководители компаний и мировые лидеры из списка Fortune 500, чтобы указать на важность данных и информации в эпоху больших данных.
Это аналогия, потому что, как и столетие назад, компании, которым удалось добывать нефть, накопили огромные богатства, установили монополии и построили основу экономики. Сегодня компании, работающие с данными, такие как Google, Facebook, Amazon, Yahoo и другие, могут сделать то же самое с нашей экономикой.
Наш мир живет в цифровой экономике, где данные ценны. Это ключ к функционированию мира, от правительств до бизнеса, и без него прогресс остановился бы.
Данные — это топливо, которое движет экономикой, и мы, вероятно, переходим к так называемой «экономике данных».
ИНТЕРЕСНО
· Данные определяют рост экономики, изменяя бизнес, политику и экономику.
· Подобно нефти, данные извлекаются, уточняются, оцениваются, покупаются и продаются. Битвы будущего будут выиграны с помощью данных.
· Создание фразы «Данные — это новая нефть» приписывается Клайву Хамби, английскому математику и создателю клубной карты Tesco.
· Вирджиния Рометти, генеральный директор IBM, процитировала в Послании по международным отношениям в 2013 году: «Я хочу, чтобы вы думали о данных как о следующем природном ресурсе».
· Меглена Кунева, комиссар ЕС по делам потребителей, 2009 г.: «Персональные данные — это новая нефть в Интернете и новая валюта цифрового мира».
Раздел 4 — Темные данные
По его оценкам, к 2030 году более 90% данных будут неструктурированными, и этот взрыв данных превзойдет человеческие возможности по их обработке.
Dark Data — это данные, полученные в результате различных операций компаний и не используемые для целей анализа. Компании могут решить сохранить эти данные для будущего использования с дополнительными затратами на хранение или отказаться от них как непригодных для использования.
Большой адронный коллайдер Европейской организации ядерных исследований — крупнейший в мире, генерирующий 25 ГБ данных в секунду. Он отбросил большую часть данных, потому что объем настолько велик, что это сделает недействительным его хранение и время для анализа.
Иногда невозможно хранить данные, сгенерированные на высокой скорости. Используются методы выборки, собирающие только наиболее репрезентативную часть данных, которая не ставит под угрозу анализ.
ИНТЕРЕСНО
· Название «Темные данные» является аналогом «Темной материи», используемой в области физики для описания энергии, которую невозможно наблюдать, но которая существует и покрывает 80% Вселенной.
· Gartner Consulting ввел термин «темные данные».
· Согласно исследованиям IDC, объем данных в мире удваивается каждые 12 месяцев, и к 2020 году мы должны генерировать 44 зеттабайта, что эквивалентно 44 триллионам гигабайт.
· Deep Web — это термин для обозначения данных в Интернете, которые не доступны и не индексируются Google и, следовательно, не являются общедоступными. Специалисты считают, что он в 500 раз больше, чем весь Интернет. Он считает такие как Dark Data.
Подробнее об этой статье
Эта статья выбрана из книги Большие данные для руководителей и профессионалов рынка — второе издание.