Большие данные: какие инструменты мы можем использовать, чтобы понять их

В этом году на Всемирном экономическом форуме в Давосе главной темой стали Большие данные. Цифровая революция быстро провозглашается четвертой промышленной революцией, когда физический, цифровой и биологический миры сливаются воедино благодаря технологиям. Действительно, в таких областях, как робототехника, искусственный интеллект и Интернет вещей, наблюдается значительный прогресс.

Но факт, который действительно лежит в основе этой революции, заключается в том, что миллиарды людей теперь связаны друг с другом устройствами, такими как сотовые телефоны, которые обладают огромной вычислительной мощностью и емкостью памяти. И именно это сделало возможным бум больших данных, выходящий за рамки самых смелых мечтаний центра обработки данных CERN (который благодаря своим экспериментам на Большом адронном коллайдере собирает примерно 30 пентабайт данных в год).

В 2015 году пользователи Facebook отправляли в среднем 31,25 миллиона сообщений и просматривали 2,77 миллиона видео в минуту. А через пять лет в мире будет более 50 миллиардов подключенных интеллектуальных устройств, разработанных для сбора, анализа и обмена данными. Цифровая информация просто удваивается каждые 18–24 месяца. Ежегодно объем информации растет такими темпами, что регулярно требуются все более сложные инструменты для ее анализа и структурирования.

Именно здесь в игру вступают такие подходы, как глубокое обучение. Предпосылка глубокого обучения состоит в том, чтобы раскрыть богатые иерархические модели, которые представляют распределения вероятностей для типов данных, встречающихся в приложениях искусственного интеллекта, таких как символы в корпусах естественного языка. Такие организации, как Findo, принимают участие в исследованиях, которые помогут создать модели, способные понимать, а затем генерировать текстовые данные. Это настоящее понимание — всего лишь один шаг к цели создания искусственного человеческого познания и всеобъемлющим целям исследований искусственного интеллекта.

В связи с этим Findo работает над обработкой естественного языка в личных облаках файлов, электронных писем, заметок и контактов. Он также работает над продуктовой линейкой персональных помощников и ботов. Большинство из них основаны на правилах, но их существование указывает на большой спрос на такие решения. Поэтому Findo работает над решением проблемы создания интеллектуального личного помощника, который помогает отдельным клиентам осуществлять поиск в своих личных облаках. Основное внимание уделяется анализу текстовых данных: электронной почты, файлов и заметок, распределенных по устройствам, облачным хранилищам, тегам и папкам.

Создание такого помощника не столько препятствие, сколько разработка сети обучения без присмотра, которую можно обучать на разных языках. Это можно обойти, изучив закономерности примера идеального поиска, где обнаруживается, что информацию нужно искать не по точным ключевым словам, а по описанию. Это называется «умный поиск». Findo также работает над системой, которая может понимать шаблоны в личных данных и организовывать их в папки. Идея состоит в том, чтобы дать пользователям возможность испытать «интеллектуальный поиск» или «обнаружение знаний».

Глубокие статистические модели, содержащие множество слоев скрытых переменных и миллионы параметров, можно эффективно изучать. Они могут отображать изученные высокоуровневые представления функций и ссылки или скрытые связи между данными. В частности, они позволяют динамически генерировать ссылки на данные, когда данные быстро меняются: когда вы знакомитесь с новым человеком, нанимаетесь в новую компанию или начинаете новый проект. Строгие правила не будут его контролировать.

https://findo.com/blog/big-data-tools/#more-142

Большие данные: какие инструменты мы можем использовать, чтобы понять их

Похожие вопросы