Если данные — это новая нефть, то что делать, если у вашей компании их нет?

Вы можете купить, т.е. заплатить за повторяющийся или разовый доступ.

Вы могли бы поискать, т.е. найти базы данных с открытым исходным кодом.

Или вы могли бы на самом деле построить, т.е. произвести синтетические данные.

Ниже приведены три основных принципа, о которых следует помнить.

1) Обеспечение репрезентативности

Существует два ключевых метода создания синтетических данных: случайным образом извлекать данные из реального распределения или создавать модель для описания поведения в реальном мире, а затем получать данные. В любом случае есть очевидные преимущества с точки зрения экономии времени и денег.

Задача состоит в том, чтобы убедиться, что ваши данные достаточно репрезентативны. Если вы получите слишком мало точек данных, вы получите искаженное понимание явления в целом. То же самое для передискретизации или недостаточной выборки. И вы не знаете, чего вы не знаете, т.е. если есть пограничные случаи, с которыми вы просто не сталкивались или которые учитывались вашей моделью, то у вас никогда не будет их в вашем наборе.

Вот почему, применяя основные статистические принципы, чтобы ваш синтетический подход соответствовал требуемому уровню достоверности, вы должны протестировать различные наборы данных в контролируемых условиях.

2) Более высокий уровень конфиденциальности

Мы уже живем в мире, где синтетические данные могут давать тот же уровень результатов, что и настоящие данные, без ущерба для конфиденциальности. В эпоху, когда практически все, что мы делаем в Интернете — предпочтения, условия поиска, привычки просмотра и покупки, сетевые подключения — регистрируется, преимущества очевидны. Обучение ваших алгоритмов на синтетических данных может не только устранить проблему холодного запуска, но и обеспечить более высокий NPS от ваших пользователей и, возможно, даже снизить ваши накладные расходы на безопасность.

3) Объяснимая достоверность

Тем не менее, мы еще не живем в мире, где синтетические данные воспринимаются как равные реальным данным. На самом деле синтетические данные могут быть черным ящиком, и без объяснения вы просто упретесь в стену во многих областях. Например, FDA не одобрит, а медицинское сообщество не примет ИИ для здоровья, если вы не можете объяснить, как был получен этот прогноз. Что представляет собой естественный барьер для современных систем обучения без учителя и с полуучителем.

Наконец, надеюсь, это очевидно, но парсинг веб-сайта — плохая идея, несмотря на юридические дебаты о том, кража это или нет. Помимо моральных последствий, любая законная компания будет яростно защищать свои данные, от блокировки слишком большого количества запросов с одного и того же IP-адреса до фактического принятия упреждающих мер в отношении атаки распределенного парсинга. Если вам действительно нужны чужие данные, используйте их API или лицензируйте их данные.

Это намеренно короткие статьи, посвященные практическим выводам (я называю это gl;dr — хороший объем; читал). Я был бы в восторге, если бы они заинтересовали людей темой, которую можно было бы изучить глубже. Я работаю в инновационном подразделении Samsung под названием NEXT, занимающемся ранними венчурными инвестициями в программное обеспечение и услуги в сфере высоких технологий, и все высказанные здесь мнения являются моими собственными.