Мы успешно используем чрезвычайно сложные технологии каждый день, не понимая их. Примером может служить наш смартфон, который за последние годы стал мощным компьютером. Этот подход успешен, когда нам разрешают относиться к технологии как к черному ящику. В этом случае нас интересует не внутренний механизм устройства, а то, как оно генерирует вывод из ввода:

Чтобы обработка технологии методом черного ящика работала хорошо, должны быть выполнены следующие условия:

  1. Ввод четко определен и прост для понимания
  2. Результат четко определен и прост для понимания
  3. Преобразование от входа к выходу четко определено и легко для понимания.
  4. Трансформация более-менее идеальная («всегда работает хорошо»)
  5. Трансформация не имеет существенных побочных эффектов

Другим примером, где работает обработка черного ящика, является аудиоусилитель нашей стереосистемы. Он принимает небольшой аудиосигнал (например, от микрофона) в качестве входа и усиливает его для динамиков (выход). Ввод и вывод, очевидно, просты для понимания, трансформация (усиление) также четко определена и проста для понимания. Искажения современных усилителей уже почти не слышны, а тепловыделение и энергопотребление тоже можно не учитывать. Поэтому на самом деле нет необходимости понимать, как усилитель работает внутри. Он может быть использован непрофессионалами с большим успехом.

К сожалению, самые передовые методы интеллектуального анализа данных не удовлетворяют всем этим условиям:

  1. Входные данные нелегко определить/понять:
    Входными данными для алгоритма интеллектуального анализа данных являются данные. И качество вывода зависит от свойств данных, таких как выбранные функции и распределения. Например. насколько достоверны выходные данные, если данные сильно искажены?
  2. Вывод, который сложно определить/понять:
    Алгоритмы кластеризации используются для поиска кластеров в данных (например, для сегментации клиентов). Но что такое кластер? Ответить на эти вопросы не так просто. Возможно, вы захотите выбрать алгоритм на основе центроида или на основе плотности. Что лучше? Многие алгоритмы кластеризации также находят кластеры, даже если в данных нет кластерной структуры. Без некоторого знания того, что на самом деле делают алгоритмы кластеризации, почти невозможно правильно интерпретировать вывод.
  3. Непростое для понимания преобразование:
    Алгоритмы уменьшения размеров, такие как t-SNE, обеспечивают впечатляющую визуализацию. Но что на самом деле пытается сделать алгоритм? Опять же, без определенных знаний очень легко неверно интерпретировать данные. Также результат работы многих алгоритмов зависит от значения гиперпараметров, которые непросто понять.
  4. Неидеальное преобразование:
    Результат алгоритма кластеризации может зависеть от первоначальной рандомизации. Если вы запустите алгоритм на одних и тех же данных несколько раз, вы можете получить разные результаты. Результаты могут быть просто приближениями, которые дают плохие результаты с некоторыми данными.
  5. Существенные побочные эффекты.
    Некоторым алгоритмам может потребоваться (слишком) много времени для вычисления результатов для больших наборов данных.

Конечно, все это может (и должен) объяснить руководству хорошо общающийся специалист по данным. Но отсутствие соответствующих знаний в области управления, тем не менее, является огромным узким местом для внедрения современных методов интеллектуального анализа данных. Большинство компаний до сих пор используют для анализа своих данных только простые гистограммы и круговые диаграммы по категориям. Это может быть все же лучше, чем использование продвинутых методов без их понимания. Но интеллектуальный анализ данных слишком мощен, чтобы игнорировать его вечно.

[Отказ от ответственности: мы предлагаем различные технические курсы (включая Data Mining) для менеджеров в Швейцарии: https://hop-on.tech]