Поскольку Cloud Native становится горячей темой в современном корпоративном пространстве, акцент смещается с характера базовой инфраструктуры для облачных приложений на такие темы, как мониторинг, анализ журналов, отслеживание и т. д. Не только инструменты, но и фокус также смещается. о том, что нужно делать с этими инструментами в современных ИТ-стеках. Акцент смещается с симптомов на возможности отладки. Поскольку современные ИТ-стеки более распределены, а разграничение между приложением и базовой инфраструктурой исчезает благодаря распространению DevOps, для нас очень важно выйти за рамки знания того, что происходит в стеке, и узнать, почему что-то происходит и что может произойти. быть сделано, чтобы смягчить его. Введите наблюдаемость, самый популярный термин в отрасли сегодня.

В Rishidot Research мы предпочитаем использовать определение наблюдаемости в Twitter и считаем, что оно все еще развивается, поскольку мы определяем лучшие практики в отрасли. Согласно Твиттеру, четыре столпа наблюдаемости:

  • Мониторинг
  • Оповещение/визуализация
  • Инфраструктура трассировки распределенных систем
  • Агрегация/аналитика журналов

Тема этого поста не о наблюдаемости как таковой, а о средствах наблюдения.

Традиционно мониторинг зависел от понимания режимов отказа, чтобы решить, что необходимо отслеживать. Даже в мире SRE решение о том, что отслеживать, основывалось на общих режимах сбоев, объединенных знанием систем и потребностей в конкретной организации. Поскольку мандат наблюдаемости заключается в отладке, а базовая инфраструктура и приложения становятся все более распределенными и слабо связанными, использование более ориентированного на человека подхода к наблюдаемости довольно ограничено. Нужно думать не только об известных режимах отказа и быть готовым к непредсказуемому поведению. Для подготовки к непредсказуемому поведению и неизвестным видам отказов требуется возможность прогнозирования с учетом большого объема данных, доступных в системах мониторинга, трассировки и журналов.

Именно здесь мы твердо убеждены в том, что машинное обучение и ИИ должны сыграть решающую роль. Использование традиционного подхода к наблюдению будет очень ограниченным и неактуальным, поскольку масштаб резко увеличивается с оцифровкой бизнеса в нескольких вертикалях. Организации уже используют модели машинного обучения и ИИ для обработки данных Observability, но мы все еще царапаем поверхность. Поскольку декларативный подход к операциям становится все более и более модным, а такие подходы, как GitOps, становятся нормой для оркестровки инфраструктуры, роль возможности отладки становится все более и более важной. Это важно не только с точки зрения безупречных вскрытий, но также важно проявлять инициативу и устранять проблемы задолго до того, как они станут головной болью. Даже если подумать дальше, ML/AI в Observability — это первый шаг к повышению роли AI в операциях.

Прочитайте пост полностью и узнайте о Виртуальной панели по теме на StackSense.io, где она была изначально размещена.