Products

KubeAIOps를 통해 한층 더 안정적이고 예방적인 운영이 가능합니다.

Product 1

딥러닝 기반 장애 사전 예측 처리

이상징후 사전탐지

ANOMALY DETECTION

모니터링 또는 시스템으로 부터 수집된 데이터는 Data Receiver & Process 를 통해 학습이 가능한 데이터로 변환됩니다. 준비된 데이터는 비지도 방식 딥러닝 학습을 통해 이상징후 모델을 생성하고, 주기적인 평가를 통해 이상징후를 탐지하게 됩니다.

  • Data Pipeline
  • Deep Learning Model
  • Unsupervised Learning

이상징후 원인파악

CORRELATIONS

인프라 장애가 발생하는 원인은 복합적인 요인으로 일어나게 때문에 단일 메트릭으로는 장애의 근본적인 원인을 분석하기 어렵습니다 .다양한 Feature Engineering 을 통해 복합적인 요인으로부터 근본적인 원인과 상관 관계 파악이 가능하게 됩니다.
  • Correlation Analysis
  • LIME, SHAP features
  • Feature Engineering

임계치 어드바이저

THRESHOLD ANALYZER

메트릭 데이터를 읽고 학습을 통해 이상징후 데이터가 발견되면 기존 룰셋 임계치와 이상징후 데이터를 비교합니다. 임계치 설정이 적절한지 분석하고 분석을 통한 결과를 기반으로 현재 룰셋 임계치에 대한 조정이 가능한 가이드를 제공합니다.
  • Rule Threshold
  • Threshold recommendation

룰셋 어드바이저

RULESET EXTRACTOR

복잡한 머신러닝 모델에 의해 탐지된 이상징후에 대한 설명이 어렵습니다. 이를 쉽게 이해할 수 있도록 설명이 가능한 AI(Explainable AI) 를 제공합니다.  RIPPER 알고리즘을 사용해 이상징후에 대한 설명이 가능한 룰셋을 추출하게 됩니다. 추출된 룰셋은 향후 반복적인 장애를 방지하기 위해 새로운 룰셋으로 제안되고 기존 모니터링 툴에 추가될 수 있습니다.

  • Eplainable AI
  • Ruleset reconmmendation
  • REPPER Algorithm

Product 2

룰 기반 장애 처리 자동화

얼럿허브

ALERTHUB

얼럿 허브는 고객의 다양한 멀티 클러스터로 부터 발생된 얼럿을 통합하고 얼럿 기반 이상징후를 분석하기 위한 통합기입니다. 고객별 클러스터별로 발생한 얼럿을 룰셋 또는 발생한 리소스(Nodes, Pods, PVC등)개별로 발생, 해결된 시간별 조회를 통해 메트릭 , 로그등 데이터와 상관관계(Corelation)분석등이 가능하게 됩니다.

  • Multi Cluster
  • Alert Dashboard
  • Access Group
  • Easy Intagration

이상징후 감지

ANOMALY DETECTOR

KubeAIOps 이상징후 탐지 시스템은 선택한 모니터링 대상(Nodes, Pod, PVC등) 에 대해 이상징후를 탐지하기 위해 머신러닝(Bayesian Belief Network)과 프로메테우스 얼럿 룰을 사용합니다. 이상징후 탐지 엔진은 이상 가능성을 계산하고 탐지된 이상징후에 대해서는 이상징후 또는 장애 관리를 위해 인시던트 티켓을 자동으로 생성하게 됩니다.

  • ML model
  • Scored Anomaly
  • Alert rule based
  • Auto Incident ticket

지능형 인시던트 매니저

INCIDENT MANAGER

이상징후 탐지를 통해 신규로 인시던트 티켓이 자동으로 생성되며 기본적인 정보와 함께 이상 징후의 원인이 되는 얼럿을 해당 인시던트의 첨부하게 됩니다. 장애처리 어드바이저에 해당 이상 징후를 해결하는 리졸루션 태스크들이 첨부와 함께 자동 또는 관리자 승인하에 자동 실행이 됩니다.

  • Auto Ticketing
  • Trigger Redimation
  • Auto Attachemnt
  • Feedback

장애처리 어드바이저

RESOLUTION ADVISOR

이상징후 탐지기(Anomaly Detector)가 인시던트 티켓을 생성하면 장애처리 어드바이저 (Resolution Advisor)는 모니터링 대상별로 얼럿 기반으로 미리 정의된 장애처리 작업을 제시합니다. 이러한 장애처리 작업 조치는 티켓에 첨부로 등록됩니다. 티켓에 첨부되는 즉시 실행될 자동 실행 작업을 미리 구성할 수도 있습니다.

  • Build Knowledge
  • Scored Anomaly
  • Operation Insight
  • Auto Incident ticket

Contact

Phone: + 82 2 533 8622 / +1 310 844 7260
S. KOREA
4F, 125 Wangsimni-ro, Seongdong-gu, Seoul 04766
UNITED STATES
400 Continental Blvd 6F El Segundo, CA 90245