?한국전자통신연구원?/?강동재 그룹장


 

Ⅰ. 기술정의


ㅇ 클라우드 운영관리를 문제 발생 후에 대응하는(Reactive) 수동적인 방식에서 문제 발생을 예측하고 미리 대비하는(Proactive) 능동적인 방식으로 전환하는 머신 러닝 기반의 클라우드 지능형 운영관리 기술

- 클라우드 인프라의 복잡도 심화로 인해 증가하는 운영관리(성능병목, 오류 탐지 등) 비용을 최소화하고 클라우드 서비스의 성능을 개선하여 운영관리의 효율성 극대화하기 위한 기술임

cloud_181102_image2




 

Ⅱ. 데이터센터 등의 IT 인프라 관리를 위한 지능형 운영관리 기술의 수준 분류


※ 지능형 자율 운영은 통상적으로 레벨 3~4 수준의 자율 운영을 의미

- 레벨 0 (No Automation)

자동화된 관리 수단이 없는 상태를 의미하여, 모든 제어는 관리자에 의해 수행되는 운영관리 수준임. 따라서, IT 운영 작업은 복잡한 기술 스택에서의 문제 해결 또는 근본 원인 분석을 통하여 관리자가 수행하게 되며, 레벨 0 데이터 센터에서 서버 임계값의 용량이 부족한 경우 해당 원인(응용 프로그램 문제인지, 서버 문제인지, 데이터 흐름 문제인지 등)을 사람이 직접 파악해야함. 레벨 0에서는 여러 분야의 전문가가 필요하며, 고장시 평균 복구 시간이 길어짐

- 레벨 1 (Operater Assistance)

데이터 센터에서 모니터링 부분과 같은 일부 분야가 자동화로 전환된 수준의 관리 방식임. 레벨 1에서는 제한된 생산성 향상과 관리자에게 통찰력을 제공할 수 있는 자동화 된 데이터 수집이 제공되지만, 제공된 정보 기반의 피드백은 여전히 관리자가 수행하는 형태임

- 레벨 2 (Partial Automation)

레벨 2의 데이터 센터는 클라우드 서비스의 "정상"및 "비정상"을 인식 할 수 있으며, 과거에 발생하였던 문제를 기반으로 현재 발생된 문제에 대한 해결책을 적용 할 수 있음. 하지만, 관리자는 여전히 데이터센터를 주의 깊게 관찰하면서 일상적인 문제를 해결을 해야 하는 관리 방식임

- 레벨 3 (Conditional Automation)

기계 학습, 클러스터링 및 상관 관계를 통하여 데이터 센터는 시스템 활동, 발생하는 상황의 인과 관계를 이해하고, 과거 사례와 비교하며 실시간으로 문제를 해결할 수 있으며, 문제를 예측하는 동시에 적절한 조치를 권고할 수 있음. 이러한 수준의 운영관리 수준에서는 IT 관리자가 더욱 의미있는 업무에 집중할 수 있으며 시스템이 스스로 운영되도록 할 수 있음.

- 레벨 4 (High Automation)

레벨 3의 운영관리 방식을 포함하고, 애플리케이션, 작업 부하 입력 및 전체 비즈니스 환경을 포괄하는 높은 자동화 수준을 제공하는 관리 방식임.

- 레벨 5 (Full Automation)

레벨 5는 완전한 자율 관리 데이터센터 관리 형상을 의미함. 가장 복잡한 한 IT 운영 환경이라 할지라도 스스로 치유하고, 스스로를 최적화하며, 스스로를 운영 할 수 있음. 비즈니스 및 IT 리더는 급변하는 비즈니스 환경에 집중하여 진정한 디지털 엔터프라이즈를 만들어 갈 수 있으며 외부 환경 및 시장에 대한 민첩성을 유지할 수 있음.

 




 

Ⅲ. 주요 연구 이슈


- 클라우드 상황 데이터 수집 및 저장 기술

- 머신 러닝 기반 클라우드?상황 분석 모델링 기술

- 상황 분석 모델 기반 클라우드 상황 실시간 인지 및 예측 기술

- 상황 인지 및 예측 기반 클라우드 운영관리 최적화 지원 기술

 




 

Ⅳ. 필요성


ㅇ 클라우드가 4차산업혁명 및 지능형 서비스의 주요 컴퓨팅 인프라로 인식되고 있으며, IoT, 빅데이터 분석 등의 기반 인프라로 활용되고 있으므로 클라우드 인프라의 수요 확산에 대한 신속 대응 필요

- 클라우드 규모 확장과 다양한 클라우드 서비스 증가 등으로 인해 심화되는 클라우드 운영 및 관리 복잡도 문제에 대한 효과적 대비 필요

※ 공용 분야의 클라우드 시장은 연평균 9.1%로 빠르게 성장하여, 2020년 1,580억 달러 예상 (출처: Forecast 2015)

ㅇ 클라우드 운영관리의 복잡도 심화로 인한 운영관리 오버헤드(성능병목, 고장/오류 탐지 및 복구 등)를 최소화하고 효율적인 운영관리를 지원하기 위해 머신러닝 기반 지능형 클라우드 핵심 기술 확보가 요구되는 상황임

- 클라우드 운영관리를 문제 발생 후에 대응하는(Reactive) 수동적인 방식에서 문제 발생을 예측하고 미리 대비하는(Proactive) 능동적인 방식으로 전환하여 운영관리 효율성 극대화 필요성 증대

※ 클러스터 서버 시스템의 운용관리 비용은 전체 시스템 비용의 75% 수준에 육박 (출처: The inside HPC Guide to Cloud Computing, 2015)

ㅇ 지속적인 클라우드 수요의 확대에 대응하기 위해서는 신개념의 지능형 클라우드 관리 기술의 확보 및 도입을 통하여 국내 산업 경쟁력을 제고하고 4차산업혁명 시대에 대비하는 것이 바람직함

※ 국내 클라우드 환경의 확산 노력에도 불구하고 글로벌 기업의 파상 공세로 국내 시장 잠식 상황이 심각해, 신개념의 세계 최고 수준 기술 확보가 시급

 




 

Ⅴ. 기술 개발 동향


ㅇ AI 기술의 확산과 함께 여러 분야에서 AI 기술이 적용된(AI-enabled) 지능형(Intelligent) 시스템의 개발이 이루어지고 있으며, IT 인프라 운영관리 분야에서도 AI 기술의 도입이 추진되고 있음

- 하지만 클라우드 시스템 혹은 서비스의 문제 발생을 예측하고 사전에 방지 할 수 있는 지능형 클라우드 운영관리에 대한 기술 개발은 미진한 상태임

ㅇ 현재 대부분의 클라우드 운영관리 기술은 가상 머신(VM, Virtual Machine) 혹은 컨테이너(Container)의 프로비저닝 및 관리, 장애 복구 기능 등만을 제공함

- Walmart Labs의 OneOps, 오픈소스 Ansible은 클라우드 시스템 및 가상머신 관리를 지원하며, Google의 kubernetes, Docker Swarm은 컨테이너의 분산 관리로 서비스의 가용성(내결함성) 제공을 위하여 장애 발생 시 서비스 복구 및 재실행 수행

- 아마존, 마이크로소프트와 같은 대형 클라우드 서비스 벤더들은 시스템 관리를 위해 가상 인프라 라이프사이클 관리, 자원 모니터링, 환경 설정 및 오케스트레이션 등을 목적으로 한 오픈 소스를 활용 중 (출처: 48 Best Cloud Tools for Infrastructure Automation, ProfitBricks)

ㅇ 구글은 클라우드 플랫폼에서의 자동화(Automate Everything)를 3세대 클라우드 비전으로 제시하였으며, 클라우드 가용성 제공을 위해 Google Container Engine(GKE)의 새로운 기능으로 자동 노드 모니터링 및 복구 기능을 추가

ㅇ 기존의 ITOA(IT Operation and Analytics) 기업들이 빅데이터 및 머신러닝 기술을 활용하여 AIOps(Algorithmic IT operations) 기업으로 변모 중이며, AIOps 플랫폼은 지능형 클라우드의 운영 자동화에도 일부 적용되고 있음

- ITOA가 IT 운영에 대한 모니터링, 자동화, 가시화 기술을 기반으로 한 수동적인 IT 운영에 주안을 두었다면, 가트너에서 정의한 용어인 AIOps는 빅데이터와 머신러닝 등 각종 진보된 분석 기술을 활용하여 IT 운영을 선제적으로 대비하고 자동화하는 통합적인 기술을 의미함

ㅇ 구글은 인공지능에 대해 지속적인 연구개발투자를 진행해왔으며, 구글의 딥마인드(DeepMind) 신경망 지능을 데이터센터 운영에 접목하여 큰 성과를 내고 있음

- 데이터센터 내 온도와 전력, 냉각 펌프 냉각수의 유속 등 다양한 데이터를 신경망을 이용한 딥러닝으로 학습 및 분석하여 데이터센터 냉각 시스템 소비 전력을 40% 감소시키는데 성공함

* 이는 에너지 지표인 PUE(Power Usage Effectiveness) 기준으로 15% 개선에 해당

- 구글은 데이터센터 냉각 시스템 소비전력 절감을 시작으로 인공지능을 활용하여 데이터센터 내의 다른 요소에 대한 효율화도 진행 중인 것으로 알려짐

 




 

Ⅵ. 활용 분야


ㅇ 인공지능 기반의 지능형 클라우드 환경을 제공하여 대규모 클라우드 운영관리의 효율성 극대화 및 비용절감을 실현

- 대규모 클라우드의 복잡도 심화로 인한 클라우드 운영관리 오버헤드(성능병목, 고장, 오류 탐지 및 복구 등)를 최소화하고 효율적인 운영관리를 지원함으로써 저비용 고효율의 대규모 클라우드 구축이 가능

ㅇ 저비용·고효율 클라우드 가상 인프라 솔루션

- 머신러닝 기반 클라우드 상황 실시간 인지 및 예측을 통해 성능을 개선하고 저비용·고효율의 클라우드 가상 인프라 시스템 구축 및 운영관리 지원

ㅇ 클라우드 데이터 센터 운영관리 자동화 솔루션

- 머신러닝 기반 실시간 상황 모니터링 및 이상 감지 자동화를 통해 클라우드 데이터 센터의 운영관리 자동화 수준을 개선하고 비용 절감

ㅇ 클라우드 서비스 데스크 자동화 솔루션

- 머신러닝을 통해 구축된 지식과 경험을 바탕으로 클라우드 서비스 데스크 업무의 효율성 증대 및 자동화를 통한 비용 절감

ㅇ 클라우드 성능 SLA 보장 솔루션

- 클라우드 서비스의 SLA 대상으로 성능 지표를 제공하고, 이를 보장하기 위한 동적 모니터링, 자원 제어 및 성능 보강 SW 제공