[2부] 클라우드, 포그, 엣지를 위한 서비스형 인공지능(AIaaS) > 기술/보안

상명대학교 / 서광규 교수

2. AI as a Service

2-1. as a Service(aaS) 및 요구 사항

"as a Service(aaS)"는 클라우드 인프라를 통해 구독 방식으로 제공되는 서비스를 식별하는 데 사용되는 용어이다. 이 모델에서 고객은 일회성 서비스 구매가 아닌 구독 방식으로 서비스에 액세스할 수 있다. 이 서비스 제공 모델은 본질적으로 서비스 소유권과 최종 사용자를 분리하며, 공급업체는 고객에게 온디맨드 방식으로 AI 서비스 및 리소스에 대한 액세스를 제공한다. aaS의 정확한 정의는 시간이 지남에 따라 발전해 왔으며, 초기 정의는 ASP에 초점을 맞추었고, 이후 NIST는 이를 클라우드 서비스로 정의했으며 ISO/IEC와 ITU-T에서 클라우드 컴퓨팅을 표준화하였다.

aaS는 "클라우드 서비스"라고도 하며, 클라우드 컴퓨팅 리소스를 사용하여 소프트웨어를 통해 서비스를 제공하는 것을 포함한다. 현재 수많은 서비스가 aaS 모델로 제공되고 있다. SaaS는 고객이 소프트웨어를 일회성으로 구매하는 대신 소프트웨어 구독을 구매할 수 있도록 하는 최초의 서비스 중 하나였다. 이 서비스 모델 범주에서 등장한 다른 주목할 만한 서비스는 PaaS와 IaaS이다. PaaS는 고객에게 애플리케이션을 구축, 테스트 및 배포할 수 있는 하드웨어, 소프트웨어 및 인프라를 포괄하는 완전한 플랫폼을 제공한다. 반면 IaaS는 최종 사용자에게 자체 데이터 센터에 대한 비용을 지불하고 관리할 필요 없이 서버, 스토리지, 네트워크 및 보안 장치와 같은 데이터 센터 리소스에 대한 온디맨드 액세스를 제공한다. AI는 여러 애플리케이션을 개선할 수 있는 잠재력을 가지고 있지만, 숙련된 개발자를 고용하고 AI 프로젝트를 위해 우수한 컴퓨팅 리소스를 배치하는 데 드는 비용이 합쳐져 소규모 조직에서는 점점 더 접근하기 어려워지고 있다. 이로 인해 개인과 소규모 조직이 합리적인 비용으로 지능형 애플리케이션을 구현할 수 있도록 하는 "aaS" 모델로 제공되는 AI 서비스가 등장했다. AI를 서비스로 제공하는 방법을 이해하려면 해당 서비스의 요구 사항과 특성을 파악해야 한다. aaS로 제공되는 서비스를 객관적으로 평가하는 데 사용할 수 있는 이러한 특성이 없으면 고객이 요구 사항을 충족하지 않는 서비스를 선택할 수 있다. 대부분의 aaS 서비스가 클라우드 기반 배포를 채택하므로 먼저 AIaaS에서 상속받을 클라우드 서비스의 주요 특성을 파악하는 것이 중요하다. 이를 통해 aaS 모델의 요구 사항을 충족할 수 있는 AIaaS 아키텍처를 구축할 수 있다. ISO/IEC 22123에서는 aaS를 클라우드 서비스로 정의하는 이 범주에 따라 제공되는 모든 서비스에 필수적인 여섯 가지 특성이 있다.

- 멀티 테넌시: 하나의 소프트웨어 인스턴스나 인프라를 여러 사용자가 공동으로 사용하는 구조로 각 사용자(테넌트)는 자신만의 데이터, 설정, 사용자 인터페이스를 가지며, 다른 사용자와는 논리적으로 분리되어 있어 보안과 개인정보는 보호된다.

- 온디맨드 셀프 서비스: 이를 통해 고객은 서비스 제공자와의 인적 상호 작용 없이 컴퓨팅 기능을 제공할 수 있다.

- 광범위한 네트워크 액세스: 서비스는 표준 프로토콜을 사용하여 인터넷을 통해 씬 클라이언트와 씬 클라이언트를 포함한 모든 위치와 장치에서 액세스할 수 있어야 한다.

- 리소스 풀링: 서비스 제공자의 컴퓨팅 리소스는 멀티 테넌트 모델에서 여러 고객에게 제공되어야 한다. 이를 통해 여러 고객이 CPU(중앙 처리 장치), GPU, FPGA(필드 프로그래밍 가능 게이트 어레이), 메모리, 스토리지 및 대역폭과 같은 컴퓨팅 리소스를 사용할 수 있다.

- 신속한 탄력성과 확장성: 컴퓨팅 기능을 수요에 따라 신속하게 할당하고 해제할 수 있어야 한다.

- 측정된 서비스: 최종 사용자의 리소스 사용률을 모니터링, 제어 및 보고할 수 있어야 하며, 이를 통해 구독에 따른 사용량을 모니터링할 수 있다.

클라우드 컴퓨팅 시스템에 필요한 다른 필수 특성으로는 다음과 같은 것이 있다.

- 추상화: 최종 사용자가 솔루션을 쉽게 사용하고 배포할 수 있도록 지원

- 통합: 사내 비즈니스 프로세스와 aaS 애플리케이션 간의 긴밀한 결합을 달성하기 위한 사용자 지정 및 구성 가능

- 보안: 고객 데이터 보호, 소규모 조직 및 개인을 포함한 다양한 최종 사용자에게 비용 효율적인 액세스 보장

또한, 내결함성과 확장성 또한 최종 사용자에게 안정적인 서비스를 제공하는 데 필수적이다.

"서비스로서의 AI"는 클라우드 서비스의 모든 특성을 계승해야 한다. 또한, aaS 배포는 제공되는 서비스의 다양한 사용 사례를 충족할 수 있어야 한다.

2-2. 서비스형 AI 프레임워크의 기능

이전 섹션에서는 "aaS" 모델의 주요 특징을 파악했다. 이 섹션에서는 AIaaS 배포가 AIaaS로 분류되기 위해 필요한 주요 기능을 제시한다. AIaaS의 주요 기능을 이해하기 위해 이러한 배포의 기술, 애플리케이션, 사용자 및 예상 비즈니스 결과에 대한 통찰력을 제공하는 기존 AI 프레임워크를 기술하기로 한다.

2-2-1. 기술

완전한 AIaaS 솔루션에는 기업에서 도입되는 다양한 AI 애플리케이션에 필수적인 다양한 AI 기술이 포함되어야 한다.

Gartner에 따르면 AI 엔터프라이즈 프레임워크는 핵심 AI 기술, 제품 범주, 애플리케이션, 사용자 및 비즈니스 결과로 구성된다.

AIaaS 서비스는 데이터 분석, 분류, 예측, 패턴 인식과 같은 다양한 작업을 지원할 수 있어야 하며, 생성 AI 기술을 사용하여 새로운 데이터 생성도 지원해야 한다. 이를 위해서는 AIaaS가 사용자가 ML 및 DL 알고리즘을 실행하여 자연어 처리(NLP), 음성 인식, 컴퓨터 비전, 패턴 인식, 추론 등을 수행할 수 있도록 지원해야 한다. 따라서 AIaaS가 지원해야 하는 핵심 AI 기술에는 광범위한 알고리즘, 애플리케이션 도메인, 프로그래밍 언어, 프레임워크 및 라이브러리, 데이터 처리, 모델 학습 및 최적화 도구, 설명 가능 AI, 시각화 도구 등이 포함되어야 한다. 이렇게 개발된 AI 모델은 다양한 엔터프라이즈 애플리케이션에 적용되어 작업 자동화를 촉진하고, 의사 결정 프로세스의 오류를 줄이며, 조직의 효율성과 생산성을 높일 수 있다.

2-2-2. 데이터 개인정보 보호 및 보안

AI 서비스가 클라우드를 통해 제공됨에 따라 최종 사용자는 대량의 데이터를 클라우드에 업로드하고 ML 및 DL 작업을 완료하는 데 필요한 계산을 수행해야 할 수 있다. 이는 사용자 데이터의 보안 및 개인정보 보호와 관련된 문제를 야기하며, 이는 이러한 서비스 사용에 대한 사용자의 신뢰에 영향을 미칠 수 있다. 이러한 문제를 해결하기 위해 AI 서비스 제공자는 데이터 암호화, 클라이언트가 데이터를 클라우드로 전송하기 전에 데이터에 충분한 노이즈를 추가하는 동시에 원래 데이터 관계를 유지하는 것, 신뢰할 수 있는 실행 환경 또는 연합 학습을 사용하는 것과 같은 기술을 사용하여 데이터 및 계산 작업의 보안과 개인 정보 보호를 보장해야 한다.

ML 및 DL 프레임워크에 적용되는 개인 정보 보호 기술의 몇 가지 예로는 Chiron, CryptoDL, PrivAI 등이 있다.

그러나 에지 장치에서 암호화 작업 비용이 리소스를 소모하고 암호화 기술을 사용하여 사용자 데이터를 보호할 때 어려움을 야기한다는 점에 유의해야 한다. AES(Advanced Encryption Standard) 또는 ECC(Elliptic Curve Cryptography)와 같은 일반적인 암호화 프로토콜을 구성하는 확장된 산술 연산 및 복잡한 메모리 조회 연산은 많은 전력을 소모하며 배터리 구동 장치에서 구현하기 어렵다. 모바일 액세스 지연 시간은 에지 장치가 클라우드와 같은 원격 자산과 지속적으로 통신할 필요가 없음을 보장한다. 이러한 플랫폼을 통해 에지 노드의 통신 비용을 최소화하기 위한 포괄적인 저지연 솔루션 제공이 가능하다. 연산 오프로드를 통해 에지 장치는 전체 시스템 지연 시간을 줄이는 데 중요한 역할을 하며 성능 향상에 기여한다. 에지 AI 시스템은 의료 관리에 구축되어 민감한 데이터에 대해 복잡한 암호화 작업을 수행하여 암호화를 보장하고 개인 정보 침해로부터 보호한다. 그러나 에지 장치가 구축할 수 있는 암호화 알고리즘은 에지에서의 암호화 작업에 따라 신중하게 선택해야 한다. 예를 들어, 최적화된 키 교환 프로토콜은 안전한 키 교환에 사용될 수 있으며, 기존의 대칭 키 기반 암호화 방식은 안전한 데이터 전송에 사용될 수 있다. 또한, Two-Fish 암호화 알고리즘은 에지 데이터의 분할 암호화에 채택되어 리소스를 많이 소모하는 기존 암호화 기법에 대한 효율적인 대안 솔루션을 제공한다.

2-2-3. 분산 학습

AI 서비스를 엣지에 더 가깝게 제공하는 방향으로 이동함에 따라 분산 ML이 잠재적 솔루션 중 하나로 부상했다. 분산 ML은 ML 워크로드를 여러 컴퓨터에 분산할 수 있도록 하며 클라우드 컴퓨팅 환경에서 연구되었다. 연합 학습은 여러 최종 사용자 또는 클라이언트가 알고리즘을 공동으로 학습할 수 있는 분산형 머신러닝(ML) 기술이다. 알고리즘 학습은 로컬 데이터 샘플을 사용하여 여러 엣지 장치 또는 최종 사용자 장치에 걸쳐 중앙 서버에서 조정되며, 최종 사용자는 민감한 데이터를 교환하거나 중앙 서버에 업로드할 필요가 없다.

연합 학습 방식에서 중앙 서버는 학습할 통계 모델을 선택하고 참여 장치로 모델을 전송한다. 그런 다음 엣지 또는 최종 사용자 장치는 로컬 데이터를 사용하여 로컬 모델을 학습한다. 이 과정에서 로컬 사용자 데이터는 장치를 벗어나지 않으므로 사용자 데이터의 개인정보 보호가 보장된다. 모델 매개변수(예: 신경망의 가중치 또는 편향) 업데이트만 중앙 매개변수 서버와 공유된다. 그런 다음 중앙 서버의 전역 모델은 다양한 로컬 모델 매개변수 값의 집계를 사용하여 도출된다. 그림 3(a)는 사용자 데이터의 개인 정보 보호에 사용할 수 있는 연합 학습 프로세스를 보여준다.

글로벌 모델의 효율성은 글로벌 모델을 업데이트하기 위해 선택한 집계 기법에 따라 달라진다. 효과적인 집계를 위해 다양한 전략이 제안되었다. 집계 기법은 크게 매개변수 기반 집계 또는 출력 기반 집계로 분류된다. 매개변수 기반 집계에서는 가중치 및 기울기와 같은 ML/DL 모델의 매개변수가 집계된다. 반면, 출력 기반 학습에서는 로짓 또는 압축 스케치(모델 지식 요약)와 같은 중간 단계 출력이 집계된다. 모델 집계는 중앙 모델 서버에 의해 중앙 집중화되거나 P2P 통신을 통해 분산될 수도 있다. 후자의 경우 참여 클라이언트 간의 모델 교환 및 융합에 의존한다. P2P 모델은 중앙 집중식 AIaaS 서비스 배포에는 적합하지 않을 수 있다. 그러나 지리적으로 분산된 AIaaS 배포는 지역 클라우드 서비스가 규정 준수를 위해 지역 개인정보 보호법을 준수하는 배포를 통해 이점을 얻을 수 있다. 지역 모델에서 받은 업데이트를 바탕으로 글로벌 모델을 만들면 여러 지역의 더 많은 사용자에게 서비스를 제공할 수 있다.

FedAvg, FedProx, FedNova, Scaffold, MOON, Zeno, Per-FedAvg와 같은 다양한 모델 집계 알고리즘이 존재한다. 또한, FL 모델 집계는 동기식 또는 비동기식으로 수행될 수 있다.

- 동기식 집계: 예를 들어, 금융 또는 의료 시스템에서는 글로벌 모델의 일관성을 확보하기 위해 분산(데이터 프라이버시 확보) 및 동기식(신뢰할 수 있는 모델 확보) 업데이트를 수행해야 한다. 이 경우, 모든 노드가 로컬 모델을 업데이트하고 해당 업데이트가 서버에 도달한 후 글로벌 모델 업데이트가 수행된다. 이는 균일하고 정확한 업데이트가 필요하지만 지연 시간이 허용되는 상황에 적합하다. 그러나 장치 이질성(즉, 다양한 계산 기능을 가진 장치)으로 인해 제한된 장치에서 강력한 컴퓨팅 장치에 비해 모델 업데이트 속도가 느린 경우 상당한 지연이 발생할 수 있다.

- 비동기 집계: 로컬 모델 업데이트는 도착하는 대로 중앙 글로벌 모델에 통합될 수 있으므로, 더 빠른 모델 업데이트가 가능하고 장치 이질성을 실현할 수 있다. 비동기 업데이트는 장치 이질성 및 오래된 업데이트 문제를 해결해야 한다. 또한, 시차 업데이트는 불일치를 유발할 수 있으며, 경우에 따라 글로벌 모델의 정확도에 영향을 미칠 수 있다.

클라이언트 선택, 클라이언트 우선순위 지정(특정 지표 기반) 또는 클러스터형 FL 기술 사용과 같은 방법은 서로 다른 클라이언트의 계산 및 통신 기능이 서로 다른 경우 클라이언트 편향을 줄이기 위해 개발되었다. 모델 집계가 단계적으로 발생하는 문제를 해결하기 위해 계층적 접근 방식도 개발되었는데 로컬 업데이트는 먼저 인근 에지 서버에서 부분적으로 집계된 후 글로벌 클라우드 기반 모델을 추가로 업데이트하는 데 사용된다. 이를 통해 통신 오버헤드를 줄이고 글로벌 모델을 자주 업데이트할 필요성을 줄이다. 그림 3(b)는 계층적 모델 집계 기술의 계층을 보여준다.

[그림3. 연합학습 전략]

FL이 해결해야 하는 또 다른 과제는 클라이언트가 동일하지 않게 분산된 데이터를 가지고 있는 데이터 이질성이다. 데이터 이질성 문제를 해결하기 위해 제안된 해결책 중 하나는 클러스터 연합 학습(FedClust)으로, 효과적인 학습 전략을 위해 클라이언트를 데이터 유사성을 기준으로 그룹화(데이터 분포 클러스터 형성)한다.

2-2-4. 처리 기능

AI 서비스 제공업체는 다양한 크기의 데이터셋을 처리하는 복잡한 ML 및 DL 알고리즘을 실행할 수 있는 계산 기능을 제공해야 한다. 하드웨어 공급업체들이 복잡한 AI 계산 작업을 처리할 수 있는 하드웨어를 개발하는 방향으로 전환하는 방식에는 눈에 띄는 영향이 있다. AI가 서버 설계의 개발 및 발전에 기여하는데 AI 워크로드 요구 사항을 충족하기 위해 GPU, TPU, AI 가속기와 같은 특수 하드웨어가 필요하다. 이를 위해서는 제어 및 데이터 플레인을 갖춘 미래형 클라우드 서버 아키텍처가 필요한데 제어 플레인의 역할은 AI 요구 사항에 따라 애플리케이션을 디스패치하고 하드웨어를 구성하는 것이며, 데이터 플레인은 프로세스 간 및 프로세스 내 통신을 위한 높은 무결성 경로를 제공한다.

이러한 계산 집약적 작업에 필요한 컴퓨팅 인프라에는 CPU, GPU, FPGA, ASIC(Application-Specific Integrated Circuit), TPU(Tensor Processing Unit), Edge TPU, NPU(Neural Processing Unit)가 포함된다. 또한, ML 작업은 이제 제약이 있는 기기에 사용되는 마이크로컨트롤러 유닛(MCU)에서 실행되도록 최적화되고 있다. 최신 엣지 프로세서는 인식 작업을 위한 신경망을 호스팅할 수 있는 상당히 확장된 처리 리소스(예: NVIDIA, Intel, AMD)를 제공하도록 발전했다. 엣지에서의 이러한 기능은 또한 IoT 기기가 중앙 신경망에 접근하지 못하고 인식/의사결정 프로세스를 중단시킬 수 있는 통신 장애에도 플랫폼을 복원력 있게 만든다.

2-2-5. 근접 서비스

근접성은 다양한 엔드포인트에서 AI 서비스에 대한 액세스를 용이하게 하기 위해 해결해야 할 또 다른 핵심 측면이다. 이러한 엔드포인트는 데스크톱, 노트북, 스마트폰, 태블릿, 서버 및 IoT 기기까지 다양하다. 대부분의 엔드포인트는 자동화된 실시간 응답을 생성하는 AI 애플리케이션을 실행할 수 있는 적절한 컴퓨팅 및 스토리지 리소스를 보유하고 있다. 이러한 경우 AIaaS가 해결해야 할 근접성은 민감한 데이터에 대한 지리적 위치 기반 클라우드 서비스를 제공하는 것이다. 관할권 간 데이터 개인정보 보호 규정이 다르기 때문이다.

제약이 있는 IoT 기기에 대한 근접성은 단순히 지리적 위치 기반 서비스를 제공하는 것과는 다르다. 주된 이유는 제한된 IoT 기기에서 직접 AI 추론 작업을 실행하는 것이 어렵기 때문이다. 이러한 작업에는 높은 연산 리소스가 필요하다. 대안은 광범위한 연산 워크로드를 지원하는 클라우드 기반 추론 서비스에 의존하는 것이다. 그러나 이 경우 대량의 IoT 데이터를 클라우드로 전송해야 하므로 상당한 네트워크 지연이 발생할 수 있으며 실시간 또는 지연에 민감한 애플리케이션에는 적합하지 않다. 이러한 예 중 하나는 자극에 따라 자발적으로 결정을 내려야 하는 자율 주행 자동차이며 실시간 의사 결정의 지연은 용납할 수 없다. AI 서비스를 IoT 기기에 더 가깝게 제공하기 위해 포그, 엣지, 미스트 컴퓨팅, 클라우드릿 등 다양한 컴퓨팅 패러다임이 제안되었다. 포그 컴퓨팅은 IoT와 클라우드 간의 데이터 경로를 따라 컴퓨팅 기능이 발생할 수 있는 수평적 아키텍처를 의미한다. 이를 통해 중앙 클라우드 리소스에만 의존하지 않고 엔드포인트에 더 가까운 곳에서 여러 컴퓨팅 작업을 수행할 수 있다.

IoT 기기에 계산 비용이 많이 드는 AI 추론 서비스를 제공하기 위해 일부 방법은 엣지에서 컴팩트 모델을 사용한다. 그러나 서버에서 실행되는 추론 서비스에 비해 정확도가 낮다. 반면, 서버에서 추론을 실행하면 데이터를 기기에서 서버로 이동해야 하므로 통신 오버헤드가 발생한다. IIoT에 AI 서비스를 제공하기 위해 협력적 엣지 및 클라우드 컴퓨팅 인프라를 위한 전이 학습 기반 모델이 개발되었다. 이 모델에서는 전력 지연 트레이드오프에 대한 추가 지표로 서비스 정확도를 사용하여 엣지에서 AI 서비스를 가능하게 한다. 제안된 아키텍처는 강력한 계산 기능을 갖춘 클라우드 AI 서비스로 구성된다. 대규모 IIoT 도메인 데이터 소스에서 사전 학습된 모델을 구축하는 데 사용된다. 이는 신경망의 초기 계층을 구성하는 일반적인 DL 모델을 형성한다. 엣지 컴퓨팅 장치는 클라우드에서 이러한 사전 학습된 모델을 로드하여 맞춤형 도메인별 모델로 변환한다. 맞춤형 모델은 에지 IIoT 장치에서 얻은 소규모 데이터로부터 특징을 학습하는 새로운 신경망 계층을 통합한다. 따라서 지연에 민감하고 개인 정보 보호에 민감한 IoT 애플리케이션의 경우, 에지-클라우드 협업 또는 장치-에지 공동 추론 기술이 IoT 장치에서 자극에 대한 지능적이고 자동화된 응답을 위한 AI 서비스를 촉진하는 가능한 솔루션이다. IoT 장치에 더 가까운 AI 추론 서비스를 위한 에지-클라우드 협업을 지원하려면 다양한 에지 컴퓨팅 기술이 필요하다.

IoT 장치에 AI 서비스를 제공하기 위한 또 다른 잠재적 솔루션은 연합 학습을 사용하는 것이다. 중앙 클라우드 노드를 ML/DL 매개변수를 포함하는 매개변수 서버로 사용하는 연합 학습 방식이 있는데 여러 에지 디바이스는 지연 시간 및 개인정보 보호 문제 없이 로컬에서 ML/DL 모델을 협력적으로 학습할 수 있다. 중앙 클라우드 서버에 저장된 집계된 ML/DL 모델 매개변수는 에지 디바이스에서 학습하고 보고한 로컬 매개변수 값을 사용하여 업데이트된다.

2-2-6. 최적의 리소스 활용

AIaaS가 aaS 배포의 탄력성 특성을 충족하기 위한 또 다른 핵심 요소는 효율적인 리소스 활용이다.

AIaaS에서 리소스 할당은 복잡한 작업이다. AIaaS 서비스에 필요한 리소스는 컴퓨팅, 스토리지, 메모리, 대역폭, 에너지, 보안, 개인정보 보호이다. 또한 가용성, 탄력성, 모델 정확도, 품질과 같은 여러 SLA/SLO가 필요하다. 또한, 다양한 사전 학습된 모델에 대한 접근성은 사내 ML 전문가에 대한 의존도를 줄이는 데 도움이 된다. AI 서비스는 또한 저지연 학습 및 추론 서비스, 데이터 업로드/다운로드 시 높은 처리량, 저렴한 서비스 비용, 낮은 CO2 배출량, 에너지 소비 감소를 제공해야 한다. 효율적인 리소스 활용의 어려움은 컴퓨팅 집약적인 AI 작업, 학습용 대용량 데이터 세트, 긴 학습 시간, 학습된 모델의 복잡성, 엣지의 리소스 제약, 높은 하드웨어 비용 등으로 인해 발생한다.

다양한 AI 프로젝트에서 분류 또는 예측 목적으로 인공 신경망(ANN)을 널리 채택하고 있다. 그러나 ANN은 계산 집약적인 학습 단계를 거친다. ANN은 입력값을 받아 신경망의 가중치 및 편향과 같은 모델 매개변수를 학습한다. 학습 단계에서는 더 나은 분류 또는 예측을 수행할 수 있는 최적의 모델 솔루션을 얻기 위해 신경망의 가중치와 편향을 미세 조정하기 위해 여러 번의 반복 작업을 수행해야 한다. 이러한 리소스 집약적인 단계는 완료하는 데 더 오랜 시간이 걸릴 수 있으며, GPU, FPGA 등과 같은 컴퓨팅 리소스와 관련된 높은 비용으로 인해 효율적인 리소스 관리가 필수적이다. 특히 다양한 최종 사용자가 고정된 리소스 할당으로 여러 ML 및 DL 모델 학습 작업을 제출하는 경우 이는 매우 중요하다. DL 작업에 맞게 맞춤화된 Optimus라는 리소스 스케줄러는 학습 시간을 줄이고 리소스를 효율적으로 할당한다. Optimus는 리소스 성능 모델을 개발하여 학습 작업에 필요한 리소스를 추정한다.

Optimus는 작업 진행 상황 및 플랫폼 부하에 따라 리소스를 동적으로 관리한다. 이러한 방식은 AIaaS 서비스의 리소스 관리를 크게 개선할 수 있다. 우수한 컴퓨팅 하드웨어는 AI 워크로드를 효율적으로 실행하는 데 필수적이지만, 일반 사용자는 ML/AI 작업의 다양한 단계에서 이러한 리소스를 사용하는 방법을 잘 알지 못할 수 있다. 따라서 AIaaS 서비스는 사용자가 수동으로 선택하지 않고도 AI 워크로드에 최적의 하드웨어 리소스를 자동으로 할당해야 하는 IaaS 서비스와는 달라야 한다. 사전 구성된 컴퓨팅 리소스가 있는 전체 가상 머신을 할당하는 대신 컨테이너 기반 가상화를 사용하여 AI 작업을 실행하면 이를 더욱 원활하게 수행할 수 있다.

AI 작업을 최적화하는 데 다양한 하드웨어 플랫폼과 구성이 제공되지만, 클라우드 시스템은 요구 사항에 따라 적절한 리소스를 선택하기 위해 효과적인 하드웨어 리소스 할당 체계가 필요하다. 사용자 정의 요구 사항을 충족하는 적절한 하드웨어 구성을 자동으로 선택하는 것을 목표로 하는 AI 알고리즘의 하드웨어 차원화(HADA)라는 자동화된 방법이 제안되었는데 여기에서는 다양한 하드웨어 리소스에서 여러 AI 알고리즘을 실행하고 머신러닝(ML)과 최적화 문제를 결합한 경험적 모델 학습 패러다임을 적용하여 벤치마킹했다. 이를 통해 AI 알고리즘의 성능과 하드웨어 리소스 간의 관계를 학습하는 데이터 기반 모델을 개발할 수 있다. 그림 4는 AI 알고리즘을 입력으로 받는 HADA 도구를 보여준다. 입력은 AI 알고리즘의 속성과 AI 애플리케이션에 대한 사용자 정의 제약 조건을 설명하는 특징 집합으로 표현된다. 도구에서 생성된 출력은 사용자 정의 제약 조건을 사용하여 알고리즘을 실행하는 데 필요한 최적의 하드웨어이다.

[그림4. AI 모델 요구 사항과 사용자 정의 제약 조건에 따라 자동화된 하드웨어 구성]

클라우드 인스턴스의 학습 AI 모델의 탄소 발자국을 측정하는 프레임워크를 제안되었는데 NLP 및 컴퓨터 비전 애플리케이션에 사용되는 모델의 탄소 강도 측정값을 제공한다. Green Software Foundation에서 제안한 소프트웨어 탄소 강도(SCI)를 사용하여 CO2 배출량을 계산했다. 실험에 따르면, 모델 매개변수가 매우 많은 대형 모델은 훨씬 더 많은 에너지를 소비한다. 여기에서 탄소 배출량을 줄이기 위해 적절한 지역을 선택하는 것과 함께 "유연한 시작"과 "일시 중지 및 재개"라는 두 가지 접근 방식을 제안했다. 이 전략의 근거는 CO2 배출량이 계산 작업이 수행되는 선택된 지역과 작업이 예약되는 시간대에 따라 달라진다는 것이다. 이를 기반으로 AIaaS는 비용, 탄소 발자국, 에너지 소비, 학습 및 추론 지연 시간, 컴퓨팅 인스턴스의 동적 프로비저닝, 동적 하드웨어 할당, 그리고 모델의 높은 정확도를 최소화하는 것을 목표로 하는 동적 리소스 할당 모듈을 포함해야 한다. 효율적인 리소스 관리 외에도 AIaaS는 모바일 엣지 또는 최종 사용자 기기에 대해 저지연 성능을 제공해야 한다. 이는 연합 학습, 포그 컴퓨팅 또는 엣지와 클라우드 간의 협업 컴퓨팅을 통해 달성할 수 있다.

2-2-7. 일반 AIaaS 아키텍쳐

여기에서는 강조된 기능 및 aaS 요구 사항을 기반으로 AIaaS 배포 개발에 사용할 수 있는 일반적인 AIaaS 아키텍처를 제시한다. 그림 5는 이러한 아키텍처에 포함되어야 하는 필수적인 특성과 기능을 강조하는 제안된 개념적 AIaaS 프레임워크를 보여준다.

[그림5. 필수 특성과 기능을 강조하는 일반 AIaaS 아키텍쳐]

다양한 특성과 기능을 데이터 관리, AI 애플리케이션 서비스, 운영 및 인프라로 논리적으로 분류했다. 기능과 특성을 논리적 블록으로 그룹화하면 서비스 제공업체가 완전한 AIaaS 제품을 구축하고 배포하는 데 필요한 핵심 구성 요소를 파악할 수 있다는 장점이 있다. AIaaS 배포에는 aaS의 기본 특성이 포함되어야 한다. 그러나 aaS로 제공되는 개별 AI 기술의 기능은 구현 방식에 따라 다를 수 있다. 데이터 관리 블록은 AI 워크플로에 필요한 다양한 데이터 업데이트 작업을 처리하며, 여기에는 데이터 전처리, 정규화, 특성 선택 및 기타 다양한 데이터 처리 기술이 포함된다. 또한, 데이터 관리 블록은 aaS의 높은 보안 요구 사항을 충족하기 위해 최종 사용자 데이터의 개인 정보 보호 및 보안을 보장해야 한다. 이는 암호화와 같은 기술을 통합하고, 연합 학습, 차등 개인 정보 보호, 동형 암호화와 같은 개인 정보 보호 기술을 구현하고, 안전한 컴퓨팅 하드웨어를 구축함으로써 달성할 수 있다.

인프라 블록은 AI 애플리케이션을 위한 컴퓨팅 및 네트워킹 리소스 프로비저닝, 내결함성 및 스토리지 시설을 처리한다. 최종 사용자는 서비스 요구 사항을 충족하기 위해 CPU, GPU 및 스토리지와 같은 인프라 리소스를 요청할 수 있는 유연성을 갖게 된다. 또한, 서비스 제공자는 사용자 요구 사항에 맞춰 컴퓨팅 리소스를 동적으로 추가 및 제거할 수 있다.

AI 애플리케이션 서비스 블록은 최종 사용자에게 핵심 AI 도구 및 기술을 서비스로 제공하는 데 중점을 둔다. 이러한 서비스에는 ML, DL, NLP, 컴퓨터 비전, 음성 인식 등과 같은 다양한 핵심 AI 기술이 포함될 수 있다. 최종 사용자는 데이터 기반 모델 학습 및 구축, 자체 학습 방법 선택, 자동 또는 수동 매개변수 튜닝, 사전 학습된 모델 접근 등 다양한 AI 워크플로를 수행할 수 있는 유연성을 가져야 한다. 마이크로서비스 아키텍처를 사용하면 아키텍처를 확장할 수 있으며, 이를 통해 다양한 ML 및 DL 작업을 독립적으로 작동할 수 있는 독립형 마이크로서비스로 만들 수 있다. 운영 블록은 동적 리소스 할당, 모니터링, 프로비저닝, 측정, 탄력성, 보고 및 가격 책정과 같은 중요한 기능을 제공하여 aaS 서비스에 필요한 중요한 특성을 구현하고 AI 서비스의 지연 시간 요구 사항을 충족하는 데 도움을 준다.

참 고 문 헌

JongGwan An,Wenbin Li, Franck Le Gall, Ernoe Kovac, Jaeho Kim, Tarik Taleb, and JaeSeung Song. 2019. EiF: Toward an elastic IoT Fog framework for AI services. IEEE Communications Magazine 57, 5 (2019), 28?33.
Wenchao Xia, Xinruo Zhang, Gan Zheng, Jun Zhang, Shi Jin, and Hongbo Zhu. 2020. The interplay between artificial intelligence and fog radio access networks. China Communications 17, 8 (2020), 1?13.
Shi, W., Cao, J., Zhang, Q., Li, Y., & Xu, L. (2016). Edge Computing: Vision and Challenges. IEEE Internet of Things Journal, 3(5), 637?646.
Cisco Systems. (2015). Fog Computing and the Internet of Things: Extend the Cloud to Where the Things Are. Cisco White Paper.
Satyanarayanan, M. (2017). The Emergence of Edge Computing. Computer, 50(1), 30?39.
Zhang, C., Patras, P., & Haddadi, H. (2019). Deep Learning in Mobile and Wireless Networking: A Survey. IEEE Communications Surveys & Tutorials, 21(3), 2224?2287.
Varghese, B., & Buyya, R. (2018). Next Generation Cloud Computing: New Trends and Research Directions. Future Generation Computer Systems, 79, 849?861.
OpenFog Consortium Architecture Working Group. (2017). OpenFog Reference Architecture for Fog Computing. https://www.openfogconsortium.org/ra/
TU-T Y.4208 (2020). Requirements and capabilities for AI-based edge computing.International Telecommunication Union (ITU-T).
https://www.itu.int/rec/T-REC-Y.4208-202006-I
Bahga, A., & Madisetti, V. (2016). Internet of Things: A Hands-on Approach. Universities Press.
Amazon Web Services. (2023). Machine Learning at the Edge: Overview. AWS Documentation.
https://docs.aws.amazon.com/whitepapers/latest/machine-learning-edge/machine-learning-edge.pdf
Google Cloud. (2022). Edge AI Solutions. Google Cloud White Paper.
https://cloud.google.com/solutions/edge-ai

저작권 정책

기술/보안

지식정보

[2부] 클라우드, 포그, 엣지를 위한 서비스형 인공지능(AIaaS)