AWS Summit Recap · Azure Architecture

AWS 기반 AI/ML Agent 구조를 Azure로 100% 대체하기

오늘 배운 Bedrock, SageMaker, Glue, Agent Observability, Multi-Agent 개념을 Azure 제품군으로 재설계한 아키텍처 정리입니다. 단순 제품명 치환이 아니라 실제 운영 가능한 구조를 기준으로 정리했습니다.

AI Agent Azure AI Foundry 중심
RAG Azure AI Search 기반
MLOps Azure Machine Learning
DataOps Data Factory + Purview
1

핵심 요약

AWS Summit 내용을 Azure 기준으로 다시 해석한 최종 결론입니다.

AWS에서 다룬 핵심은 특정 제품 사용법이 아니라, AI Agent를 만들고, 데이터와 연결하고, ML 운영 체계를 만들고, 관측과 비용 최적화까지 수행하는 전체 구조입니다.

Azure로 100% 대체한다면 중심 조합은 다음과 같습니다.

Azure AI Foundry
+ Azure OpenAI / Foundry Models
+ Azure AI Foundry Agent Service
+ Azure AI Search
+ Azure Machine Learning
+ Azure Data Factory / Fabric Data Factory
+ Azure Databricks
+ Microsoft Purview
+ Azure Monitor / Application Insights
+ Microsoft Entra ID / Key Vault / Private Link
한 줄 결론: AWS의 Bedrock, SageMaker, Glue 기반 AI/ML Agent 아키텍처는 Azure에서 Azure AI Foundry + Azure Machine Learning + Data Factory/Fabric + Purview + Azure Monitor 조합으로 대체하는 것이 가장 자연스럽습니다.
2

본질 파악

제품명보다 중요한 것은 기능을 올바르게 분리하는 것입니다.

01

모델 실행

LLM, 임베딩, 추론 모델을 안정적으로 호출합니다.

02

Agent 실행

Agent가 도구를 호출하고 여러 단계를 수행합니다.

03

지식 연결

사내 문서, DB, 로그, 파일을 RAG로 연결합니다.

04

운영 관측

Trace, Tool Call, 비용, 오류를 추적합니다.

기존 가정 재검토

기존 가정 판단 설명
Bedrock은 Azure OpenAI로만 바꾸면 된다 부족함 Bedrock은 모델 호출 외에 Agent, Knowledge, 운영 기능까지 포함합니다.
SageMaker는 Azure ML로 바꾸면 된다 대체 가능 다만 CI/CD, 모니터링, 데이터 파이프라인까지 함께 봐야 합니다.
Glue는 Data Factory로 바꾸면 된다 절반만 맞음 수집은 Data Factory, 변환은 Databricks, 품질/계보는 Purview가 담당합니다.
Agent는 LLM 호출 코드만 있으면 된다 위험함 운영에는 도구 호출, 추적, 보안, 비용 관리가 필요합니다.
Observability는 로그만 남기면 된다 부족함 Agent는 단계별 Trace, Tool Call, Token, 검색 근거까지 봐야 합니다.
3

AWS 제품별 Azure 대체표

기능 기준으로 본 Azure 대응 제품입니다.

AWS 제품/개념 Azure 대체 제품 역할
Amazon Bedrock Azure AI Foundry, Azure OpenAI, Foundry Models 모델 선택, LLM 호출, Agent 개발
Bedrock Agents Azure AI Foundry Agent Service Agent 생성, 도구 호출, 실행 관리
SageMaker Azure Machine Learning ML 학습, 실험, 배포, MLOps
AWS Glue Azure Data Factory, Fabric Data Factory, Azure Databricks 데이터 수집, 변환, 파이프라인
Glue Data Quality Microsoft Purview Data Quality, Databricks DLT Expectations 데이터 품질 검증
S3 Azure Data Lake Storage Gen2, Blob Storage 데이터 저장소
OpenSearch / Knowledge Base Azure AI Search RAG 검색, 벡터 검색
Lambda Azure Functions 서버리스 함수
Step Functions Logic Apps, Durable Functions 워크플로우 오케스트레이션
CloudWatch Azure Monitor, Application Insights, Log Analytics 로그, 메트릭, 트레이스
IAM Microsoft Entra ID, Managed Identity, Azure RBAC 인증과 권한 관리
Secrets Manager Azure Key Vault 비밀값, 인증서, 키 관리
4

Azure 기준 전체 아키텍처

AI Agent, RAG, 데이터, MLOps, 관측, 보안을 하나의 구조로 묶은 형태입니다.

Frontend
React / Next.js
Azure Static Web Apps
사용자 업무 시스템
API Layer
Azure API Management
Azure Container Apps
App Service
Agent Layer
Azure AI Foundry Agent Service
Azure OpenAI / Foundry Models
Semantic Kernel
Knowledge Layer
Azure AI Search
Azure AI Document Intelligence
Blob Storage / ADLS Gen2
Data / ML Layer
Azure Data Factory
Azure Databricks
Azure Machine Learning
Governance
Microsoft Purview
Purview Data Quality
Lineage / Catalog
Observability
Azure Monitor
Application Insights
Log Analytics
Security
Microsoft Entra ID
Managed Identity / RBAC
Key Vault / Private Link
5

AI Agent 설계

Bedrock Agent를 Azure에서 대체하는 핵심 구조입니다.

Bedrock 대체: Azure AI Foundry 중심 구조

사용자 요청
API Management
App Service / Container Apps
AI Foundry Agent
Azure OpenAI
AI Search / Functions
목적 Azure 제품
LLM 호출 Azure OpenAI Service / Azure AI Foundry Models
Agent 런타임 Azure AI Foundry Agent Service
Tool 호출 Azure Functions, Logic Apps, API Management
Agent 상태 저장 Azure Cosmos DB
문서 검색 Azure AI Search
보안 Microsoft Entra ID, Managed Identity, Key Vault

Multi-Agent 비용 최적화 구조

Orchestrator Agent
Classifier Agent
저비용 모델
RAG Agent
Azure AI Search
Action Agent
Functions / Logic Apps
Validation Agent
고성능 모델
Agent 역할 모델 전략
Orchestrator 전체 흐름 제어 중간급/고성능 모델
Classifier 요청 유형 분류 저비용 소형 모델
RAG 문서 검색 및 근거 수집 중간급 모델 + Azure AI Search
Action API 실행 소형 모델 또는 규칙 기반
Validation 답변 검증, 환각 체크 고성능 모델
비용 절감의 본질은 “싼 모델을 많이 쓰는 것”이 아니라, 비싼 모델을 판단이 어려운 순간에만 쓰는 것입니다.
6

RAG, DataOps, MLOps 설계

Glue와 SageMaker 역할을 Azure에서 분리해 설계합니다.

RAG / Knowledge Base

문서 / DB / Wiki
Document Intelligence
Embedding 생성
Azure AI Search
Agent 답변

Data Pipeline

원천 데이터
Data Factory
ADLS Gen2
Databricks
Purview

SageMaker 대체: Azure Machine Learning

SageMaker 기능 Azure 대체
Notebook Azure ML Notebooks / Compute Instance
Training Job Azure ML Job
Pipeline Azure ML Pipeline
Model Registry Azure ML Model Registry
Endpoint Azure ML Managed Online Endpoint
Experiment Tracking Azure ML Experiments / MLflow

Glue 대체: 역할 분리

Glue 역할 Azure 대체
데이터 수집/이동 Azure Data Factory / Fabric Data Factory
데이터 변환 Azure Databricks / Synapse / Fabric Spark
카탈로그/품질/계보 Microsoft Purview
7

Agent Observability 설계

Agent 운영에서는 일반 로그보다 더 세밀한 Trace가 필요합니다.

Agent Observability는 단순 로그가 아닙니다. 어떤 입력을 받고, 어떤 모델과 도구를 호출했고, 어느 단계에서 지연·오류·비용이 발생했는지 추적하는 구조입니다.
관측 항목 Azure 제품
Agent 실행 Trace Azure AI Foundry Tracing
LLM 호출 latency Application Insights
Token 사용량 Application Insights Custom Metrics
Tool 호출 성공/실패 Azure Monitor Logs
RAG 검색 결과 Azure AI Search Logs
에러/예외 Application Insights
비용 추적 Cost Management + Custom Metrics
대시보드 Azure Monitor Workbook / Grafana

최소 Trace 필드

{
  "request_id": "req-001",
  "user_id": "user-001",
  "agent_name": "orchestrator-agent",
  "model_name": "gpt-model",
  "tool_name": "search-documents",
  "retrieved_document_id": "doc-001",
  "latency_ms": 1200,
  "input_tokens": 1500,
  "output_tokens": 500,
  "error_type": null,
  "cost_estimate": 0.012
}
8

단계별 실행 계획

처음부터 모든 것을 만들지 말고, 운영 가능한 최소 구조부터 확장합니다.

기능 단위로 재분류 모델 호출, Agent 실행, RAG, 데이터 수집, 품질, MLOps, 관측, 보안, 비용 관리로 나눕니다.
최소 PoC 구축 Azure AI Foundry + Azure OpenAI + Azure AI Search + Blob Storage + Functions + Application Insights로 시작합니다.
데이터 파이프라인 연결 Data Factory → ADLS Gen2 → Databricks → Purview → Azure AI Search 구조를 만듭니다.
MLOps 연결 Azure ML Pipeline → 학습 → 평가 → Model Registry → Managed Online Endpoint → Agent 호출로 확장합니다.
운영 관측 강화 Agent 성공률, Tool 실패율, 응답 시간, Token 사용량, RAG Hit Rate, 모델별 비용을 추적합니다.

현실적인 우선순위

우선순위 구축 대상 이유
1 Azure AI Foundry + Azure OpenAI 핵심 AI 기능 확보
2 Azure AI Search 기반 RAG 사내 문서 활용 가능
3 Azure Functions Tool 호출 Agent가 실제 업무 수행 가능
4 Application Insights Trace 디버깅과 비용 추적 가능
5 Data Factory + ADLS 데이터 수집 자동화
6 Purview 품질, 계보, 거버넌스 확보
7 Azure Machine Learning 기존 ML 모델 운영
8 Multi-Agent 구조 복잡한 업무 자동화와 비용 최적화
9

실수하기 쉬운 지점

Azure로 옮길 때 반복하기 쉬운 착각과 회피 방법입니다.

Bedrock = Azure OpenAI라고만 생각하지 않기
Glue = Data Factory라고만 생각하지 않기
Multi-Agent를 처음부터 도입하지 않기
Observability를 나중에 붙이지 않기
RAG 검색 품질 문제를 모델 성능 문제로 착각하지 않기
권한 필터링 없이 사내 문서를 검색 인덱싱하지 않기
비용 지표 없이 고성능 모델을 기본값으로 두지 않기
데이터 품질 검증 없이 Agent 답변에 연결하지 않기

RAG 품질 점검 항목

문서 분할이 적절한가?
검색 인덱스가 최신인가?
메타데이터 필터가 있는가?
권한 필터링이 적용되었는가?
중복 문서가 제거되었는가?
최신 문서가 반영되었는가?
검색 결과 근거가 충분한가?