AWS Summit Recap · Azure Architecture

AWS 기반 AI/ML Agent 구조를 Azure로 100% 대체하기

오늘 배운 Bedrock, SageMaker, Glue, Agent Observability, Multi-Agent 개념을 Azure 제품군으로 재설계한 아키텍처 정리입니다. 단순 제품명 치환이 아니라 실제 운영 가능한 구조를 기준으로 정리했습니다.

AI Agent Azure AI Foundry 중심

RAG Azure AI Search 기반

MLOps Azure Machine Learning

DataOps Data Factory + Purview

핵심 요약

AWS Summit 내용을 Azure 기준으로 다시 해석한 최종 결론입니다.

AWS에서 다룬 핵심은 특정 제품 사용법이 아니라, AI Agent를 만들고, 데이터와 연결하고, ML 운영 체계를 만들고, 관측과 비용 최적화까지 수행하는 전체 구조입니다.

Azure로 100% 대체한다면 중심 조합은 다음과 같습니다.

Azure AI Foundry
+ Azure OpenAI / Foundry Models
+ Azure AI Foundry Agent Service
+ Azure AI Search
+ Azure Machine Learning
+ Azure Data Factory / Fabric Data Factory
+ Azure Databricks
+ Microsoft Purview
+ Azure Monitor / Application Insights
+ Microsoft Entra ID / Key Vault / Private Link

한 줄 결론: AWS의 Bedrock, SageMaker, Glue 기반 AI/ML Agent 아키텍처는 Azure에서 Azure AI Foundry + Azure Machine Learning + Data Factory/Fabric + Purview + Azure Monitor 조합으로 대체하는 것이 가장 자연스럽습니다.

본질 파악

제품명보다 중요한 것은 기능을 올바르게 분리하는 것입니다.

모델 실행

LLM, 임베딩, 추론 모델을 안정적으로 호출합니다.

Agent 실행

Agent가 도구를 호출하고 여러 단계를 수행합니다.

지식 연결

사내 문서, DB, 로그, 파일을 RAG로 연결합니다.

운영 관측

Trace, Tool Call, 비용, 오류를 추적합니다.

기존 가정 재검토

기존 가정	판단	설명
Bedrock은 Azure OpenAI로만 바꾸면 된다	부족함	Bedrock은 모델 호출 외에 Agent, Knowledge, 운영 기능까지 포함합니다.
SageMaker는 Azure ML로 바꾸면 된다	대체 가능	다만 CI/CD, 모니터링, 데이터 파이프라인까지 함께 봐야 합니다.
Glue는 Data Factory로 바꾸면 된다	절반만 맞음	수집은 Data Factory, 변환은 Databricks, 품질/계보는 Purview가 담당합니다.
Agent는 LLM 호출 코드만 있으면 된다	위험함	운영에는 도구 호출, 추적, 보안, 비용 관리가 필요합니다.
Observability는 로그만 남기면 된다	부족함	Agent는 단계별 Trace, Tool Call, Token, 검색 근거까지 봐야 합니다.

AWS 제품별 Azure 대체표

기능 기준으로 본 Azure 대응 제품입니다.

AWS 제품/개념	Azure 대체 제품	역할
Amazon Bedrock	Azure AI Foundry, Azure OpenAI, Foundry Models	모델 선택, LLM 호출, Agent 개발
Bedrock Agents	Azure AI Foundry Agent Service	Agent 생성, 도구 호출, 실행 관리
SageMaker	Azure Machine Learning	ML 학습, 실험, 배포, MLOps
AWS Glue	Azure Data Factory, Fabric Data Factory, Azure Databricks	데이터 수집, 변환, 파이프라인
Glue Data Quality	Microsoft Purview Data Quality, Databricks DLT Expectations	데이터 품질 검증
S3	Azure Data Lake Storage Gen2, Blob Storage	데이터 저장소
OpenSearch / Knowledge Base	Azure AI Search	RAG 검색, 벡터 검색
Lambda	Azure Functions	서버리스 함수
Step Functions	Logic Apps, Durable Functions	워크플로우 오케스트레이션
CloudWatch	Azure Monitor, Application Insights, Log Analytics	로그, 메트릭, 트레이스
IAM	Microsoft Entra ID, Managed Identity, Azure RBAC	인증과 권한 관리
Secrets Manager	Azure Key Vault	비밀값, 인증서, 키 관리

Azure 기준 전체 아키텍처

AI Agent, RAG, 데이터, MLOps, 관측, 보안을 하나의 구조로 묶은 형태입니다.

Frontend

React / Next.js

Azure Static Web Apps

사용자 업무 시스템

API Layer

Azure API Management

Azure Container Apps

App Service

Agent Layer

Azure AI Foundry Agent Service

Azure OpenAI / Foundry Models

Semantic Kernel

Knowledge Layer

Azure AI Search

Azure AI Document Intelligence

Blob Storage / ADLS Gen2

Data / ML Layer

Azure Data Factory

Azure Databricks

Azure Machine Learning

Governance

Microsoft Purview

Purview Data Quality

Lineage / Catalog

Observability

Azure Monitor

Application Insights

Log Analytics

Security

Microsoft Entra ID

Managed Identity / RBAC

Key Vault / Private Link

AI Agent 설계

Bedrock Agent를 Azure에서 대체하는 핵심 구조입니다.

Bedrock 대체: Azure AI Foundry 중심 구조

사용자 요청

API Management

App Service / Container Apps

AI Foundry Agent

Azure OpenAI

AI Search / Functions

목적	Azure 제품
LLM 호출	Azure OpenAI Service / Azure AI Foundry Models
Agent 런타임	Azure AI Foundry Agent Service
Tool 호출	Azure Functions, Logic Apps, API Management
Agent 상태 저장	Azure Cosmos DB
문서 검색	Azure AI Search
보안	Microsoft Entra ID, Managed Identity, Key Vault

Multi-Agent 비용 최적화 구조

Orchestrator Agent

Classifier Agent
저비용 모델

RAG Agent
Azure AI Search

Action Agent
Functions / Logic Apps

Validation Agent
고성능 모델

Agent	역할	모델 전략
Orchestrator	전체 흐름 제어	중간급/고성능 모델
Classifier	요청 유형 분류	저비용 소형 모델
RAG	문서 검색 및 근거 수집	중간급 모델 + Azure AI Search
Action	API 실행	소형 모델 또는 규칙 기반
Validation	답변 검증, 환각 체크	고성능 모델

비용 절감의 본질은 “싼 모델을 많이 쓰는 것”이 아니라, 비싼 모델을 판단이 어려운 순간에만 쓰는 것입니다.

RAG, DataOps, MLOps 설계

Glue와 SageMaker 역할을 Azure에서 분리해 설계합니다.

RAG / Knowledge Base

문서 / DB / Wiki

Document Intelligence

Embedding 생성

Azure AI Search

Agent 답변

Data Pipeline

원천 데이터

Data Factory

ADLS Gen2

Databricks

Purview

SageMaker 대체: Azure Machine Learning

SageMaker 기능	Azure 대체
Notebook	Azure ML Notebooks / Compute Instance
Training Job	Azure ML Job
Pipeline	Azure ML Pipeline
Model Registry	Azure ML Model Registry
Endpoint	Azure ML Managed Online Endpoint
Experiment Tracking	Azure ML Experiments / MLflow

Glue 대체: 역할 분리

Glue 역할	Azure 대체
데이터 수집/이동	Azure Data Factory / Fabric Data Factory
데이터 변환	Azure Databricks / Synapse / Fabric Spark
카탈로그/품질/계보	Microsoft Purview

Agent Observability 설계

Agent 운영에서는 일반 로그보다 더 세밀한 Trace가 필요합니다.

Agent Observability는 단순 로그가 아닙니다. 어떤 입력을 받고, 어떤 모델과 도구를 호출했고, 어느 단계에서 지연·오류·비용이 발생했는지 추적하는 구조입니다.

관측 항목	Azure 제품
Agent 실행 Trace	Azure AI Foundry Tracing
LLM 호출 latency	Application Insights
Token 사용량	Application Insights Custom Metrics
Tool 호출 성공/실패	Azure Monitor Logs
RAG 검색 결과	Azure AI Search Logs
에러/예외	Application Insights
비용 추적	Cost Management + Custom Metrics
대시보드	Azure Monitor Workbook / Grafana

최소 Trace 필드

{
  "request_id": "req-001",
  "user_id": "user-001",
  "agent_name": "orchestrator-agent",
  "model_name": "gpt-model",
  "tool_name": "search-documents",
  "retrieved_document_id": "doc-001",
  "latency_ms": 1200,
  "input_tokens": 1500,
  "output_tokens": 500,
  "error_type": null,
  "cost_estimate": 0.012
}

단계별 실행 계획

처음부터 모든 것을 만들지 말고, 운영 가능한 최소 구조부터 확장합니다.

기능 단위로 재분류 모델 호출, Agent 실행, RAG, 데이터 수집, 품질, MLOps, 관측, 보안, 비용 관리로 나눕니다.

최소 PoC 구축 Azure AI Foundry + Azure OpenAI + Azure AI Search + Blob Storage + Functions + Application Insights로 시작합니다.

데이터 파이프라인 연결 Data Factory → ADLS Gen2 → Databricks → Purview → Azure AI Search 구조를 만듭니다.

MLOps 연결 Azure ML Pipeline → 학습 → 평가 → Model Registry → Managed Online Endpoint → Agent 호출로 확장합니다.

운영 관측 강화 Agent 성공률, Tool 실패율, 응답 시간, Token 사용량, RAG Hit Rate, 모델별 비용을 추적합니다.

현실적인 우선순위

우선순위	구축 대상	이유
1	Azure AI Foundry + Azure OpenAI	핵심 AI 기능 확보
2	Azure AI Search 기반 RAG	사내 문서 활용 가능
3	Azure Functions Tool 호출	Agent가 실제 업무 수행 가능
4	Application Insights Trace	디버깅과 비용 추적 가능
5	Data Factory + ADLS	데이터 수집 자동화
6	Purview	품질, 계보, 거버넌스 확보
7	Azure Machine Learning	기존 ML 모델 운영
8	Multi-Agent 구조	복잡한 업무 자동화와 비용 최적화

실수하기 쉬운 지점

Azure로 옮길 때 반복하기 쉬운 착각과 회피 방법입니다.

Bedrock = Azure OpenAI라고만 생각하지 않기

Glue = Data Factory라고만 생각하지 않기

Multi-Agent를 처음부터 도입하지 않기

Observability를 나중에 붙이지 않기

RAG 검색 품질 문제를 모델 성능 문제로 착각하지 않기

권한 필터링 없이 사내 문서를 검색 인덱싱하지 않기

비용 지표 없이 고성능 모델을 기본값으로 두지 않기

데이터 품질 검증 없이 Agent 답변에 연결하지 않기

RAG 품질 점검 항목

문서 분할이 적절한가?
검색 인덱스가 최신인가?
메타데이터 필터가 있는가?
권한 필터링이 적용되었는가?
중복 문서가 제거되었는가?
최신 문서가 반영되었는가?
검색 결과 근거가 충분한가?