AWS 기반 AI/ML Agent 구조를 Azure로 100% 대체하기
오늘 배운 Bedrock, SageMaker, Glue, Agent Observability, Multi-Agent 개념을 Azure 제품군으로 재설계한 아키텍처 정리입니다. 단순 제품명 치환이 아니라 실제 운영 가능한 구조를 기준으로 정리했습니다.
핵심 요약
AWS Summit 내용을 Azure 기준으로 다시 해석한 최종 결론입니다.
AWS에서 다룬 핵심은 특정 제품 사용법이 아니라, AI Agent를 만들고, 데이터와 연결하고, ML 운영 체계를 만들고, 관측과 비용 최적화까지 수행하는 전체 구조입니다.
Azure로 100% 대체한다면 중심 조합은 다음과 같습니다.
Azure AI Foundry + Azure OpenAI / Foundry Models + Azure AI Foundry Agent Service + Azure AI Search + Azure Machine Learning + Azure Data Factory / Fabric Data Factory + Azure Databricks + Microsoft Purview + Azure Monitor / Application Insights + Microsoft Entra ID / Key Vault / Private Link
본질 파악
제품명보다 중요한 것은 기능을 올바르게 분리하는 것입니다.
모델 실행
LLM, 임베딩, 추론 모델을 안정적으로 호출합니다.
Agent 실행
Agent가 도구를 호출하고 여러 단계를 수행합니다.
지식 연결
사내 문서, DB, 로그, 파일을 RAG로 연결합니다.
운영 관측
Trace, Tool Call, 비용, 오류를 추적합니다.
기존 가정 재검토
| 기존 가정 | 판단 | 설명 |
|---|---|---|
| Bedrock은 Azure OpenAI로만 바꾸면 된다 | 부족함 | Bedrock은 모델 호출 외에 Agent, Knowledge, 운영 기능까지 포함합니다. |
| SageMaker는 Azure ML로 바꾸면 된다 | 대체 가능 | 다만 CI/CD, 모니터링, 데이터 파이프라인까지 함께 봐야 합니다. |
| Glue는 Data Factory로 바꾸면 된다 | 절반만 맞음 | 수집은 Data Factory, 변환은 Databricks, 품질/계보는 Purview가 담당합니다. |
| Agent는 LLM 호출 코드만 있으면 된다 | 위험함 | 운영에는 도구 호출, 추적, 보안, 비용 관리가 필요합니다. |
| Observability는 로그만 남기면 된다 | 부족함 | Agent는 단계별 Trace, Tool Call, Token, 검색 근거까지 봐야 합니다. |
AWS 제품별 Azure 대체표
기능 기준으로 본 Azure 대응 제품입니다.
| AWS 제품/개념 | Azure 대체 제품 | 역할 |
|---|---|---|
| Amazon Bedrock | Azure AI Foundry, Azure OpenAI, Foundry Models | 모델 선택, LLM 호출, Agent 개발 |
| Bedrock Agents | Azure AI Foundry Agent Service | Agent 생성, 도구 호출, 실행 관리 |
| SageMaker | Azure Machine Learning | ML 학습, 실험, 배포, MLOps |
| AWS Glue | Azure Data Factory, Fabric Data Factory, Azure Databricks | 데이터 수집, 변환, 파이프라인 |
| Glue Data Quality | Microsoft Purview Data Quality, Databricks DLT Expectations | 데이터 품질 검증 |
| S3 | Azure Data Lake Storage Gen2, Blob Storage | 데이터 저장소 |
| OpenSearch / Knowledge Base | Azure AI Search | RAG 검색, 벡터 검색 |
| Lambda | Azure Functions | 서버리스 함수 |
| Step Functions | Logic Apps, Durable Functions | 워크플로우 오케스트레이션 |
| CloudWatch | Azure Monitor, Application Insights, Log Analytics | 로그, 메트릭, 트레이스 |
| IAM | Microsoft Entra ID, Managed Identity, Azure RBAC | 인증과 권한 관리 |
| Secrets Manager | Azure Key Vault | 비밀값, 인증서, 키 관리 |
Azure 기준 전체 아키텍처
AI Agent, RAG, 데이터, MLOps, 관측, 보안을 하나의 구조로 묶은 형태입니다.
AI Agent 설계
Bedrock Agent를 Azure에서 대체하는 핵심 구조입니다.
Bedrock 대체: Azure AI Foundry 중심 구조
| 목적 | Azure 제품 |
|---|---|
| LLM 호출 | Azure OpenAI Service / Azure AI Foundry Models |
| Agent 런타임 | Azure AI Foundry Agent Service |
| Tool 호출 | Azure Functions, Logic Apps, API Management |
| Agent 상태 저장 | Azure Cosmos DB |
| 문서 검색 | Azure AI Search |
| 보안 | Microsoft Entra ID, Managed Identity, Key Vault |
Multi-Agent 비용 최적화 구조
저비용 모델
Azure AI Search
Functions / Logic Apps
고성능 모델
| Agent | 역할 | 모델 전략 |
|---|---|---|
| Orchestrator | 전체 흐름 제어 | 중간급/고성능 모델 |
| Classifier | 요청 유형 분류 | 저비용 소형 모델 |
| RAG | 문서 검색 및 근거 수집 | 중간급 모델 + Azure AI Search |
| Action | API 실행 | 소형 모델 또는 규칙 기반 |
| Validation | 답변 검증, 환각 체크 | 고성능 모델 |
RAG, DataOps, MLOps 설계
Glue와 SageMaker 역할을 Azure에서 분리해 설계합니다.
RAG / Knowledge Base
Data Pipeline
SageMaker 대체: Azure Machine Learning
| SageMaker 기능 | Azure 대체 |
|---|---|
| Notebook | Azure ML Notebooks / Compute Instance |
| Training Job | Azure ML Job |
| Pipeline | Azure ML Pipeline |
| Model Registry | Azure ML Model Registry |
| Endpoint | Azure ML Managed Online Endpoint |
| Experiment Tracking | Azure ML Experiments / MLflow |
Glue 대체: 역할 분리
| Glue 역할 | Azure 대체 |
|---|---|
| 데이터 수집/이동 | Azure Data Factory / Fabric Data Factory |
| 데이터 변환 | Azure Databricks / Synapse / Fabric Spark |
| 카탈로그/품질/계보 | Microsoft Purview |
Agent Observability 설계
Agent 운영에서는 일반 로그보다 더 세밀한 Trace가 필요합니다.
| 관측 항목 | Azure 제품 |
|---|---|
| Agent 실행 Trace | Azure AI Foundry Tracing |
| LLM 호출 latency | Application Insights |
| Token 사용량 | Application Insights Custom Metrics |
| Tool 호출 성공/실패 | Azure Monitor Logs |
| RAG 검색 결과 | Azure AI Search Logs |
| 에러/예외 | Application Insights |
| 비용 추적 | Cost Management + Custom Metrics |
| 대시보드 | Azure Monitor Workbook / Grafana |
최소 Trace 필드
{
"request_id": "req-001",
"user_id": "user-001",
"agent_name": "orchestrator-agent",
"model_name": "gpt-model",
"tool_name": "search-documents",
"retrieved_document_id": "doc-001",
"latency_ms": 1200,
"input_tokens": 1500,
"output_tokens": 500,
"error_type": null,
"cost_estimate": 0.012
}
단계별 실행 계획
처음부터 모든 것을 만들지 말고, 운영 가능한 최소 구조부터 확장합니다.
현실적인 우선순위
| 우선순위 | 구축 대상 | 이유 |
|---|---|---|
| 1 | Azure AI Foundry + Azure OpenAI | 핵심 AI 기능 확보 |
| 2 | Azure AI Search 기반 RAG | 사내 문서 활용 가능 |
| 3 | Azure Functions Tool 호출 | Agent가 실제 업무 수행 가능 |
| 4 | Application Insights Trace | 디버깅과 비용 추적 가능 |
| 5 | Data Factory + ADLS | 데이터 수집 자동화 |
| 6 | Purview | 품질, 계보, 거버넌스 확보 |
| 7 | Azure Machine Learning | 기존 ML 모델 운영 |
| 8 | Multi-Agent 구조 | 복잡한 업무 자동화와 비용 최적화 |
실수하기 쉬운 지점
Azure로 옮길 때 반복하기 쉬운 착각과 회피 방법입니다.
RAG 품질 점검 항목
문서 분할이 적절한가? 검색 인덱스가 최신인가? 메타데이터 필터가 있는가? 권한 필터링이 적용되었는가? 중복 문서가 제거되었는가? 최신 문서가 반영되었는가? 검색 결과 근거가 충분한가?