오늘 배운 내용은 AWS 서비스 이름을 외우는 것이 아니라, 데이터 → 모델 → 에이전트 → 관측성 → 비용 최적화가 어떻게 하나의 운영 구조로 연결되는지 이해하는 것이 핵심이다.
| Keyword | Meaning |
|---|---|
| Amazon Bedrock | 여러 생성형 AI 모델을 API로 사용할 수 있게 해주는 AWS GenAI 플랫폼 |
| SageMaker | 머신러닝 모델을 만들고, 학습시키고, 배포하고, 운영하는 ML 플랫폼 |
| MLOps | ML 모델을 안정적으로 배포·운영·모니터링·개선하기 위한 체계 |
| AWS Glue | 여러 데이터 소스의 데이터를 수집·변환·정리하는 ETL 데이터 통합 서비스 |
| Data Quality | 데이터가 정확하고, 누락되지 않고, 일관성 있게 유지되는지 검증하는 것 |
| Multi-Agent | 여러 AI Agent가 역할을 나눠 협업하는 구조 |
| Agent Observability | Agent가 어떤 판단과 도구 호출을 했는지 추적하고 관찰하는 운영 체계 |
Bedrock은 개발자가 직접 모델 서버를 운영하지 않아도, 여러 Foundation Model을 AWS 환경 안에서 API 형태로 호출할 수 있게 해주는 서비스다.
| 구분 | Bedrock | SageMaker |
|---|---|---|
| 목적 | 생성형 AI 모델 사용 | ML 모델 직접 개발·학습·배포 |
| 관리 | AWS/모델 제공사 관리 | 사용자가 세밀하게 관리 |
| 적합 | 빠른 GenAI 기능 구현 | 커스텀 모델·튜닝·운영 |
Glue는 여러 곳에 흩어진 데이터를 분석하기 좋은 형태로 수집하고 변환하고 정리하는 데이터 통합 서비스다.
전체 목표를 분해하고 작업 순서를 설계한다.
필요한 정보와 문서를 검색하고 근거를 수집한다.
코드 작성, API 호출, 실제 실행 작업을 담당한다.
결과의 정확성, 누락, 안정성을 검토한다.
모델 호출 비용과 리소스 사용량을 확인한다.
배포와 운영 상태, 장애 가능성을 점검한다.
모든 요청에 고성능 모델을 쓰면 구현은 단순하지만 비용이 커진다.
여러 Agent로 쪼개면 비용은 줄어도 호출 단계가 늘어나 응답 시간이 증가할 수 있다.
저비용 모델만 쓰면 품질 저하, 재시도, 검증 비용이 오히려 늘 수 있다.
| 관찰 항목 | 확인해야 하는 것 |
|---|---|
| Prompt | 사용자가 어떤 요청을 했는가? |
| Plan | Agent가 어떤 계획을 세웠는가? |
| Tool Call | 어떤 도구/API를 호출했는가? |
| Latency | 어느 단계에서 오래 걸렸는가? |
| Cost | 어느 단계에서 비용이 많이 발생했는가? |
| Error | 어떤 모델/도구 호출에서 실패했는가? |
| Output Quality | 최종 응답이 정확하고 유용한가? |
데이터 품질이 낮으면 모델 성능과 AI 답변의 신뢰도도 낮아진다.
모델은 만들고 끝나는 것이 아니라 운영하면서 성능과 비용을 계속 관리해야 한다.
Agent는 판단과 도구 호출이 복잡하므로 실행 과정을 추적할 수 있어야 한다.