현재 저히 팀은 머신러닝 모델을 프로덕션 환경에 지속적이고 안정적으로 배포하기 위해, 체계적인 MLOps 파이프라인을 구축하려 합니다. 모델 학습과 서빙에는 AWS SageMaker를 활용할 예정이며, 데이터 준비 및 전체 파이프라인 오케스트레이션은 Kubernetes 기반의 Amazon EKS를 중심으로 운영하려고 계획하고 있습니다.
이 과정에서 다음과 같은 부분에 대한 전문적인 조언이 필요합니다:
AWS SageMaker와 Kubernetes를 함께 활용할 때, 실무에서 권장되는 Best Practice 아키텍처는 어떤 형태인지 궁금합니다.
모델 학습, 검증, 배포 과정을 완전히 자동화하려면 추가로 고려해야 할 서비스나 도구(예: Feature Store, Model Registry 등)는 무엇이 있을지 알고 싶습니다.
SageMaker Pipelines를 활용해 전체 MLOps 프로세스를 관리하는 것이 좋은지, 아니면 Kubernetes 네이티브 워크플로우 도구(예: Argo Workflows)를 사용하는 것이 더 적합한지 비교 조언이 필요합니다.
이러한 하이브리드 아키텍처를 실제 운영할 때 주로 발생하는 문제점이나 주의해야 할 사항에는 어떤 것들이 있을까요?