AI ์ธํ๋ผ ์์ง๋์ด๋ ๋จธ์ ๋ฌ๋๊ณผ LLM ์ํฌ๋ก๋๊ฐ GPU, ํด๋ฌ์คํฐ, ๊ทธ๋ฆฌ๊ณ ํด๋ผ์ฐ๋์์ ์์ ์ ์ผ๋ก ์คํ๋๋๋ก ํ๋ ๋ฐฑ๋ณธ(backbone)์ ์ค๊ณํ๊ณ ์ด์์ ํ๋ฉฐ, ์ด๋ค์ ๋ชจ๋ธ์ ํ์ตํ์ง ์์ต๋๋ค.
ํ์
์์ AI ์ธํ๋ผ ์์ง๋์ด๋ ๋ค์์ ์ํํฉ๋๋ค:
GPU ํด๋ฌ์คํฐ, ๋ฆฌ์์ค ์ค์ผ์ค๋ง, ํ์ต/์ถ๋ก ์ค์ผ์ผ๋ง ๊ด๋ฆฌ
ML ์ํฌ๋ก๋์ฉ ๋ฐ์ดํฐ ์ธ์ ์
๋ฐ Feature ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
Triton, vLLM, Ray Serve ๊ฐ์ ๋๊ตฌ๋ก ๋ฐฐํฌ ์ต์ ํ
AIOps ์คํ์ ํ์ฉํ Observability ๋ฐ ์ฅ์ ๋ณต๊ตฌ ์๋ํ
๋ชจ๋ธ ์ด๋์ฑ์ ์ํ ํ์ด๋ธ๋ฆฌ๋ ๋ฐ ๋ฉํฐํด๋ผ์ฐ๋ ์ํฌํ๋ก์ฐ ์ง์
Level 1 โ AI ๊ธฐ์ด ๋จ๊ณ
โ ํ๋ก๊ทธ๋๋ฐ: Python, Bash, ๊ทธ๋ฆฌ๊ณ ์์คํ
์ธ์ด(Go ๋๋ Rust)
โ ์ด์์ฒด์ /๋คํธ์ํน: TCP/IP, DNS, ํฌํธ, SSH, ๋ณด์ ๊ทธ๋ฃน
โ ํด๋ผ์ฐ๋ ๊ธฐ์ด: AWS, GCP, ๋๋ Azure โ VM, ์คํ ๋ฆฌ์ง, IAM, ๋น์ฉ ๊ด๋ฆฌ
โ DevOps ๊ธฐ์ด: ๋ฒ์ ๊ด๋ฆฌ(Git), CI/CD ๊ฐ๋
, Docker
Level 2 โ ๋ฐ์ดํฐ & ๋จธ์ ๋ฌ๋ ๊ธฐ์ด ๋จ๊ณ
โ ๋ฐ์ดํฐ ๋ชจ๋ธ๋ง & ๋ฐ์ดํฐ๋ฒ ์ด์ค: SQL, NoSQL, ๋ถ์ฐ ํ์ผ ์คํ ๋ฆฌ์ง
โ ML & DL ๊ธฐ์ด: ํต์ฌ ML ๊ฐ๋
, scikit-learn, TensorFlow, PyTorch
โ ์คํ ๊ด๋ฆฌ: Jupyter ๋
ธํธ๋ถ, ๋ฉํธ๋ฆญ, ์ฌํ์ฑ
โ ํต๊ณ & ์งํ: ๊ธฐ๋ณธ ํต๊ณ, precision/recall, ROC, ๋ฐ์ดํฐ ํ๋กํ์ผ๋ง
Level 3 โ AI ์ธํ๋ผ & ์์ง๋์ด๋ง ํต์ฌ ๋จ๊ณ
โ ์ปจํ
์ด๋ & ์ค์ผ์คํธ๋ ์ด์
: Docker, Kubernetes, Helm
โ ์คํ ๋ฆฌ์ง & ๋ฐ์ดํฐ ์ํฌํ๋ก์ฐ: Object storage(S3/GCS), ETL ํ์ดํ๋ผ์ธ
โ ๋ถ์ฐ ํ์ต & ์๋น: Multi-GPU ์์คํ
, NCCL, CUDA, Triton
โ ์ํฌํ๋ก์ฐ & ๋ชจ๋ํฐ๋ง: MLflow, Kubeflow, Airflow, Prometheus, Grafana
Level 4 โ ๊ณ ๊ธ AI ์ธํ๋ผ & DevOps ๋จ๊ณ
โ ๋ณด์ & ์ปดํ๋ผ์ด์ธ์ค: Secrets ๊ด๋ฆฌ, Policy as Code, ๊ฐ์ฌ ๋ก๊ทธ
โ AI ๋คํธ์ํน: Istio/Linkerd, API Gateway, Load Balancing
โ ํด๋ผ์ฐ๋-๋ค์ดํฐ๋ธ AI ํ๋ซํผ: Vertex AI, SageMaker, Databricks
โ Infrastructure as Code: Terraform, CloudFormation, Ansible
Level 5 โ ์ค์ ์ ์ฉ & ํ๋ก์ ํธ ๋จ๊ณ
- Multi-GPU Training Setup
๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ํ์ฉํด PyTorch DDP + Kubernetes + Prometheus๋ก ๋ถ์ฐ ํ์ต ์๋ฎฌ๋ ์ด์ - RAG Deployment Demo
LangChain + FastAPI + Triton inference๋ก ์ต์ํ RAG ํ์ดํ๋ผ์ธ ๊ตฌ์ถ โ ์ปจํ ์ด๋ํํ๊ณ Render ๋๋ Hugging Face Spaces์ ๋ฐฐํฌ - AI Infra Observability
GPU ์ฌ์ฉ๋ฅ , ์ง์ฐ ์๊ฐ, ์์ฒญ ์ฒ๋ฆฌ๋์ ๋ชจ๋ํฐ๋งํ๋ Grafana ๋์๋ณด๋ ๊ตฌ์ฑ - Cost-Aware Scaling
KEDA ๋๋ Autoscaler ๊ธฐ๋ฐ์ผ๋ก GPU ์๋ ์ค์ผ์ผ๋ง ๊ตฌํ โ ๋น์ฉ/์ฑ๋ฅ ๊ทธ๋ํ ์ ์
Level 6 โ ์ปค๋ฆฌ์ด ์ฑ์ฅ & ์ปค๋ฎค๋ํฐ ๋จ๊ณ
โ ์คํ์์ค ๊ธฐ์ฌ: ML Infra ์ ์ฅ์ ๊ธฐ์ฌ, ์ด์ ๋ฆฌํฌํ
, ๊ธฐ๋ฅ ๊ฐ๋ฐ
โ ๋คํธ์ํน: KubeCon, PlatformCon ์ฐธ์, ์จ๋ผ์ธ ML/Infra ์ปค๋ฎค๋ํฐ ์ฐธ์ฌ
[์ถ์ฒ] AI Infra Engineer Learning Roadmap

