GPU Software trên Kubernetes dành cho GPU NVIDIA H100/H200
Tổng quan
K8s v1.34 (beta) hiện đã khả dụng trên FPT Cloud Managed Kubernetes with GPU. Phiên bản này bổ sung GPU Software mới (GPU Operator), GPU Driver Installation Type mới (Managed-install), và GPU Sharing Strategy (MIG).
1. GPU Software: GPU Operator
Để có thể sử dụng GPU Operator, khách hàng cần chọn K8s version 1.34. Khi tạo cluster v1.34, trong phần GPU Software sẽ có thêm lựa chọn GPU Operator (bên cạnh các lựa chọn cũ).
Managed-install Driver bắt buộc phải chọn GPU Operator mới sử dụng được. Nếu chọn GPU Software khác, tùy chọn Managed-install sẽ không hiển thị.
2. GPU Driver Installation Type
| Loại | Mô tả | Cho phép cập nhật version sau khi tạo cluster? | Ghi chú |
|---|---|---|---|
| Pre-install | Driver được cài sẵn theo version đã chọn | Không | Nếu version bị deprecated, worker tương ứng mất hỗ trợ |
| User-install | Người dùng tự cài đặt driver để sử dụng | Không | Có thể xảy ra không tương thích và FCI sẽ không support các ca này |
| Managed-install | Driver được cài tự động và có thể cập nhật version sau khi tạo cluster | Có | Phải sử dụng GPU Operator. Chỉ áp dụng với GPU H100 và GPU H200 |
Các driver versions áp dụng cho Managed-install
| Version | CUDA |
|---|---|
| 535.247.01 | 12.2 |
| 550.163.01 | 12.4 |
| 570.158.01 | 12.8 |
| 580.82.07 | 13.0 |
Lưu ý khi nâng cấp driver Managed-install
- Hệ thống sẽ đợi toàn bộ workload đang sử dụng GPU trên node được undeploy trước khi tiến hành nâng cấp driver.
- Để trigger nâng cấp thủ công: vào namespace
fptcloud-gpu-operatorvà xóa các podnvidia-driver-*trên node tương ứng.
3. Tương quan giữa Base Worker Group và Non-base Worker Group
Ràng buộc của Base Worker Group
- Base worker group không hỗ trợ GPU H100/H200.
- Vì Managed-install chỉ dùng được với H100/H200, nên base worker group sẽ không chọn được Managed-install. Các lựa chọn hợp lệ cho worker group base là Pre-install hoặc User-install.
Cách Driver Type được đồng bộ giữa các Worker Group
Driver type của base worker group sẽ chi phối các non-base worker group theo quy tắc:
| Base driver | GPU của non-base WG | Driver được gán |
|---|---|---|
| Pre-install | Bất kỳ | Pre-install |
| User-install | Bất kỳ | User-install |
4. DRA trên K8s v1.34
DRA (Dynamic Resource Allocation) là một tính năng trong hệ sinh thái Kubernetes (GA từ v1.34), cho phép workload yêu cầu GPU resource một cách linh hoạt hơn so với cơ chế device plugin truyền thống (nvidia.com/gpu). API DRA của Kubernetes cho phép phân bổ GPU một cách động giữa các pod và kiểm soát tài nguyên ở mức chi tiết (fine-grained), từ đó cải thiện hiệu suất sử dụng GPU và giảm chi phí. Ví dụ: yêu cầu GPU theo thuộc tính (driver version, memory…), chia sẻ GPU giữa nhiều container, hoặc cấp phát động theo nhu cầu.
Điều kiện sử dụng DRA trên Managed Kubernetes with GPU:
- Cluster phải chạy K8s v1.34 trở lên.
- Sử dụng driver installation type Managed-install với major version >= 570. Xem thông tin về các Driver version hiện tại ở bảng trên.
- kubectl
Chi tiết cách cài đặt và sử dụng DRA tham khảo tài liệu: Sử dụng DRA cho GPU