Chuyển tới nội dung chính

GPU Software trên Kubernetes dành cho GPU NVIDIA H100/H200

Tổng quan

K8s v1.34 (beta) hiện đã khả dụng trên FPT Cloud Managed Kubernetes with GPU. Phiên bản này bổ sung GPU Software mới (GPU Operator), GPU Driver Installation Type mới (Managed-install), và GPU Sharing Strategy (MIG).

1. GPU Software: GPU Operator

Để có thể sử dụng GPU Operator, khách hàng cần chọn K8s version 1.34. Khi tạo cluster v1.34, trong phần GPU Software sẽ có thêm lựa chọn GPU Operator (bên cạnh các lựa chọn cũ).

cảnh báo

Managed-install Driver bắt buộc phải chọn GPU Operator mới sử dụng được. Nếu chọn GPU Software khác, tùy chọn Managed-install sẽ không hiển thị.

2. GPU Driver Installation Type

LoạiMô tảCho phép cập nhật version sau khi tạo cluster?Ghi chú
Pre-installDriver được cài sẵn theo version đã chọnKhôngNếu version bị deprecated, worker tương ứng mất hỗ trợ
User-installNgười dùng tự cài đặt driver để sử dụngKhôngCó thể xảy ra không tương thích và FCI sẽ không support các ca này
Managed-installDriver được cài tự động và có thể cập nhật version sau khi tạo clusterPhải sử dụng GPU Operator. Chỉ áp dụng với GPU H100 và GPU H200

Các driver versions áp dụng cho Managed-install

VersionCUDA
535.247.0112.2
550.163.0112.4
570.158.0112.8
580.82.0713.0

Lưu ý khi nâng cấp driver Managed-install

  • Hệ thống sẽ đợi toàn bộ workload đang sử dụng GPU trên node được undeploy trước khi tiến hành nâng cấp driver.
  • Để trigger nâng cấp thủ công: vào namespace fptcloud-gpu-operator và xóa các pod nvidia-driver-* trên node tương ứng.

3. Tương quan giữa Base Worker Group và Non-base Worker Group

Ràng buộc của Base Worker Group

  • Base worker group không hỗ trợ GPU H100/H200.
  • Vì Managed-install chỉ dùng được với H100/H200, nên base worker group sẽ không chọn được Managed-install. Các lựa chọn hợp lệ cho worker group base là Pre-install hoặc User-install.

Cách Driver Type được đồng bộ giữa các Worker Group

Driver type của base worker group sẽ chi phối các non-base worker group theo quy tắc:

Base driverGPU của non-base WGDriver được gán
Pre-installBất kỳPre-install
User-installBất kỳUser-install

4. DRA trên K8s v1.34

DRA (Dynamic Resource Allocation) là một tính năng trong hệ sinh thái Kubernetes (GA từ v1.34), cho phép workload yêu cầu GPU resource một cách linh hoạt hơn so với cơ chế device plugin truyền thống (nvidia.com/gpu). API DRA của Kubernetes cho phép phân bổ GPU một cách động giữa các pod và kiểm soát tài nguyên ở mức chi tiết (fine-grained), từ đó cải thiện hiệu suất sử dụng GPU và giảm chi phí. Ví dụ: yêu cầu GPU theo thuộc tính (driver version, memory…), chia sẻ GPU giữa nhiều container, hoặc cấp phát động theo nhu cầu.

Điều kiện sử dụng DRA trên Managed Kubernetes with GPU:

  • Cluster phải chạy K8s v1.34 trở lên.
  • Sử dụng driver installation type Managed-install với major version >= 570. Xem thông tin về các Driver version hiện tại ở bảng trên.
  • kubectl

Chi tiết cách cài đặt và sử dụng DRA tham khảo tài liệu: Sử dụng DRA cho GPU