Chuyển tới nội dung chính

FPT Kubernetes Engine với GPU

Tài liệu hướng dẫn FPT Kubernetes Engine với GPU — bao gồm Cài đặt và khởi tạo Cluster Kubernetes sử dụng GPU, Hướng dẫn cài đặt GPU Driver trên Kubernetes, Hướng dẫn cấu hình Auto Scale sử dụng GPU Custom Metric và Hướng dẫn cấu hình Auto Scale sử dụng KEDA và Prometheus, và nhiều mục khác.

📄️ Hướng dẫn sử dụng GPU Telemetry

FPT Cloud sử dụng NVIDIA GPU Telemetry tích hợp với kube-prometheus-stack là bộ công cụ theo dõi và giám sát cho hệ thống sử dụng GPU trên Kubernetes. Bộ công cụ giám sát bao gồm collector, time-series database lưu trữ chỉ số (metric) và visualization (giao diện trực quan hóa). Bộ công cụ sử dụng các ứng dụng mã nguồn mở phổ biến là Prometheus và Grafana. Prometheus cũng bao gồm Alertmanager để tạo và quản lý các cảnh báo. Prometheus được triển khai cùng với kube-state-metrics và node_exporter để hiển thị các chỉ số mức cluster cho các đối tượng API Kubernetes và các chỉ số mức node, ví dụ như mức sử dụng GPU.