Nguồn: Red Hat Blog
Tóm tắt
Khi AI workload chuyển từ thử nghiệm sang production, các tổ chức muốn chia sẻ GPU infrastructure giữa nhiều tenant để tối ưu chi phí. Tuy nhiên, trong môi trường multi-tenant, thiếu isolation có thể dẫn đến performance interference, latency không thể đoán trước, và thậm chí data exposure giữa các workload.
Red Hat phân tích rằng isolation trong GPU infrastructure phải được thiết kế qua 4 layer độc lập: (1) Hardware isolation — xác định tenant nào sở hữu GPU vật lý nào, thực thi qua VFIO và IOMMU; (2) Fabric isolation — kiểm soát việc GPU giao tiếp qua high-speed interconnect như NVLink, xGMI; (3) Scheduler isolation — đảm bảo orchestrator không mix GPU từ các fabric domain khác nhau vào cùng một workload; (4) Virtualization isolation — kiểm soát resource partition trong từng GPU (full passthrough, MIG, hay time-slicing).
Một điểm quan trọng thường bị bỏ qua là ngay cả khi hardware isolation hoàn hảo, scheduler có thể vô tình assign GPU 1 từ Domain A và GPU 5 từ Domain B vào cùng workload — khiến chúng không thể giao tiếp hiệu quả do khác fabric domain. Best practice là label GPU với fabric domain membership (fabric-domain=A) và cấu hình affinity rules để workload chỉ nhận GPU từ cùng domain.
Red Hat OpenShift Virtualization và Red Hat OpenStack Services on OpenShift cung cấp nền tảng để implement các isolation layer này. Bài viết đề xuất rằng failure mode phổ biến nhất trong shared GPU environment không phải hardware limitation mà là misalignment giữa các isolation layer — đặc biệt là scheduler không hiểu về fabric topology.