[Red Hat Blog] Designing multitenant GPU infrastructure: Isolation across virtualization and Kubernetes platforms

Nguồn: Red Hat Blog Tóm tắt Khi AI workload chuyển từ thử nghiệm sang production, các tổ chức muốn chia sẻ GPU infrastructure giữa nhiều tenant để tối ưu chi phí. Tuy nhiên, trong môi trường multi-tenant, thiếu isolation có thể dẫn đến performance interference, latency không thể đoán trước, và thậm chí data exposure giữa các workload. Red Hat phân tích rằng isolation trong GPU infrastructure phải được thiết kế qua 4 layer độc lập: (1) Hardware isolation — xác định tenant nào sở hữu GPU vật lý nào, thực thi qua VFIO và IOMMU; (2) Fabric isolation — kiểm soát việc GPU giao tiếp qua high-speed interconnect như NVLink, xGMI; (3) Scheduler isolation — đảm bảo orchestrator không mix GPU từ các fabric domain khác nhau vào cùng một workload; (4) Virtualization isolation — kiểm soát resource partition trong từng GPU (full passthrough, MIG, hay time-slicing)....

01/05/2026 · 2 min · dhphong

[Hacker News] Super ZSNES – GPU Powered SNES Emulator

Nguồn: ZSNES Tóm tắt Hai nhà phát triển gốc của ZSNES — trình giả lập SNES nổi tiếng từ thập niên 1990 — đã hợp tác trở lại để tạo ra Super ZSNES, một trình giả lập SNES hoàn toàn mới được viết lại từ đầu với công nghệ hiện đại. Điểm nổi bật nhất là lõi PPU (Picture Processing Unit) được hỗ trợ GPU, cho phép hiển thị độ phân giải cao với chất lượng hình ảnh vượt trội so với phần cứng gốc....

28/04/2026 · 2 min · dhphong

[NVIDIA Developer Blog] Maximizing Memory Efficiency to Run Bigger Models on NVIDIA Jetson

Nguồn: NVIDIA Developer Blog Tóm tắt Sự bùng nổ của các open source generative AI model đang mở rộng ra ngoài data center, vào các thiết bị edge như robot, xe tự lái, và hệ thống embedded. NVIDIA Jetson là nền tảng phổ biến cho AI inference ở edge, nhưng bị hạn chế bởi bộ nhớ chia sẻ giữa CPU và GPU — thường chỉ từ 8GB đến 64GB unified memory....

21/04/2026 · 2 min · dhphong

[NVIDIA Developer Blog] Run High-Throughput Reinforcement Learning Training with End-to-End FP8 Precision

Nguồn: NVIDIA Developer Blog Tóm tắt Khi các LLM chuyển từ text generation đơn thuần sang complex reasoning, reinforcement learning (RL) trở thành thành phần cốt lõi. Các thuật toán như GRPO (Group Relative Policy Optimization) cho phép model cải thiện liên tục qua iterative feedback. Tuy nhiên, RL training loop đặc biệt về cấu trúc: chia thành hai phase riêng biệt — generation phase với yêu cầu latency thấp, và training phase yêu cầu throughput cao....

21/04/2026 · 2 min · dhphong

[Hacker News] The beginning of scarcity in AI

Nguồn: Hacker News / Tom Tunguz Tóm tắt Giá thuê GPU Nvidia Blackwell đã tăng 48% trong vòng 60 ngày, chạm mức $4.08 mỗi giờ. Sự khan hiếm hạ tầng tính toán AI đang tạo ra một cuộc khủng hoảng thực sự trong hệ sinh thái startup — không chỉ là vấn đề chi phí mà còn là vấn đề tiếp cận. Tình trạng thiếu hụt compute đã gây ra sự cố dịch vụ tại Anthropic, buộc OpenAI phải hủy bỏ một số sản phẩm trong giai đoạn phát triển....

17/04/2026 · 2 min · dhphong

[NVIDIA Developer Blog] NVIDIA NVbandwidth: Your Essential Tool for Measuring GPU Interconnect and Memory Performance

Nguồn: NVIDIA Developer Blog Tóm tắt NVbandwidth là công cụ CUDA-based của NVIDIA dùng để đo bandwidth và latency cho các memory copy pattern khác nhau trên hệ thống GPU đơn và đa GPU. Công cụ hỗ trợ cả hai phương pháp copy engine (CE) và kernel copy, báo cáo băng thông thực tế đang được sử dụng, từ đó giúp kỹ sư hiểu rõ đặc tính hiệu suất của hệ thống GPU....

15/04/2026 · 2 min · dhphong