Nguồn: NVIDIA Developer Blog
Tóm tắt
Sự bùng nổ của các open source generative AI model đang mở rộng ra ngoài data center, vào các thiết bị edge như robot, xe tự lái, và hệ thống embedded. NVIDIA Jetson là nền tảng phổ biến cho AI inference ở edge, nhưng bị hạn chế bởi bộ nhớ chia sẻ giữa CPU và GPU — thường chỉ từ 8GB đến 64GB unified memory.
Bài viết trình bày các kỹ thuật tối ưu hóa memory để chạy model lớn hơn trên Jetson. Các phương pháp chính bao gồm quantization (INT4/INT8/FP8), KV cache optimization, và memory swapping giữa RAM và NVMe. NVIDIA TensorRT-LLM được tích hợp sẵn để tự động áp dụng các optimization này.
Một kỹ thuật quan trọng là chunked prefill — chia nhỏ prompt dài thành các chunk nhỏ để xử lý tuần tự, giảm memory spike trong giai đoạn prefill. Kết hợp với speculative decoding và continuous batching, các mô hình 7B-13B parameter có thể chạy được trên Jetson AGX Orin (64GB) với throughput chấp nhận được cho production.
Bài viết cung cấp benchmark cụ thể và hướng dẫn practical cho các kỹ sư triển khai AI inference trên hardware edge, đặc biệt hữu ích khi demand về on-device AI ngày càng tăng.