[NVIDIA Developer Blog] Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo

Tóm tắt

Các coding agent như Claude Code và Codex đang tạo ra pattern sử dụng inference mới: mỗi session gửi hàng trăm API call mang toàn bộ lịch sử conversation, tạo ra áp lực cực lớn lên KV cache. Stripe hiện có agent tạo 1.300+ PR mỗi tuần; Ramp cho biết 30% PR được merge đến từ agent — đây là workload thực tế mà infrastructure cần phục vụ ngay bây giờ.

Pattern đặc trưng của agentic inference là write-once-read-many (WORM): system prompt và conversation prefix được tính toán một lần, sau đó tái sử dụng liên tục. Đo lường trên Claude Code cho thấy từ lần gọi thứ hai trở đi, 85–97% token đến từ cache; với agent swarm gồm 4 Opus, tỷ lệ này đạt 97.2% aggregate, tương đương read/write ratio 11.7x.

NVIDIA Dynamo được thiết kế để tối ưu hóa cho pattern này ở ba lớp. Frontend hỗ trợ đồng thời v1/responses, v1/messages và v1/chat/completions thông qua biểu diễn nội bộ chung. Router nhận agent hints mở rộng (qua trường nvext) — cho phép harness truyền thông tin như output sequence length dự kiến, priority, và cache TTL để Dynamo tối ưu scheduling. KV cache layer tập trung vào việc giữ KV blocks warm và routable, tối đa hóa cache hit rate giữa các worker.

Dynamo cũng hỗ trợ tích hợp với các runtime phổ biến (SGLang, vLLM, TRT-LLM) và đang được test nội bộ với GLM-5 và MiniMax2.5 làm backend cho Codex và Claude Code để so sánh hiệu năng với closed-source inference.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt