<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Kv-Cache on Tech News Feed</title>
    <link>https://news.dhphong.com/tags/kv-cache/</link>
    <description>Recent content in Kv-Cache on Tech News Feed</description>
    <generator>Hugo -- 0.131.0</generator>
    <language>vi</language>
    <lastBuildDate>Sat, 18 Apr 2026 00:02:31 +0700</lastBuildDate>
    <atom:link href="https://news.dhphong.com/tags/kv-cache/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>[NVIDIA Developer Blog] Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo</title>
      <link>https://news.dhphong.com/posts/2026-04-17-nvidia-dynamo-agentic-inference-optimization/</link>
      <pubDate>Sat, 18 Apr 2026 00:02:31 +0700</pubDate>
      <guid>https://news.dhphong.com/posts/2026-04-17-nvidia-dynamo-agentic-inference-optimization/</guid>
      <description>Nguồn: NVIDIA Developer Blog
Tóm tắt Các coding agent như Claude Code và Codex đang tạo ra pattern sử dụng inference mới: mỗi session gửi hàng trăm API call mang toàn bộ lịch sử conversation, tạo ra áp lực cực lớn lên KV cache. Stripe hiện có agent tạo 1.300+ PR mỗi tuần; Ramp cho biết 30% PR được merge đến từ agent — đây là workload thực tế mà infrastructure cần phục vụ ngay bây giờ.</description>
    </item>
  </channel>
</rss>
