<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Aws on Tech News Feed</title>
    <link>https://news.dhphong.com/tags/aws/</link>
    <description>Recent content in Aws on Tech News Feed</description>
    <generator>Hugo -- 0.131.0</generator>
    <language>vi</language>
    <lastBuildDate>Thu, 16 Apr 2026 00:02:16 +0700</lastBuildDate>
    <atom:link href="https://news.dhphong.com/tags/aws/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>[Pinterest Engineering] Finding zombies in our systems: A real-world story of CPU bottlenecks</title>
      <link>https://news.dhphong.com/posts/2026-04-16-finding-zombies-cpu-bottlenecks-pinterest/</link>
      <pubDate>Thu, 16 Apr 2026 00:02:16 +0700</pubDate>
      <guid>https://news.dhphong.com/posts/2026-04-16-finding-zombies-cpu-bottlenecks-pinterest/</guid>
      <description>Nguồn: Pinterest Engineering
Tóm tắt Đội ngũ Kubernetes platform tại Pinterest đã trải qua cuộc điều tra kéo dài hơn ba tháng để xác định nguyên nhân gốc rễ khiến các Ray training job trên GPU bị crash do mất kết nối mạng. Vấn đề bắt đầu khi đội ML platform báo cáo rằng các distributed training job — thường chạy hàng giờ trên phần cứng GPU đắt tiền — gặp sự cố mạng ngắt quãng, dẫn đến tỉ lệ thành công giảm hơn 25%.</description>
    </item>
  </channel>
</rss>
