Nguồn: Netflix Tech Blog

Tóm tắt

Kể từ show live đầu tiên vào tháng 3/2023 (Chris Rock: Selective Outrage), Netflix đã mở rộng quy mô phát trực tiếp từ một show mỗi tháng lên hơn chín show trong một ngày, phục vụ hàng chục triệu người xem đồng thời. Bài viết này tiết lộ cách Netflix xây dựng đội ngũ vận hành và hạ tầng con người đằng sau sự mở rộng đó.

Netflix trải qua bốn giai đoạn phát triển mô hình vận hành: từ giai đoạn kỹ sư tự vận hành sự kiện (All-Hands Engineering Era), đến việc tách biệt đội kỹ sư chuyên biệt (SOE và BOE), rồi mô hình phòng điều khiển kiểu “Cơ trưởng – Phụ lái”, và cuối cùng là mô hình Transmission Operations Center (TOC) Fleet hiện tại — nơi một operator có thể quản lý tới 5 sự kiện đồng thời.

TOC Fleet phân chia công việc thành ba vai trò chuyên biệt: Transmission Control Operator (TCO) quản lý tín hiệu đến từ các địa điểm thi đấu, Streaming Control Operator (SCO) quản lý luồng ra đến hạ tầng và đối tác phân phối, và Broadcast Control Operator (BCO) tập trung vào chất lượng hình ảnh và âm thanh theo tỷ lệ 1:1 với từng sự kiện. Với các sự kiện lớn (Big Bet) như Super Bowl hay World Baseball Classic, Netflix dành riêng toàn bộ một Broadcast Operations Center chỉ cho một sự kiện duy nhất.

Song song với TOC, Netflix xây dựng Live Command Center (LCC) — không phải NOC truyền thống mà là trung tâm xử lý end-to-end với observability stack riêng, xử lý tới 38 triệu sự kiện mỗi giây. Mô hình này cho phép phát hiện và xử lý sự cố trong vài giây, so với hàng phút nếu dùng công cụ monitoring thông thường.

👉 Đọc bài gốc