Nguồn: Cloudflare Engineering

Tóm tắt

Cloudflare công bố một unified inference layer — một API duy nhất để truy cập bất kỳ mô hình AI nào từ bất kỳ provider nào. Vấn đề đặt ra là phần lớn công ty đang dùng trung bình 3.5 mô hình từ nhiều provider khác nhau, nhưng không có provider nào cho cái nhìn tổng quan về chi phí AI. Với agent — vốn chain nhiều inference call — sự cố ở một provider có thể cascade thành hàng loạt lỗi downstream.

Giải pháp là dùng cùng AI.run() binding trong Cloudflare Workers để gọi model bất kỳ: từ Cloudflare-hosted model đến OpenAI, Anthropic, hay bất kỳ provider nào khác, chỉ thay một dòng code. Hiện tại có 70+ model từ 12+ provider — bao gồm text, image, video, speech — thông qua một API, một bộ credits. Đáng chú ý là Alibaba Cloud, AssemblyAI, Bytedance, Google, MiniMax, Runway, và nhiều hơn đã tích hợp vào AI Gateway.

Về khả năng bring your own model, Cloudflare đang cho phép đưa custom model (fine-tuned hoặc specialized) lên Workers AI thông qua Replicate’s Cog technology. Cog giúp containerize ML models đơn giản: khai báo dependencies trong cog.yaml, viết inference code trong Python, rồi cog build và push lên — Cloudflare handle deployment và serving. Tính năng này đang trong giai đoạn thử nghiệm nội bộ.

Cloudflare cũng tập trung vào latency optimization với “fast path to first token” — đặc biệt quan trọng với agent workflows khi một slow provider không làm chậm 50ms mà cộng dồn thành 500ms qua nhiều inference calls. Hệ thống có automatic retry, granular logging, và cost monitoring per custom metadata như team, user, hay workflow.

👉 Đọc bài gốc