Inference

[Hacker News] Advanced Quantization Algorithm for LLMs – Intel AutoRound

Nguồn: GitHub: intel/auto-round Tóm tắt AutoRound là bộ công cụ quantization tiên tiến cho Large Language Models (LLMs) và Vision-Language Models (VLMs), được phát triển bởi Intel. Thuật toán sử dụng sign-gradient descent để đạt độ chính xác cao ở ultra-low bit width (2–4 bits) với overhead tuning tối thiểu, đồng thời tương thích rộng với các hardware platform (CPU/XPU/CUDA). Điểm nổi bật là AutoRound đã được tích hợp vào hệ sinh thái chính: vLLM (5/2025), SGLang (10/2025), Transformers của HuggingFace (5/2025), và LLM-Compressor (11/2025)....

[Hacker News] Kimi Vendor Verifier – verify accuracy of inference providers

Nguồn: Kimi Blog Tóm tắt Kimi (Moonshot AI) giới thiệu Kimi Vendor Verifier — tool mã nguồn mở cho phép kiểm tra xem các inference provider có thực sự chạy đúng model được quảng cáo hay không. Công cụ này giải quyết vấn đề niềm tin trong chuỗi cung cấp AI inference: khi sử dụng API từ third-party provider, làm sao biết họ đang chạy model gốc thay vì một phiên bản rẻ hơn hoặc bị fine-tune lại?...

[NVIDIA Developer Blog] Maximizing Memory Efficiency to Run Bigger Models on NVIDIA Jetson

Nguồn: NVIDIA Developer Blog Tóm tắt Sự bùng nổ của các open source generative AI model đang mở rộng ra ngoài data center, vào các thiết bị edge như robot, xe tự lái, và hệ thống embedded. NVIDIA Jetson là nền tảng phổ biến cho AI inference ở edge, nhưng bị hạn chế bởi bộ nhớ chia sẻ giữa CPU và GPU — thường chỉ từ 8GB đến 64GB unified memory....

[NVIDIA Developer Blog] Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo

Nguồn: NVIDIA Developer Blog Tóm tắt Các coding agent như Claude Code và Codex đang tạo ra pattern sử dụng inference mới: mỗi session gửi hàng trăm API call mang toàn bộ lịch sử conversation, tạo ra áp lực cực lớn lên KV cache. Stripe hiện có agent tạo 1.300+ PR mỗi tuần; Ramp cho biết 30% PR được merge đến từ agent — đây là workload thực tế mà infrastructure cần phục vụ ngay bây giờ....

[Cloudflare Engineering] Cloudflare's AI Platform: an inference layer designed for agents

Nguồn: Cloudflare Engineering Tóm tắt Cloudflare công bố một unified inference layer — một API duy nhất để truy cập bất kỳ mô hình AI nào từ bất kỳ provider nào. Vấn đề đặt ra là phần lớn công ty đang dùng trung bình 3.5 mô hình từ nhiều provider khác nhau, nhưng không có provider nào cho cái nhìn tổng quan về chi phí AI. Với agent — vốn chain nhiều inference call — sự cố ở một provider có thể cascade thành hàng loạt lỗi downstream....

[Hacker News] Darkbloom – Private inference on idle Macs

Nguồn: darkbloom.dev Tóm tắt Darkbloom là dự án cho phép chạy private AI inference trên các máy Mac đang idle — tận dụng Apple Silicon (GPU/Neural Engine) để xử lý các yêu cầu AI mà không cần gửi dữ liệu lên cloud. Đây là hướng tiếp cận edge computing cho AI, với trọng tâm là privacy và tận dụng phần cứng sẵn có. Ý tưởng cốt lõi: thay vì gửi queries lên các API providers (OpenAI, Anthropic, Google), người dùng có thể chạy inference locally trên Apple Silicon chip vốn có hiệu năng per-watt rất cao....

[Hacker News] Google Gemma 4 Runs Natively on iPhone with Full Offline AI Inference

Nguồn: gizmoweek.com Tóm tắt Google DeepMind phát hành Gemma 4, dòng model multimodal open-source được thiết kế để chạy hiệu quả trên nhiều nền tảng — từ cloud đến on-device, bao gồm cả iPhone. Gemma 4 hỗ trợ đầu vào văn bản, hình ảnh, và audio, với context window lên đến 256k token cho các variant lớn hơn. Toàn bộ model được phát hành dưới giấy phép Apache 2.0. Dòng model gồm 4 kích thước: E2B (2....