[Hacker News] Google Gemma 4 Runs Natively on iPhone with Full Offline AI Inference

Tóm tắt

Google DeepMind phát hành Gemma 4, dòng model multimodal open-source được thiết kế để chạy hiệu quả trên nhiều nền tảng — từ cloud đến on-device, bao gồm cả iPhone. Gemma 4 hỗ trợ đầu vào văn bản, hình ảnh, và audio, với context window lên đến 256k token cho các variant lớn hơn. Toàn bộ model được phát hành dưới giấy phép Apache 2.0.

Dòng model gồm 4 kích thước: E2B (2.3B effective parameters, 5.1B với embeddings), E4B (4.5B/8B), 31B dense, và 26B MoE (chỉ 4B activated parameters). Hai model nhỏ nhất hỗ trợ thêm audio input, trong khi tất cả đều hỗ trợ ảnh và text. Model 31B đạt LMArena score ước tính 1452, còn 26B MoE đạt 1441 chỉ với 4B active parameters — hiệu quả tính toán đáng kể.

Về kiến trúc, Gemma 4 sử dụng kết hợp local sliding-window attention và global full-context attention theo từng lớp luân phiên. Điểm đặc biệt là Per-Layer Embeddings (PLE) — bảng embedding thứ hai đưa tín hiệu residual vào mỗi decoder layer — và Shared KV Cache để tối ưu memory khi inference. Thiết kế này làm cho model tương thích tốt với quantization và triển khai trên thiết bị hạn chế tài nguyên như iPhone thông qua MLX framework.

Gemma 4 được hỗ trợ trực tiếp bởi nhiều framework phổ biến: Hugging Face Transformers, llama.cpp, MLX (Apple Silicon), transformers.js (WebGPU), và mistral.rs. Việc chạy offline hoàn toàn trên iPhone trở nên khả thi nhờ MLX và khả năng quantization hiệu quả của kiến trúc Gemma 4. (Không thể truy cập nội dung đầy đủ từ nguồn gốc gizmoweek.com; thông tin kỹ thuật lấy từ nguồn Hugging Face chính thức.)

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt