Nguồn: Hacker News

Tóm tắt

TurboQuant là một demo chạy hoàn toàn trong trình duyệt cho phép người dùng mô tả sơ đồ bằng ngôn ngữ tự nhiên và nhận kết quả dưới dạng biểu đồ Excalidraw được tạo tự động. Toàn bộ mô hình AI Gemma 4 E2B (~3.1GB) chạy cục bộ trên trình duyệt thông qua WebGPU, không cần gửi dữ liệu lên server.

Điểm kỹ thuật đặc biệt của dự án là việc sử dụng thuật toán TurboQuant (kết hợp polar quantization và QJL) để nén KV cache khoảng 2,4 lần, cho phép các cuộc hội thoại dài hơn vừa trong bộ nhớ GPU. Thay vì tạo ra JSON Excalidraw thô (~5.000 token), mô hình được tối ưu để sinh ra code compact (~50 token), sau đó được render thành sơ đồ.

Demo yêu cầu trình duyệt Chrome 134+ trên máy tính để bàn với hỗ trợ WebGPU subgroups và khoảng 3GB RAM dành riêng cho trình duyệt. Safari và iOS hiện chưa được hỗ trợ. Thuật toán TurboQuant cũng được triển khai song song dưới dạng gói npm turboquant-wasm sử dụng WASM+SIMD cho vector search phía CPU.

Dự án này minh chứng cho khả năng chạy các mô hình ngôn ngữ lớn ngay trong trình duyệt mà không cần backend, mở ra hướng phát triển ứng dụng AI với quyền riêng tư cao hơn và không phụ thuộc vào hạ tầng đám mây. Tốc độ sinh token đạt 30+ tok/s khi sử dụng GPU, đủ để sử dụng thực tế.

👉 Đọc bài gốc