Nguồn: Hacker News / Daniel Vaughan

Tóm tắt

Bài viết mô tả quá trình chạy mô hình Gemma 4 của Google cục bộ thông qua công cụ Codex CLI của OpenAI. Tác giả sử dụng Ollama để tải và chạy mô hình Gemma 4 trên máy tính cá nhân, sau đó cấu hình Codex CLI để kết nối với máy chủ Ollama chạy cục bộ thay vì sử dụng API của OpenAI.

Codex CLI hỗ trợ tùy chọn cấu hình provider tùy chỉnh, cho phép trỏ đến bất kỳ endpoint tương thích OpenAI nào. Ollama cung cấp một API tương thích OpenAI, vì vậy việc tích hợp hai công cụ này khá đơn giản. Tác giả hướng dẫn cách thiết lập biến môi trường và file cấu hình để Codex CLI nhận diện endpoint cục bộ của Ollama.

Kết quả thử nghiệm cho thấy Gemma 4 chạy được với Codex CLI ở chế độ cục bộ, mặc dù hiệu năng và khả năng lập trình không thể so sánh với các mô hình thương mại lớn hơn. Bài viết nhấn mạnh giá trị của việc có thể chạy mô hình AI hoàn toàn offline, đặc biệt hữu ích cho các tác vụ cần bảo mật dữ liệu hoặc môi trường không có kết nối internet.

👉 Đọc bài gốc