Nguồn: Hacker News

Tóm tắt

Dirac là một AI agent mã nguồn mở được xây dựng để hoạt động trong môi trường terminal, và đã đạt thứ hạng đầu bảng trên TerminalBench khi sử dụng Gemini-3-flash-preview làm LLM backend. TerminalBench là một benchmark đánh giá khả năng của AI agent trong việc thực hiện các tác vụ thực tế trên hệ thống Unix/Linux.

Dirac được thiết kế với kiến trúc đơn giản nhưng hiệu quả, tập trung vào khả năng sử dụng các công cụ terminal như shell, file system, và các tiện ích Unix. Điểm đáng chú ý là agent này đạt được hiệu năng cao với một model tương đối nhẹ (flash variant), gợi ý rằng kiến trúc agent và cách prompting có tác động đáng kể đến kết quả.

Dự án được công khai trên GitHub và có thể tự cài đặt, cho phép cộng đồng nghiên cứu và cải thiện. Kết quả benchmark này đặt ra câu hỏi thú vị về mối quan hệ giữa kích thước mô hình và hiệu năng agent — một mô hình nhỏ hơn với agent design tốt có thể vượt trội hơn các mô hình lớn hơn trong các tác vụ có domain cụ thể.

👉 Đọc bài gốc