Nguồn: LamBench

Tóm tắt

LamBench là một benchmark đánh giá khả năng suy luận của các LLM thông qua các bài toán lambda calculus — một nhánh toán học lý thuyết về computation và functional programming. Khác với benchmark code thông thường, lambda calculus thuần túy không có shortcut từ việc nhớ training data; model phải thực sự “tính toán”.

Kết quả ranking hiện tại (120 câu hỏi) rất thú vị: GPT-5.4 dẫn đầu với 91.7% (110/120), tiếp theo là Claude Opus-4.6 với 90% (108/120). Khoảng cách với các model tier 2 khá lớn — Sonnet-4.6 đạt 82.5%, GPT-5.5 chỉ đạt 78.3%. Điều bất ngờ là GPT-5.5 (model mới hơn) xếp sau GPT-5.4 và cả Sonnet-4.6.

Ở nhóm cuối bảng, DeepSeek-V4-Pro chỉ đạt 53.3% — thấp hơn đáng kể so với frontier models, cho thấy khoảng cách vẫn còn lớn trong pure reasoning tasks. Các model nhỏ như Gemma-4-31B chỉ đạt 18.3%.

LamBench cung cấp một góc nhìn khác về “intelligence” của LLM — thay vì test knowledge retrieval hay code generation, benchmark này test khả năng formal reasoning thuần túy. Đây là công cụ hữu ích để phân biệt model thực sự reasoning tốt vs model chỉ tốt ở pattern matching.

👉 Đọc bài gốc