[Hacker News] Lambda Calculus Benchmark for AI
Nguồn: LamBench Tóm tắt LamBench là một benchmark đánh giá khả năng suy luận của các LLM thông qua các bài toán lambda calculus — một nhánh toán học lý thuyết về computation và functional programming. Khác với benchmark code thông thường, lambda calculus thuần túy không có shortcut từ việc nhớ training data; model phải thực sự “tính toán”. Kết quả ranking hiện tại (120 câu hỏi) rất thú vị: GPT-5....