Benchmark

[Hacker News] SWE-bench Verified no longer measures frontier coding capabilities

Nguồn: Hacker News Tóm tắt OpenAI tuyên bố ngừng sử dụng SWE-bench Verified — benchmark đo năng lực lập trình AI phổ biến nhất — do lo ngại về data contamination. Bằng chứng: khi prompt model với GitHub issue text từ benchmark, các model tái tạo chính xác file diff trong dataset, cho thấy memorization thay vì reasoning thực sự. Cụ thể, 15% ví dụ trong SWE-bench Verified bị o3 “memorize” và 4% bởi o4-mini....

[Hacker News] Lambda Calculus Benchmark for AI

Nguồn: LamBench Tóm tắt LamBench là một benchmark đánh giá khả năng suy luận của các LLM thông qua các bài toán lambda calculus — một nhánh toán học lý thuyết về computation và functional programming. Khác với benchmark code thông thường, lambda calculus thuần túy không có shortcut từ việc nhớ training data; model phải thực sự “tính toán”. Kết quả ranking hiện tại (120 câu hỏi) rất thú vị: GPT-5....

[Hacker News] N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

Nguồn: N-Day-Bench Tóm tắt N-Day-Bench là một benchmark mới đánh giá khả năng của LLMs trong việc phát hiện các vulnerability đã biết (N-day vulnerabilities) trong các codebase thực tế. Khác với các benchmark học thuật sử dụng synthetic examples, N-Day-Bench sử dụng các CVEs thực từ các open-source projects phổ biến. Benchmark được thiết kế để đo lường xem LLMs có thể reproduce quá trình phân tích security của một human researcher hay không — bao gồm việc đọc code, hiểu context, và xác định chính xác vị trí cũng như bản chất của lỗ hổng....