[Hacker News] SWE-bench Verified no longer measures frontier coding capabilities

Tóm tắt

OpenAI tuyên bố ngừng sử dụng SWE-bench Verified — benchmark đo năng lực lập trình AI phổ biến nhất — do lo ngại về data contamination. Bằng chứng: khi prompt model với GitHub issue text từ benchmark, các model tái tạo chính xác file diff trong dataset, cho thấy memorization thay vì reasoning thực sự.

Cụ thể, 15% ví dụ trong SWE-bench Verified bị o3 “memorize” và 4% bởi o4-mini. Điều này có nghĩa sự chênh lệch hiệu suất giữa các model một phần phản ánh mức độ memorization chứ không hoàn toàn là năng lực coding thực tế.

OpenAI chuyển sang SWE-bench Verified (Mini) — một subset 50 task nhỏ hơn, gồm 27 task mới từ các GitHub repo tạo sau knowledge cutoff của các model hiện tại, ít bị contaminate hơn. Benchmark sẽ được cập nhật định kỳ (hàng tháng) để duy trì tính hiệu lực.

Vấn đề contamination là bài toán chung của toàn ngành AI: khi các model được training trên lượng dữ liệu internet khổng lồ, gần như không thể đảm bảo benchmark nào đó chưa xuất hiện trong training data. Giải pháp tạm thời là liên tục ra benchmark mới với dữ liệu hậu knowledge cutoff.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt