Evaluation

Nguồn: Hacker News Tóm tắt OpenAI tuyên bố ngừng sử dụng SWE-bench Verified — benchmark đo năng lực lập trình AI phổ biến nhất — do lo ngại về data contamination. Bằng chứng: khi prompt model với GitHub issue text từ benchmark, các model tái tạo chính xác file diff trong dataset, cho thấy memorization thay vì reasoning thực sự. Cụ thể, 15% ví dụ trong SWE-bench Verified bị o3 “memorize” và 4% bởi o4-mini....