[Hacker News] N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?

Nguồn: N-Day-Bench Tóm tắt N-Day-Bench là một benchmark mới đánh giá khả năng của LLMs trong việc phát hiện các vulnerability đã biết (N-day vulnerabilities) trong các codebase thực tế. Khác với các benchmark học thuật sử dụng synthetic examples, N-Day-Bench sử dụng các CVEs thực từ các open-source projects phổ biến. Benchmark được thiết kế để đo lường xem LLMs có thể reproduce quá trình phân tích security của một human researcher hay không — bao gồm việc đọc code, hiểu context, và xác định chính xác vị trí cũng như bản chất của lỗ hổng....

14/04/2026 · 1 min · dhphong