Nguồn: N-Day-Bench
Tóm tắt
N-Day-Bench là một benchmark mới đánh giá khả năng của LLMs trong việc phát hiện các vulnerability đã biết (N-day vulnerabilities) trong các codebase thực tế. Khác với các benchmark học thuật sử dụng synthetic examples, N-Day-Bench sử dụng các CVEs thực từ các open-source projects phổ biến.
Benchmark được thiết kế để đo lường xem LLMs có thể reproduce quá trình phân tích security của một human researcher hay không — bao gồm việc đọc code, hiểu context, và xác định chính xác vị trí cũng như bản chất của lỗ hổng. Đây là bước tiến quan trọng vì nó kiểm tra reasoning thực sự thay vì pattern matching.
Kết quả ban đầu cho thấy LLMs hiện tại có khả năng đáng kể trong việc tìm các vulnerability đơn giản và có pattern rõ ràng (buffer overflows kiểu truyền thống, SQL injection), nhưng gặp khó khăn với các lỗi logic phức tạp đòi hỏi hiểu biết sâu về business logic của ứng dụng. Benchmark này cung cấp một metric cụ thể để theo dõi tiến bộ của AI trong lĩnh vực security research.