Nguồn: NVIDIA Developer Blog

Tóm tắt

Khi các AI coding agent như OpenAI Codex được tích hợp vào workflow phát triển phần mềm, chúng tạo ra một attack surface mới: các file instruction như AGENTS.md có thể bị khai thác qua indirect injection. NVIDIA AI Red Team phát hiện một lỗ hổng trong Codex cho phép attacker nhúng instruction độc hại vào file AGENTS.md thông qua các malicious dependency trong supply chain.

Cơ chế tấn công hoạt động theo nhiều bước: trước tiên, dependency độc hại được cài đặt vào project (attacker đã có code execution tại đây). Dependency này sẽ ghi đè hoặc inject nội dung vào AGENTS.md — file mà agent đọc để hiểu context và quy tắc làm việc. Khi agent xử lý file này, nó có thể bị hướng dẫn thực hiện các hành động ngoài mong muốn của developer.

Đặc biệt nguy hiểm là kỹ thuật instruction precedence misuse và summarization override: agent được dẫn dụ để ưu tiên instruction từ dependency hơn instruction gốc, sau đó bị lừa tóm tắt lại context theo cách che giấu hành vi độc hại. Đây là vector tấn công hoàn toàn mới, khác với prompt injection thông thường vì khai thác cơ chế trust của agent đối với file cấu hình.

Bài viết đề xuất các biện pháp phòng chống: validation và signing cho instruction file, sandboxing nghiêm ngặt, audit log toàn bộ action của agent, và áp dụng nguyên tắc least-privilege. Đây là tài liệu tham khảo quan trọng cho các team đang tích hợp AI agent vào SDLC.

👉 Đọc bài gốc