Nguồn: Databricks Blog

Tóm tắt

Bài viết từ Mosaic Research (nhóm nghiên cứu AI của Databricks) trình bày cách xây dựng hệ thống agentic reasoning có khả năng xử lý cả dữ liệu có cấu trúc (structured — bảng SQL, parquet) và phi cấu trúc (unstructured — văn bản, PDF, email). Đây là bài toán thực tế phức tạp vì hầu hết dữ liệu doanh nghiệp tồn tại ở dạng hỗn hợp.

Kiến trúc được đề xuất sử dụng một router agent để phân loại câu hỏi đầu vào, sau đó dispatch tới các sub-agent chuyên biệt: SQL agent (cho dữ liệu bảng), RAG agent (cho văn bản phi cấu trúc), hoặc hybrid agent khi câu hỏi cần kết hợp cả hai. Cách tiếp cận này khác với RAG thuần túy ở chỗ agent có thể tự quyết định chiến lược lấy dữ liệu thay vì luôn dùng vector search.

Nghiên cứu đặc biệt chú ý đến vấn đề reasoning về schema: khi agent làm việc với database lớn có hàng trăm bảng, khả năng hiểu mối quan hệ giữa các bảng và chọn join path đúng là yếu tố quyết định chất lượng. Mosaic đề xuất kỹ thuật “schema summarization” để nén thông tin schema vào context của LLM một cách hiệu quả.

Bài viết cũng thảo luận về evaluation pipeline — cách đo lường chất lượng của agentic system trên các task thực tế, bao gồm metrics về độ chính xác câu trả lời, số bước agent thực hiện, và tỷ lệ gọi tool thất bại. Đây là contribution quan trọng vì evaluation của agentic systems vẫn là thách thức mở trong lĩnh vực.

👉 Đọc bài gốc