Nguồn: Databricks Blog

Tóm tắt

Trong ba thập kỷ qua, cơ sở dữ liệu vận hành (OLTP) và phân tích (OLAP) tồn tại song song như hai hệ thống riêng biệt, được kết nối qua các pipeline ETL. Databricks lập luận rằng sự tách biệt này bắt nguồn từ hạn chế vật lý — layout lưu trữ khác nhau, nhu cầu tính toán khác nhau — và ngày nay những ràng buộc đó đang dần biến mất khi storage được chia sẻ và compute trở thành serverless.

Để kiểm chứng thực tế, Databricks đã kết nối Backstage (Internal Developer Portal của Spotify) với Lakebase — dịch vụ Postgres serverless của Databricks, xây dựng trên kiến trúc Neon. Vì Lakebase nói đúng Postgres wire protocol, Backstage không cần thay đổi code. Phần phức tạp nhất là xác thực: Lakebase từ chối Personal Access Token thông thường, yêu cầu OAuth JWT ngắn hạn thông qua databricks postgres generate-database-credential.

Tính năng nổi bật nhất của Lakebase là database branching dựa trên kiến trúc copy-on-write. Tạo một branch không sao chép dữ liệu mà chỉ tạo con trỏ đến các trang dữ liệu gốc và chỉ phân kỳ khi có write — khiến thao tác này xảy ra tức thì. Trong thực nghiệm, clone database 63MB chỉ mất 1,09 giây; Point-in-Time Recovery mất 3,78 giây.

Database branching thay đổi toàn bộ vòng đời phát triển: thay vì mock database để test, developer có thể chạy migration trực tiếp trên branch từ production data thật. Mock objects — vốn chiếm 20-30% test code nhưng thường lệch khỏi production behavior theo thời gian — trở nên không cần thiết. Schema migration lỗi được phát hiện trong quá trình development thay vì tại thời điểm deploy.

👉 Đọc bài gốc