Data-Engineering

[Bytebytego] EP212: Data Warehouse vs Data Lake vs Data Mesh

Nguồn: Bytebytego Tóm tắt Bài viết EP212 của ByteByteGo cung cấp một cái nhìn tổng quan về ba mô hình lưu trữ và quản lý dữ liệu phổ biến: Data Warehouse, Data Lake và Data Mesh. Lưu trữ dữ liệu là phần dễ thực hiện, nhưng quyết định nơi và cách tổ chức dữ liệu mới là thách thức thực sự trong các hệ thống quy mô lớn. Data Warehouse là kho dữ liệu có cấu trúc cao, được tối ưu cho truy vấn phân tích (OLAP)....

[Databricks Blog] Operational databases: How they work and when to use them

Nguồn: Databricks Blog Tóm tắt Databricks phân tích kiến trúc và trường hợp sử dụng của operational databases — lớp dữ liệu phục vụ các ứng dụng real-time với yêu cầu latency thấp và throughput cao. Bài viết phân biệt rõ ràng operational databases với data warehouses: trong khi data warehouses tối ưu cho analytical queries (OLAP) trên lượng lớn dữ liệu lịch sử, operational databases (OLTP) phục vụ transactional workloads với read/write latency ở mức milliseconds....

[Databricks Blog] Announcing the Public Preview of Lakeflow Designer

Nguồn: Databricks Blog Tóm tắt Databricks thông báo Public Preview của Lakeflow Designer, công cụ giao diện đồ họa để xây dựng và quản lý data pipeline trong nền tảng Databricks. Đây là phần mở rộng của sản phẩm Lakeflow, bộ công cụ data engineering của Databricks tích hợp ETL và orchestration. Lakeflow Designer hướng đến việc đơn giản hóa việc xây dựng pipeline cho cả data engineer và analyst không có kinh nghiệm viết code Spark phức tạp....

[Spotify Engineering] Background Coding Agents: Supercharging Downstream Consumer Dataset Migrations (Honk, Part 4)

Nguồn: Spotify Engineering Tóm tắt Bài viết là phần 4 trong series về hành trình của Spotify với background coding agents, có codename nội bộ là “Honk”. Series này ghi chép cách Spotify sử dụng AI agents để tự động hóa việc bảo trì phần mềm ở quy mô lớn, tích hợp với các platform nội bộ Backstage và Fleet Management. Trong case study cụ thể này, một team tại Spotify đã dùng Honk để giải quyết bài toán migrating hàng nghìn dataset consumers sang phiên bản dataset mới....

[Twilio Blog] Reverse ETL vs. The Private Cloud: A Conceptual Survival Guide

Nguồn: Twilio Blog Tóm tắt Bài viết từ Twilio Blog phân tích sự khác biệt khái niệm giữa Reverse ETL và Private Cloud — hai cách tiếp cận khác nhau trong kiến trúc dữ liệu hiện đại, thường bị nhầm lẫn hoặc coi như giải pháp thay thế lẫn nhau. Reverse ETL là quá trình đưa dữ liệu đã xử lý trong data warehouse ngược trở lại vào các công cụ vận hành (CRM, marketing platforms, support tools), trong khi Private Cloud liên quan đến quyết định về nơi dữ liệu được lưu trữ và xử lý....

[Databricks Blog] Stop Hand-Coding Change Data Capture Pipelines

Nguồn: Databricks Blog Tóm tắt Databricks giới thiệu tính năng AutoCDC from Snapshots, nhằm loại bỏ việc phải viết thủ công các pipeline Change Data Capture (CDC) phức tạp. Một senior data engineer từ công ty Fortune 500 cho biết 4 dòng code với AutoCDC đã thay thế được 1.500 dòng code tùy chỉnh mà họ đang duy trì trước đó. Change Data Capture (CDC) và Slowly Changing Dimensions (SCD) là nền tảng của các workload analytics và AI hiện đại — giúp giữ cho các bảng downstream luôn phản ánh dữ liệu vận hành đang thay đổi....

[Databricks Blog] Bridging Data Science and Marketing: Databricks Unveils Delta Sharing Integration for Adobe Experience Platform and Agentic Marketing Workflows

Nguồn: Databricks Blog Tóm tắt Databricks và Adobe công bố tích hợp Delta Sharing cho Adobe Experience Platform, kết hợp cùng Genie MCP (Model Context Protocol) với Adobe Experience Platform Agent Orchestrator. Mục tiêu là kích hoạt các agentic marketing workflow thời gian thực mà không cần sao chép hay dịch chuyển dữ liệu giữa hai hệ thống. Kiến trúc này giải quyết ba nút thắt lớn trong marketing hiện đại: latency (insights trong Databricks thường mất 24-48 giờ để đến các marketing system downstream), chi phí (di chuyển petabyte dữ liệu qua cloud tạo ra egress fee và chi phí lưu trữ trùng lặp), và governance (sao chép dữ liệu vào các platform khác gây mất kiểm soát về quyền truy cập)....

[Databricks Blog] Agentic Reasoning in Practice: Making Sense of Structured and Unstructured Data

Nguồn: Databricks Blog Tóm tắt Bài viết từ Mosaic Research (nhóm nghiên cứu AI của Databricks) trình bày cách xây dựng hệ thống agentic reasoning có khả năng xử lý cả dữ liệu có cấu trúc (structured — bảng SQL, parquet) và phi cấu trúc (unstructured — văn bản, PDF, email). Đây là bài toán thực tế phức tạp vì hầu hết dữ liệu doanh nghiệp tồn tại ở dạng hỗn hợp....

[Databricks Blog] What is Agentic Analytics?

Nguồn: Databricks Blog Tóm tắt Databricks giới thiệu khái niệm “Agentic Analytics” — một paradigm mới trong data analysis nơi AI agents tự động thực hiện toàn bộ analytics workflow: từ formulating questions, querying data, interpreting results, đến generating follow-up analyses mà không cần human intervention ở mỗi bước. Khác với traditional BI tools nơi analyst chạy queries và interpret results theo cách thủ công, hay ngay cả Text-to-SQL tools chỉ dịch natural language thành SQL, Agentic Analytics agents có thể iterate: chạy query đầu tiên, nhận kết quả, quyết định cần thêm data gì, chạy queries tiếp theo, và synthesize insights từ nhiều sources....

[Databricks Blog] What is Agentic Analytics?

Nguồn: Databricks Blog Tóm tắt Agentic analytics đại diện cho sự tiến hóa tiếp theo sau các copilot (text-to-SQL). Trong khi copilot chỉ phản hồi đúng câu hỏi được hỏi và dừng lại, AI agent có thể phân rã câu hỏi phức tạp thành sub-questions, tự viết và chạy queries, lặp lại dựa trên kết quả data, tự động phát hiện insight chưa được yêu cầu, và thực hiện action (tạo báo cáo, gửi alert)....