Nguồn: Discord Engineering

Tóm tắt

Discord chia sẻ kinh nghiệm tái cấu trúc hệ thống metrics trong A/B testing để cải thiện chất lượng kết quả thực nghiệm. Vấn đề cốt lõi: khi số lượng metrics trong một experiment tăng lên, việc áp dụng Benjamini-Hochberg (BH) correction để kiểm soát false discovery rate buộc phải điều chỉnh ngưỡng p-value nghiêm ngặt hơn, dẫn đến recall giảm — tức là nhiều biến động thật sự bị bỏ qua.

Nhóm engineering của Discord đã chứng minh điều này qua 50.000 simulation experiments. Với một tập 20 metrics trong đó có một metric có tác động thật (z = 2.8, tương đương -5.2%), kết quả cho thấy số lượng metrics càng nhiều thì tỷ lệ phát hiện được tác động thật càng thấp dù false alarm rate được kiểm soát.

Để giải quyết, Discord tính toán treatment effect correlations trên các experiments gần đây, xác định những cặp metrics đo lường hành vi gần giống nhau (correlation cao). Sử dụng Principal Component Analysis, nhóm xác định số lượng “independent dimensions” thực sự trong tập metrics và loại bỏ những metrics dư thừa.

Sau khi chuẩn hoá về 7-day lookback windows và giảm thiểu metrics đo lường overlapping behaviors, Discord có thể dùng BH correction ít aggressive hơn trong khi vẫn duy trì false discovery rate ở mức chấp nhận được. Đây là ví dụ thực tế về cách áp dụng thống kê vào quyết định thiết kế hệ thống experimentation.

👉 Đọc bài gốc