Nguồn: Pinterest Engineering

Tóm tắt

Pinterest xử lý hàng triệu URL từ các merchant domain mỗi ngày, trong đó cùng một trang sản phẩm có thể xuất hiện dưới hàng chục biến thể URL khác nhau — với tracking parameter, session token, hay analytics tag khác nhau. Bài toán deduplication đòi hỏi một hệ thống chuẩn hóa URL đủ chính xác để nhận diện nội dung giống nhau dù URL có khác biệt.

Để giải quyết vấn đề này, Pinterest phát triển MIQPS (Multi-layered Intelligent Query Parameter System) — một hệ thống chuẩn hóa URL đa tầng. Hệ thống áp dụng các quy tắc chuẩn hóa theo từng lớp: từ việc loại bỏ các query parameter dư thừa, chuẩn hóa casing, đến nhận diện các URL alias trỏ về cùng một nội dung. Mục tiêu là tạo ra một canonical URL duy nhất cho mỗi nội dung.

MIQPS hoạt động ở scale lớn với độ trễ thấp, phục vụ pipeline ingestion thời gian thực của Pinterest. Hệ thống được tích hợp vào Content Acquisition platform, xử lý URL trước khi nội dung được phân phối đến các hệ thống downstream như recommendation engine và visual search.

Bằng cách cải thiện chất lượng deduplication, Pinterest có thể phân phối nội dung chính xác hơn, tránh trùng lặp trong index, và cải thiện trải nghiệm người dùng khi browse và search. Đây là ví dụ điển hình về một bài toán tưởng đơn giản nhưng ẩn chứa nhiều thách thức kỹ thuật ở quy mô production.

👉 Đọc bài gốc