Nguồn: Hacker News
Tóm tắt
Một nghiên cứu điều tra các bộ dữ liệu khoa học công khai đã phát hiện ra rằng nhiều dataset chứa các lỗi copy-paste nghiêm trọng, đe dọa tính toàn vẹn của các kết luận khoa học dựa trên chúng. Phần mềm phát hiện tự động được phát triển để quét các kho lưu trữ dữ liệu mở như Dryad đã tìm ra 18 trường hợp đáng lo ngại trong số 600 dataset đầu tiên được kiểm tra.
Một trong những trường hợp nổi bật nhất liên quan đến một bài báo đột phá về bệnh Parkinson trên tạp chí Cell (2016), đã được trích dẫn hơn 3.000 lần. Dataset công khai của nghiên cứu này chứa các chuỗi giá trị trùng lặp trong dữ liệu về chức năng vận động của chuột thí nghiệm - các giá trị lẽ ra phải thuộc về các nhóm chuột hoàn toàn khác nhau. Với cỡ mẫu nhỏ, các giá trị trùng lặp chiếm tới 50% mẫu SPF và 42% mẫu ExGF, ảnh hưởng nghiêm trọng đến kết luận của nghiên cứu.
Một trường hợp khác là nghiên cứu về tiến hóa của sức đề kháng độc tố ở các loài động vật, trong đó dữ liệu của đà điểu và rắn bị trộn lẫn một cách bất thường. Tác giả của phần mềm phát hiện đặt câu hỏi liệu đây là lỗi vô tình do thao tác Excel hay là hành vi cố ý làm sai lệch kết quả.
Sự kiện này làm nổi bật nhu cầu cấp thiết về các công cụ tự động kiểm tra tính toàn vẹn của dữ liệu trong khoa học. Mặc dù hệ thống peer review hiện tại kiểm tra phương pháp luận và lý luận, nhưng hiếm khi có ai xác minh trực tiếp dữ liệu thô - một lỗ hổng lớn trong quy trình khoa học hiện đại.