Nguồn: ParlAI / Meta AI
Tóm tắt
Nghiên cứu từ năm 2021 của Meta AI (qua ParlAI) khảo sát câu hỏi cơ bản trong scaling LLM: tăng số lượng tham số (parameters) hay tăng lượng tính toán (computation) mỗi token có lợi hơn? Hai đại lượng này thường bị gộp chung vì trong Transformer chuẩn, chúng gắn chặt với nhau.
Nhóm nghiên cứu đề xuất hai kiến trúc tách biệt hai chiều này: Hash Layers (tăng parameters không tăng FLOP) và Ladder/Staircase (tăng computation không tăng parameter count). Hash Layers phân tán các token vào các feed-forward layer khác nhau theo hash function, cho phép tăng parameter count mà không tăng chi phí tính toán mỗi forward pass.
Ladder và Staircase stack nhiều Transformer block để tăng computation per parameter. Staircase còn mang tính đệ quy theo thời gian (recurrent in time), giúp duy trì internal state — điều mà Transformer thuần túy không làm được hiệu quả. Kết hợp cả hai phương pháp cho kết quả cộng hưởng (orthogonal improvements), gợi ý đây là hai trục độc lập có thể khai thác song song.