[Hacker News] Which one is more important: more parameters or more computation? (2021)
Nguồn: ParlAI / Meta AI Tóm tắt Nghiên cứu từ năm 2021 của Meta AI (qua ParlAI) khảo sát câu hỏi cơ bản trong scaling LLM: tăng số lượng tham số (parameters) hay tăng lượng tính toán (computation) mỗi token có lợi hơn? Hai đại lượng này thường bị gộp chung vì trong Transformer chuẩn, chúng gắn chặt với nhau. Nhóm nghiên cứu đề xuất hai kiến trúc tách biệt hai chiều này: Hash Layers (tăng parameters không tăng FLOP) và Ladder/Staircase (tăng computation không tăng parameter count)....