Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts
Paper
•
2309.04354
•
Published
•
13
Note 1. 使用图片分发的方式,确保每次只激活一个expert,减少了计算的开销(分发patch通常会激活多个expert,但具体减少了多少还需要验证,因为分发patch的话每个expert的输入会更小) 2. 存储开销并未减少 3. Router的训练更容易