永利皇宫官网,永利皇宫赌场,永利皇宫娱乐城,永利皇宫注册,永利皇宫,永利皇宫app,永利皇宫发财车,永利赌场,永利集团,永利娱乐城,永利娱乐场,永利澳门,永利博彩,澳门永利皇宫博彩官网,网上澳门彩官网,澳门永利双向缓存策略:采用 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复计算。高相似度验证:实验表明,相邻推理步骤的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步计算量显著降低。