小米联合TileRT推出MiMo-V2.5-Pro-UltraSpeed,在商品级8卡GPU上实现1万亿参数模型超1000 Tokens/s的解码速度。通过FP4量化+DFlash块级并行推测解码,以及TileRT的持久化内核与异构流水线等极致模型-系统协同,极大释放了大模型实时推理潜力,让编码代理、实时决策、医疗辅助等场景的生产力发生范式级跃升。
登录后评论