vLLM-Ascend 量化注入 vLLM 流程
这块 vllm-ascend 官方文档里很简单地一笔带过了。。
(https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/Design_Documents/quantization.html)
按照官方的说明虽然可以意会,还是具体推理过程中量化操作到底是怎么跑到 ascend 代码上去的,缺乏具体的机制细节还是有点难以理解。于是乎梳理(啃)了整整一下午 vllm 和 vllm-ascend 代码仓,画出了下图。本来还想写篇走读帖的,想想就有点昏过去了,还是一图胜千言吧。。

发现之前看漏了一块,主要执行者不是 Method 类,而是 Method 类里包着的 Scheme 成员,进而发现还有一套 quant_type、layer_type、Scheme 注册和匹配机制。已在图中补全。好了,现在是整整俩下午了。
- 感谢你赐予我前进的力量
赞赏者名单
因为你们的支持让我意识到写文章的价值🙏
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 Sunwish
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果
音乐天地
