学习笔记
未读
vLLM-Ascend 低精调用路径与融合算子使能机制
一、低精外围调用链(vLLM -> vLLM-Ascend) vLLM 推理低精的核心调用点其实就是 quant_method 的三个方法: create_weights:注册空 Parameter:weight / scale / offset / scale_second ...,写入 inpu
学习笔记
未读
vLLM-Ascend 量化注入 vLLM 流程
这块 vllm-ascend 官方文档里很简单地一笔带过了。。 (https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/Design_Documents/quantization.html) 按照官方的说明虽然可以意会,还是具体
音乐天地
