学习笔记
未读
vLLM-Ascend 低精调用路径与融合算子使能机制
一、低精外围调用链(vLLM -> vLLM-Ascend) vLLM 推理低精的核心调用点其实就是 quant_method 的三个方法: create_weights:注册空 Parameter:weight / scale / offset / scale_second ...,写入 inpu
学习笔记
未读
vLLM-Ascend 量化注入 vLLM 流程
这块 vllm-ascend 官方文档里很简单地一笔带过了。。 (https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/Design_Documents/quantization.html) 按照官方的说明虽然可以意会,还是具体
学习笔记
未读
vLLM框架代码走读02(Core侧)
本文走读 vLLM V1 Core 侧的一次推理迭代如何发生,覆盖这些关零本文走读 vLLM V1 Core 侧的一次推理迭代如何发生,覆盖这些关键类: EngineCore / EngineCoreProc:Core 侧主循环与进程封装。 Scheduler:请求队列、KV block、token
学习笔记
未读
vLLM框架代码走读01(Client侧)
本文聚焦 vLLM V1 离线推理入口 LLM 的 Client 侧链路,覆盖这些核心类: LLM LLMEngine SyncMPClient InputProcessor OutputProcessor RequestState 这里的 RequestState 特指 vllm.v1.engin
学习笔记
未读
vLLM框架代码走读04(KV Cache Slot Mapping 机制)
本文梳理了 vLLM V1 中 KV Cache 的 slot mapping 全流程:调度器如何拿到物理 KV block,worker 如何把 block table 转成 slot mapping,attention backend 又如何用它把当前 token 的 K/V 写入 paged
学习笔记
未读
vLLM框架代码走读03(SchedulerOutput)
(本篇是03。01 Client篇和 02 Core 篇后面再补上来) 本文聚焦 vLLM V1 中最基础的 text-only 生成路径。多模态 encoder、speculative decoding、pipeline/data parallel、KV/EC connector、structur
音乐天地
