标签: vllm | 小猴寄

融合算子 1 fusion pass 1 图编译优化 1 vllm-ascend 3 vllm 7 Docker 0 Mac App 0 声音克隆 1 语音克隆 0 语音克隆 0 语音克隆 0 语音克隆 0 GPT-SoVITS 1 linux 1 ACME 1 Halo 0 DNS 分流 1 DNS 泄漏 1 透明代理 0 iStoreOS 0 旁路由 0 极空间 0 frp 0 IPv6 0 内网穿透 0 模板 0 OSM 0 闲聊 1 热门 12 精选 7 项目部署 1 ASP.NET Core 1 寄能 11 项目管理 1 Pushdeer 1 镜像 1 云服务器 1 ECS 1 加密 0 身份认证 1 Bezier 2 通知推送 2 通知 0 ServerChan 1 SSL 2 HTTPS 2 Nginx 2 ASP.NET 0 Git 1 VSCode 1 .NET 1 C# 1 深度学习 5 QT 4 ADB 1 数学建模 2 Matlab 1 Ubuntu 2 C++ 8 NAO 4 算法 9 网络 2 破解 3 寄术 12 APK 2 日寄 0 日常 0

学习笔记未读

图编译优化与 Fusion Pass 融合算子接入实践

这篇帖子将从图编译的基础概念入手，落到 vLLM Ascend 中的 Fusion Pass、图匹配和图替换机制，目标是理解一条融合规则从“被定义出来”到“真正改写 FX 图”的完整过程。此外，帖中会给出将融合算子 AddRmsNormDynamicMxQuant 接入 vllm-ascend，替

vllm vllm-ascend 图编译优化 fusion pass 融合算子寄术 2026-06-24

学习笔记未读

vLLM-Ascend 低精调用路径与融合算子使能机制

一、低精外围调用链（vLLM -> vLLM-Ascend） vLLM 推理低精的核心调用点其实就是 quant_method 的三个方法： create_weights：注册空 Parameter：weight / scale / offset / scale_second ...，写入 inpu

vllm vllm-ascend 2026-06-01

学习笔记未读

vLLM-Ascend 量化注入 vLLM 流程

这块 vllm-ascend 官方文档里很简单地一笔带过了。。（https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/Design_Documents/quantization.html）按照官方的说明虽然可以意会，还是具体

vllm vllm-ascend 2026-05-30

学习笔记未读

vLLM框架代码走读02（Core侧）

本文走读 vLLM V1 Core 侧的一次推理迭代如何发生，覆盖这些关零本文走读 vLLM V1 Core 侧的一次推理迭代如何发生，覆盖这些关键类： EngineCore / EngineCoreProc：Core 侧主循环与进程封装。 Scheduler：请求队列、KV block、token

vllm 2026-05-27

学习笔记未读

vLLM框架代码走读01（Client侧）

本文聚焦 vLLM V1 离线推理入口 LLM 的 Client 侧链路，覆盖这些核心类： LLM LLMEngine SyncMPClient InputProcessor OutputProcessor RequestState 这里的 RequestState 特指 vllm.v1.engin

vllm 2026-05-27

学习笔记未读

vLLM框架代码走读04（KV Cache Slot Mapping 机制）

本文梳理了 vLLM V1 中 KV Cache 的 slot mapping 全流程：调度器如何拿到物理 KV block，worker 如何把 block table 转成 slot mapping，attention backend 又如何用它把当前 token 的 K/V 写入 paged

vllm 2026-05-26

学习笔记未读

vLLM框架代码走读03（SchedulerOutput）

（本篇是03。01 Client篇和 02 Core 篇后面再补上来）本文聚焦 vLLM V1 中最基础的 text-only 生成路径。多模态 encoder、speculative decoding、pipeline/data parallel、KV/EC connector、structur

vllm 2026-05-26

你好啊！

站长 Sunwish 是一个摆烂王。他相信只要寄不掉，就还有摆的空间。但是在追求摆的最大化的过程当中，他似乎忘了，摆的极限就是...

—— 寄。

Sunwish

分享设计与科技生活

音乐天地