学习笔记
未读
vLLM-Ascend 低精调用路径与融合算子使能机制
一、低精外围调用链(vLLM -> vLLM-Ascend) vLLM 推理低精的核心调用点其实就是 quant_method 的三个方法: create_weights:注册空 Parameter:weight / scale / offset / scale_second ...,写入 inpu
学习笔记
未读
vLLM-Ascend 量化注入 vLLM 流程
这块 vllm-ascend 官方文档里很简单地一笔带过了。。 (https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/Design_Documents/quantization.html) 按照官方的说明虽然可以意会,还是具体
学习笔记
未读
vLLM框架代码走读02(Core侧)
本文走读 vLLM V1 Core 侧的一次推理迭代如何发生,覆盖这些关零本文走读 vLLM V1 Core 侧的一次推理迭代如何发生,覆盖这些关键类: EngineCore / EngineCoreProc:Core 侧主循环与进程封装。 Scheduler:请求队列、KV block、token
学习笔记
未读
vLLM框架代码走读01(Client侧)
本文聚焦 vLLM V1 离线推理入口 LLM 的 Client 侧链路,覆盖这些核心类: LLM LLMEngine SyncMPClient InputProcessor OutputProcessor RequestState 这里的 RequestState 特指 vllm.v1.engin
学习笔记
未读
vLLM框架代码走读04(KV Cache Slot Mapping 机制)
本文梳理了 vLLM V1 中 KV Cache 的 slot mapping 全流程:调度器如何拿到物理 KV block,worker 如何把 block table 转成 slot mapping,attention backend 又如何用它把当前 token 的 K/V 写入 paged
学习笔记
未读
vLLM框架代码走读03(SchedulerOutput)
(本篇是03。01 Client篇和 02 Core 篇后面再补上来) 本文聚焦 vLLM V1 中最基础的 text-only 生成路径。多模态 encoder、speculative decoding、pipeline/data parallel、KV/EC connector、structur
学习笔记
未读
深度学习(五)激活函数的选择 & 浅层神经网络的梯度下降
# 概述 > 本篇中你将了解几种常见的激活函数,并看到在浅层神经网络中向后传播及梯度下降是如何进行的。  ---------- # 5.0 上篇回顾 在上一篇中,你见到了一个单输出的浅层(双层)神经网络是如何进行向前传播的
学习笔记
未读
深度学习(四)浅层神经网络及其向量化
# 概述 > 本篇简要介绍浅层神经网络,并给出其向量化形式。  ---------- # 4.0 Logistic 回顾 在前三篇当中,我们见过了 Logistic 回归的相关内容,了解了向前传播、向后传播、梯度下降与向量
学习笔记
未读
深度学习(三)实战:动手实现猫图识别
# 概述 > 本篇详细记录了如何使用 Python 语言基于 Logistic 回归搭建一个简单的单层神经网络,并实现猫图的识别。 > 本篇中的单层神经网络在训练集与测试集上分别获得了 95.7% 与 74.0% 的正确率。 向量化 Logistic 回归及其梯度输出
概述 本篇属于理论篇,你将了解什么是向量化、向量化对神经网络训练优化的重要性,以及如何向量化 Logistic 回归及其梯度输出。 2.0 向量化概述 在前面,你已经认识了 Logistic 回归,并且对梯度下降以及梯度下降是如何工作的有了一个具体的认知。如果你有认真阅读第一篇的话,相信你还记得在第
音乐天地
