蒋蒋的学习笔记

VoxCPM的rust推理

模型结构图

rust代码

代码地址:https://github.com/jhqxxx/aha/tree/main/src/models/voxcpm

输入

输出

模型推理详解

preprocess

Tokenizer+Embedding

AudioVAE

MiniCPM4

LocEnc

enc_to_lm_proj线性层, 使音频特征维度->文本特征维度,特征变换

text token经过嵌入得到text embedding

将text embedding和音频嵌入特征组合在一起

Text-Semantic Language Model

FSQ

TSLM+FSQ 路径专注于内容稳定性和韵律连贯性

Residual Acoustic Language Model

RALM 路径则专注于声学表现力和说话者特征

lm_to_dit_proj,使TSLM文本特征维度->音频特征维度,特征变换

res_to_dit_proj,使RALM文本特征维度->音频特征维度,特征变换

UnifiedCFM + LocDit

stop_predictor:

postprocess