
不完美推理实现代码链接:https://github.com/jhqxxx/learn_qwen2_5_vl
{
"messages": [
{
"role": "user",
"content": [
{
"type": "image",
"image": "file://./assets/ocr_test.png"
},
{
"type": "text",
"text": "请分析图片并提取所有可见文本内容,按从左到右、从上到下的布局,返回纯文本"
}
]
}
]
}
图片内容:

数据预处理
视觉编码器
语言模型解码器