写在前面
INFO
一句话总结:Claude Code 接入 DeepSeek V4 Pro 后,编程能力爆表但不会看图。通过一个 100 行的
vision.js脚本 + 阿里云百炼千问 VL 模型,不花一分钱就能补上这个短板。
TIP
这套方案已经在我自己的电脑上跑通了——截图发过去,AI 自动识别,全程无需手动敲命令。写这篇博客的截图就是用这套方案识别的。
一、背景:为什么需要”眼睛”?
Claude Code 本身是 Anthropic 的产品,原生对接 Claude 系列模型。但通过自定义 API Base URL,我们可以接入任何兼容 OpenAI 格式的模型——包括国产的 DeepSeek V4 Pro。
这一步已经有很多教程了,配置之后,你在终端里拥有了一个强大的 AI 编程助手。
用着用着你会发现一个问题——截图发过去,AI 一脸懵。
DeepSeek V4 Pro 是纯文本模型,不具备视觉能力。当你把报错截图、设计稿、UI 对比图拖进去时,它只能看到文件路径,无法理解图片内容。
我们需要一个”翻译官”——把图片发给有 vision 能力的模型,让它用文字描述回来。
阿里云百炼的千问 VL 模型恰好合适:便宜(新用户 100 万 Token 免费)、兼容 OpenAI 格式、中文理解力强。
二、方案原理
INFO
核心思路:图片不进 DeepSeek,而是绕道千问 VL 先转成文字,再把文字交给 DeepSeek 处理。 整个过程对用户透明——你只管发图,AI 自动处理。
三、完整配置步骤
步骤 1:获取千问 API Key
点击展开:阿里云百炼注册
- 打开 阿里云百炼控制台
- 登录阿里云账号(没有就先注册)
- 在控制台找到 API Key 管理,创建一个新 Key
- 复制生成的 Key(形如
sk-xxxxxxxxxxxxxxxx)
SUCCESS
新用户赠送 100 万 Token 免费额度,有效期 90 天。日常看图每次消耗约 500-1000 Token,够用上千次。
步骤 2:克隆 vision.js 脚本
INFO
教程来源:GitHub 开源项目 asuojun/claude-vision-skill,感谢作者提供了一键式解决方案。
1 | git clone https://github.com/asuojun/claude-vision-skill.git D:/deepseek-vision |
步骤 3:配置 API Key 和模型
打开 D:/deepseek-vision/.env,填写:
1 | DASHSCOPE_API_KEY=你的真实Key |
vision.js 中的模型已预设为 qwen-vl-max(性价比最高的 VL 模型):
1 | const MODEL = process.env.VISION_MODEL || "qwen-vl-max"; |
为什么选
| qwen-vl-max | qwen3.5-omni-plus | |
|---|---|---|
| 输入 | 1.6 元/百万 Token | ~0.8 元/百万 Token |
| 输出 | 4 元/百万 Token | ~4.8 元/百万 Token |
| 定位 | 纯视觉理解 | 全模态(视觉+音频) |
| 推荐 | 日常看图首选 ✅ | 需要音频识别时用 |
qwen-vl-max 输出更便宜,日常识图场景完全够用。
步骤 4:配置 CLAUDE.md
在项目根目录创建或修改 CLAUDE.md,告诉 Claude Code 何时调用 vision.js:
1 | # 识图能力 |
DANGER
注意:
vision.js的路径要写绝对路径,否则 Claude Code 可能找不到。
步骤 5:测试
发一张截图给 Claude Code,它应该自动执行:
1 | node /d/deepseek-vision/vision.js "D:/截图专用/xxx.png" "用中文描述这张图片" |
我的测试结果示例

千问 VL 返回的描述:
这张图片展示了一个动画搜索结果页面,关键词为”辉夜大小姐”,共找到6条记录。动画名称:《辉夜大小姐想让我告白 通往大人的阶梯》,原名:かぐや様は告らせたい 大人への階段,动画种类:TV,播放状态:完结,首播时间:2025年12月31日,原作:赤坂アカ,制作公司:A-1 Pictures,剧情类型:搞笑、校园、恋爱……
识别准确,中文描述流畅,完全可用。
四、成本分析
| 方案 | 月费 | 识图能力 |
|---|---|---|
| 本方案:DeepSeek + 千问 VL | 0 元 | ✅ |
| Claude Pro 订阅 | $20/月 | ✅ 原生 |
| ChatGPT Plus | $20/月 | ✅ 原生 |
TIP
结论:你现在拥有的是一套零成本、全功能的 AI 编程 + 识图方案,对大学生来说性价比拉满。
五、教程来源与参考链接
点击展开:所有参考来源
核心教程
asuojun/claude-vision-skill — 识图脚本开源仓库
本方案的核心 vision.js 脚本来自这个仓库。作者提供了完整的 CLI 配置指令,支持千问、OpenAI 及其他 OpenAI 兼容格式的 vision 模型。本文的配置步骤基于该仓库的 README 和 CLAUDE.md 指引。
DeepSeek 接入 Claude Code 教程
Claude Code 支持通过自定义 API Base URL 和 API Key 接入任何兼容 OpenAI 格式的模型。配置方式:
- 在 Claude Code 设置中修改 API 地址指向 DeepSeek 服务
- 或通过环境变量 / 配置文件指定 provider
具体的 DeepSeek API 接入参数可参考 DeepSeek 官方文档。
千问 VL 模型定价
六、常见问题
Q1:
原因:dotenv 包未安装,.env 文件未被读取。
解决:
1 | cd D:/deepseek-vision |
Q2:
用双引号包裹路径即可:
1 | node /d/deepseek-vision/vision.js "D:/我的 图片/test.png" |
Q3:
支持。使用 --url 参数:
1 | node /d/deepseek-vision/vision.js --url "https://example.com/image.png" |
Q4:
可以。修改 .env 中的 DASHSCOPE_API_KEY 和 vision.js 中的 BASE_URL 与 MODEL 即可,只要是 OpenAI 兼容格式的 vision API 都支持。
结语
TIP
通过一个 100 行的
vision.js脚本,我们把千问 VL 模型变成了 DeepSeek 的”眼睛”。整个过程不需要改 Claude Code 源码,不需要付费订阅,真正做到了零成本、零部署、零门槛。这套方案的精髓在于——各取所长:DeepSeek 负责思考,千问 VL 负责”看”,Claude Code 负责调度。国产大模型 + 国产视觉模型 + 国际顶级工具链,三者配合得恰到好处。
创作说明:本文方案基于 asuojun/claude-vision-skill 开源项目。DeepSeek V4 Pro 接入 Claude Code 的配置方法参考社区教程。千问 VL 模型定价信息来源于阿里云百炼官方文档(2026年5月)。