升级前:M2.7 阶段的两套方案
M2.7 本身不支持图像输入,要做图片识别只能借助专门的视觉模型。我在两个项目里各用了一种:
- OpenClaw:直接接入 MiniMax-VL-01 视觉模型做识别。
- Hermes:通过 MCP 服务调用官方的图片识别能力。
两边的共同点是:走的都是 Token Plan 套餐。
升级后:M3 自带视觉
M3 原生支持图片输入,不再需要外挂视觉模型:
- OpenClaw:切换到调用 M3 的视觉接口,不再走 MiniMax-VL-01。
- Hermes:MCP 的图片识别服务可以替换为 M3 原生能力,或让 MCP 转发到 M3。
计费模式
M2.7 阶段:M2.7 文本模型和 MiniMax-VL-01 视觉模型是两次独立调用,Token Plan 套餐内文本额度与图片识别额度分开管理,各按调用次数独立限额——文本对话走文本额度,图片识别(VL-01)走图片识别额度。
M3 阶段:图片作为多模态内容块与文本一起进入同一次调用,统一按 Token 限额计费,不再区分文本与图片额度。账单入口简化到 M3 一个模型,套餐进度条覆盖所有模态用量。
M3 图片识别使用指南
官方同时提供两种接入方式:Anthropic SDK(推荐) 和 OpenAI SDK 兼容。下面分别说明。
方式一:Anthropic SDK(推荐)
参考文档:https://platform.minimaxi.com/docs/api-reference/text-anthropic-api
端点 https://api.minimaxi.com/anthropic,环境变量 ANTHROPIC_BASE_URL / ANTHROPIC_API_KEY。
图片块用 type="image",通过 source 传入 URL 或 base64,支持 JPEG/PNG/GIF/WEBP,单张最大 10 MB、请求体 64 MB。
{
"model": "MiniMax-M3",
"max_tokens": 1024,
"messages": [{
"role": "user",
"content": [
{"type": "image", "source": {"type": "url", "url": "https://example.com/photo.jpg"}},
{"type": "text", "text": "请描述这张图片的内容"}
]
}]
}
方式二:OpenAI SDK 兼容
参考文档:https://platform.minimaxi.com/docs/api-reference/text-openai-api
端点 https://api.minimaxi.com/v1,环境变量 OPENAI_BASE_URL=https://api.minimaxi.com/v1 / OPENAI_API_KEY。
图片块用 type="image_url",image_url.url 传 URL 或 data:image/jpeg;base64,...,支持 JPEG/PNG/GIF/WEBP,单张最大 10 MB、请求体 64 MB。image_url.detail 档位 low(≤600 token) / default(1k–3k, ≤5k) / high(数千, ≤15k+),默认 default。
{
"model": "MiniMax-M3",
"max_tokens": 1024,
"messages": [{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg", "detail": "default"}},
{"type": "text", "text": "请描述这张图片的内容"}
]
}]
}
文章评论