MiniMax-M2.7升级到M3,图片识别方式更换

2026年6月2日 3点热度 0人点赞 0条评论

升级前:M2.7 阶段的两套方案

M2.7 本身不支持图像输入,要做图片识别只能借助专门的视觉模型。我在两个项目里各用了一种:

  • OpenClaw:直接接入 MiniMax-VL-01 视觉模型做识别。
  • Hermes:通过 MCP 服务调用官方的图片识别能力。

两边的共同点是:走的都是 Token Plan 套餐

升级后:M3 自带视觉

M3 原生支持图片输入,不再需要外挂视觉模型:

  • OpenClaw:切换到调用 M3 的视觉接口,不再走 MiniMax-VL-01。
  • Hermes:MCP 的图片识别服务可以替换为 M3 原生能力,或让 MCP 转发到 M3。

计费模式

M2.7 阶段:M2.7 文本模型和 MiniMax-VL-01 视觉模型是两次独立调用,Token Plan 套餐内文本额度与图片识别额度分开管理,各按调用次数独立限额——文本对话走文本额度,图片识别(VL-01)走图片识别额度。

M3 阶段:图片作为多模态内容块与文本一起进入同一次调用,统一按 Token 限额计费,不再区分文本与图片额度。账单入口简化到 M3 一个模型,套餐进度条覆盖所有模态用量。

M3 图片识别使用指南

官方同时提供两种接入方式:Anthropic SDK(推荐)OpenAI SDK 兼容。下面分别说明。


方式一:Anthropic SDK(推荐)

参考文档:https://platform.minimaxi.com/docs/api-reference/text-anthropic-api
端点 https://api.minimaxi.com/anthropic,环境变量 ANTHROPIC_BASE_URL / ANTHROPIC_API_KEY

图片块用 type="image",通过 source 传入 URL 或 base64,支持 JPEG/PNG/GIF/WEBP,单张最大 10 MB、请求体 64 MB。

{
  "model": "MiniMax-M3",
  "max_tokens": 1024,
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image", "source": {"type": "url", "url": "https://example.com/photo.jpg"}},
      {"type": "text", "text": "请描述这张图片的内容"}
    ]
  }]
}

方式二:OpenAI SDK 兼容

参考文档:https://platform.minimaxi.com/docs/api-reference/text-openai-api
端点 https://api.minimaxi.com/v1,环境变量 OPENAI_BASE_URL=https://api.minimaxi.com/v1 / OPENAI_API_KEY

图片块用 type="image_url"image_url.url 传 URL 或 data:image/jpeg;base64,...,支持 JPEG/PNG/GIF/WEBP,单张最大 10 MB、请求体 64 MB。image_url.detail 档位 low(≤600 token) / default(1k–3k, ≤5k) / high(数千, ≤15k+),默认 default

{
  "model": "MiniMax-M3",
  "max_tokens": 1024,
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg", "detail": "default"}},
      {"type": "text", "text": "请描述这张图片的内容"}
    ]
  }]
}

参考文档

kenny

曾经是一位IT相关行业工作者...

文章评论