MiniMax-M2.7升级到M3，图片识别方式更换

2026年6月2日 65点热度 0人点赞 0条评论

升级前：M2.7 阶段的两套方案

M2.7 本身不支持图像输入，要做图片识别只能借助专门的视觉模型。我在两个项目里各用了一种：

OpenClaw：直接接入 MiniMax-VL-01 视觉模型做识别。
Hermes：通过 MCP 服务调用官方的图片识别能力。

两边的共同点是：走的都是 Token Plan 套餐。

升级后：M3 自带视觉

M3 原生支持图片输入，不再需要外挂视觉模型：

OpenClaw：切换到调用 M3 的视觉接口，不再走 MiniMax-VL-01。
Hermes：MCP 的图片识别服务可以替换为 M3 原生能力，或让 MCP 转发到 M3。

计费模式

M2.7 阶段：M2.7 文本模型和 MiniMax-VL-01 视觉模型是两次独立调用，Token Plan 套餐内文本额度与图片识别额度分开管理，各按调用次数独立限额——文本对话走文本额度，图片识别（VL-01）走图片识别额度。

M3 阶段：图片作为多模态内容块与文本一起进入同一次调用，统一按 Token 限额计费，不再区分文本与图片额度。账单入口简化到 M3 一个模型，套餐进度条覆盖所有模态用量。

M3 图片识别使用指南

官方同时提供两种接入方式：Anthropic SDK（推荐） 和 OpenAI SDK 兼容。下面分别说明。

方式一：Anthropic SDK（推荐）

参考文档：https://platform.minimaxi.com/docs/api-reference/text-anthropic-api
端点 https://api.minimaxi.com/anthropic，环境变量 ANTHROPIC_BASE_URL / ANTHROPIC_API_KEY。

图片块用 type="image"，通过 source 传入 URL 或 base64，支持 JPEG/PNG/GIF/WEBP，单张最大 10 MB、请求体 64 MB。

{
  "model": "MiniMax-M3",
  "max_tokens": 1024,
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image", "source": {"type": "url", "url": "https://example.com/photo.jpg"}},
      {"type": "text", "text": "请描述这张图片的内容"}
    ]
  }]
}

方式二：OpenAI SDK 兼容

参考文档：https://platform.minimaxi.com/docs/api-reference/text-openai-api
端点 https://api.minimaxi.com/v1，环境变量 OPENAI_BASE_URL=https://api.minimaxi.com/v1 / OPENAI_API_KEY。

图片块用 type="image_url"，image_url.url 传 URL 或 data:image/jpeg;base64,...，支持 JPEG/PNG/GIF/WEBP，单张最大 10 MB、请求体 64 MB。image_url.detail 档位 low(≤600 token) / default(1k–3k, ≤5k) / high(数千, ≤15k+)，默认 default。

{
  "model": "MiniMax-M3",
  "max_tokens": 1024,
  "messages": [{
    "role": "user",
    "content": [
      {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg", "detail": "default"}},
      {"type": "text", "text": "请描述这张图片的内容"}
    ]
  }]
}