# 常用模型

# 大语言模型(LLM)

大语言模型的输入和输出价格会有差异,输入比输出tokens便宜
为了方便比较,原美元计价的单价按7.3汇率折算为人民币
有其它需求也可以联系平台添加

# 云API接口

模型 输入tokens(每百万tokens) 输出tokens (每百万tokens) 上下文长度 额外功能
GPT-4o(Azure云) 36.5 109.5 128k 视觉(Vision)
GPT-4o-mini(Azure云) 1.095 4.38 128k 视觉(Vision)
GPT-4.1(Azure云) 14.6 58.4 1000k 视觉(Vision)
GPT-4.1-mini(Azure云) 2.92 11.68 1000k 视觉(Vision)
GPT-4.1-nano(Azure云) 0.73 2.92 1000k 视觉(Vision)
GPT-5-nano(Azure云) 0.365 2.92 400k 视觉(Vision)
GPT-5-mini(Azure云) 1.825 14.6 400k 视觉(Vision)
GPT-5-chat(Azure云) 9.125 73 400k 视觉(Vision)
GPT-5(Azure云) 9.125 73 400k 视觉(Vision)
Qwen-Long(阿里云) 0.5 2 10000k -
Qwen-Turbo(阿里云) 0.3 0.6 128k -
Qwen-Plus(阿里云) 0.8 2 128k -
Qwen-Max(阿里云) 2.4 9.6 128k -
DeepSeek-R1(阿里云) 2 8 65k -
DeepSeek-V3(阿里云) 1 4 65k -
Doubao-1.5-Lite(火山云) 0.3 0.6 32k -
Doubao-1.5-Pro(火山云) 0.8 2 32k -
Doubao-1.5-Vision-Pro 3 9 32k 视觉(Vision)
Doubao-Seed-1.6-Flash(火山云) 0.15 1.5 256k 视觉(Vision)
Doubao-Seed-1.6(火山云) 0.8 8 256k 视觉(Vision)
Doubao-Seed-1.6-Thinking(火山云) 0.8 8 256k 视觉(Vision)
DeepSeek-R1(火山云) 4 16 131k -
DeepSeek-V3(火山云) 2 8 131k -
DeepSeek-V3-0324(火山云) 2 8 131k -
DeepSeek-V3.1(火山云) 4 12 131k -

# 私有部署

模型 上下文长度 额外功能 用途
Qwen2.5-Coder-32B 32k - 数据隐私场景,做自动coding数据分析
Qwen3-32B(虎牙) 16k - 数据隐私场景

# 使用建议

从性价比考虑

  • 大部分通用常见场景:可以依次尝试 Doubao-1.6-Flash -> Doubao-1.6
  • 对于需要规避审核风控的场景:可以依次尝试 GPT-4.1-mini -> GPT-4.1
  • 对于需要使用视觉能力的场景:可以依次尝试 Doubao-Seed-1.6-Flash -> Doubao-Seed-1.6 -> GPT-4.1
  • 对于需要做coding场景:可以依次尝试 Qwen2.5-Coder-32B -> GPT-4.1 -> Claude-Sonnet-4
  • 对于需要做数据隐私场景:选择私有部署模型,或联系平台添加

# Text Embedding

用于文本向量化,一般用于向量检索,相似度对比

# 私有部署

模型 模型最大输入
BGE-M3 8k
Qwen3-Embedding-4B 32k

# Rerank

用于文本列表重排序,一般用于数据量过大时,去除冗余数据,只取TopK文本

# 私有部署

模型 模型最大输入
BGE-RERANKER-V2-M3 8k
BGE-RERANKER-LARGE 8k
Qwen3-Reranker-4B 32k

# 音转文(ASR)

TODO