# 常用模型
# 大语言模型(LLM)
大语言模型的输入和输出价格会有差异,输入比输出tokens便宜
为了方便比较,原美元计价的单价按7.3汇率折算为人民币
有其它需求也可以联系平台添加
# 云API接口
| 模型 | 输入tokens(每百万tokens) | 输出tokens (每百万tokens) | 上下文长度 | 额外功能 |
|---|---|---|---|---|
| GPT-4o(Azure云) | 36.5 | 109.5 | 128k | 视觉(Vision) |
| GPT-4o-mini(Azure云) | 1.095 | 4.38 | 128k | 视觉(Vision) |
| GPT-4.1(Azure云) | 14.6 | 58.4 | 1000k | 视觉(Vision) |
| GPT-4.1-mini(Azure云) | 2.92 | 11.68 | 1000k | 视觉(Vision) |
| GPT-4.1-nano(Azure云) | 0.73 | 2.92 | 1000k | 视觉(Vision) |
| GPT-5-nano(Azure云) | 0.365 | 2.92 | 400k | 视觉(Vision) |
| GPT-5-mini(Azure云) | 1.825 | 14.6 | 400k | 视觉(Vision) |
| GPT-5-chat(Azure云) | 9.125 | 73 | 400k | 视觉(Vision) |
| GPT-5(Azure云) | 9.125 | 73 | 400k | 视觉(Vision) |
| Qwen-Long(阿里云) | 0.5 | 2 | 10000k | - |
| Qwen-Turbo(阿里云) | 0.3 | 0.6 | 128k | - |
| Qwen-Plus(阿里云) | 0.8 | 2 | 128k | - |
| Qwen-Max(阿里云) | 2.4 | 9.6 | 128k | - |
| DeepSeek-R1(阿里云) | 2 | 8 | 65k | - |
| DeepSeek-V3(阿里云) | 1 | 4 | 65k | - |
| Doubao-1.5-Lite(火山云) | 0.3 | 0.6 | 32k | - |
| Doubao-1.5-Pro(火山云) | 0.8 | 2 | 32k | - |
| Doubao-1.5-Vision-Pro | 3 | 9 | 32k | 视觉(Vision) |
| Doubao-Seed-1.6-Flash(火山云) | 0.15 | 1.5 | 256k | 视觉(Vision) |
| Doubao-Seed-1.6(火山云) | 0.8 | 8 | 256k | 视觉(Vision) |
| Doubao-Seed-1.6-Thinking(火山云) | 0.8 | 8 | 256k | 视觉(Vision) |
| DeepSeek-R1(火山云) | 4 | 16 | 131k | - |
| DeepSeek-V3(火山云) | 2 | 8 | 131k | - |
| DeepSeek-V3-0324(火山云) | 2 | 8 | 131k | - |
| DeepSeek-V3.1(火山云) | 4 | 12 | 131k | - |
# 私有部署
| 模型 | 上下文长度 | 额外功能 | 用途 |
|---|---|---|---|
| Qwen2.5-Coder-32B | 32k | - | 数据隐私场景,做自动coding数据分析 |
| Qwen3-32B(虎牙) | 16k | - | 数据隐私场景 |
# 使用建议
从性价比考虑
- 大部分通用常见场景:可以依次尝试 Doubao-1.6-Flash -> Doubao-1.6
- 对于需要规避审核风控的场景:可以依次尝试 GPT-4.1-mini -> GPT-4.1
- 对于需要使用视觉能力的场景:可以依次尝试 Doubao-Seed-1.6-Flash -> Doubao-Seed-1.6 -> GPT-4.1
- 对于需要做coding场景:可以依次尝试 Qwen2.5-Coder-32B -> GPT-4.1 -> Claude-Sonnet-4
- 对于需要做数据隐私场景:选择私有部署模型,或联系平台添加
# Text Embedding
用于文本向量化,一般用于向量检索,相似度对比
# 私有部署
| 模型 | 模型最大输入 |
|---|---|
| BGE-M3 | 8k |
| Qwen3-Embedding-4B | 32k |
# Rerank
用于文本列表重排序,一般用于数据量过大时,去除冗余数据,只取TopK文本
# 私有部署
| 模型 | 模型最大输入 |
|---|---|
| BGE-RERANKER-V2-M3 | 8k |
| BGE-RERANKER-LARGE | 8k |
| Qwen3-Reranker-4B | 32k |
# 音转文(ASR)
TODO