模型概览
启航 AI 提供多种类型的 AI 模型,涵盖文本聊天、图像生成、语音合成、视频生成等多个领域。所有模型都通过统一的 API 接口调用,兼容 OpenAI 标准。
文本聊天模型
OpenAI 系列
GPT-5
模型 ID:
gpt-5OpenAI 第五代大语言模型,首个”一体化”AI 系统,采用超级混合架构,参数规模达 52 万亿。特点: 多模态交互、深度思考模式、编程能力强GPT-4.1
模型 ID:
gpt-4.1OpenAI 旗舰级模型,擅长编码、指令遵循和长上下文理解。特点: 高准确性、复杂任务处理GPT-4o
模型 ID:
gpt-4o多模态旗舰模型,可接受文本、音频、图像组合输入。特点: 多模态、快速响应(320ms)O3
模型 ID:
o3新一代推理模型,接近通用人工智能的表现。特点: 强推理能力、数学编程优秀Claude 系列
Claude Opus 4
模型 ID:
claude-opus-4-20250514Anthropic 旗舰级混合推理模型,200K 上下文窗口。特点: 最佳编码模型、扩展思考模式Claude Sonnet 4
模型 ID:
claude-sonnet-4-20250514高性能混合推理模型,支持 1M token 功能。特点: 自动纠错、64K 输出国产模型
DeepSeek R1
模型 ID:
deepseek-r1DeepSeek 推理模型,支持思维链输出。特点: 64K 上下文、函数调用Kimi K2
模型 ID:
kimi-k2MoE 架构,总参数 1 万亿,128K 上下文。特点: 代码生成强、成本低通义千问 3 Max
模型 ID:
qwen3-max通义千问旗舰级模型,36T tokens 预训练数据。特点: 工具调用、全球第一梯队智谱 GLM-4.6
模型 ID:
glm-4.6智谱 2025 年 9 月开源模型,200K 上下文。特点: 多模态生成、全栈开发图像生成模型
绘图(Image 格式)
启航绘图 X2 Preview
模型 ID:
qh-draw-x2-preview自研专业级绘图模型 V2.0,综合绘图能力强。DALL-E 3
模型 ID:
dall-e-3OpenAI 第三代图像生成模型,8K 分辨率。Nano Banana 2
模型 ID:
nano-banana-2Google 图像生成模型,原生 2K 分辨率,可选 4K 超分。即梦 4.0
模型 ID:
即梦4.0高效生图模型,2K 高清图文生图仅需 1.8 秒。绘图(Chat 格式)
Gemini 2.5 Flash Image
模型 ID:
gemini-2.5-flash-image-previewGoogle 图像生成和编辑模型,支持角色一致性。Gemini 3 Pro Image
模型 ID:
gemini-3-pro-image-previewNano Banana 2,支持原生 2K 分辨率,生成速度提升 300%。语音模型
文本转语音(TTS)
启航 TTS
语音识别(ASR)
启航 ASR Lite
模型 ID:
qhai-asr-lite轻量化语音识别模型,快速准确地实现语音转文本。视频生成模型
Sora 2
模型 ID:
sora-2OpenAI 2025 年 10 月发布的旗舰级音视频生成模型。特点: 物理仿真真实、多镜头可控Sora 2 HD
模型 ID:
sora-2-hdSora 2 的高清版本,更高的视频质量。音乐生成模型
Suno V4.5 Plus
模型 ID:
suno-v4.5-plusSuno 较新音乐模型,支持人声与器乐分层生成。Suno V5
模型 ID:
suno-v5Suno 最新音乐生成模型,增强质量和功能。嵌入模型
BGE-M3
模型 ID:
bge-m3北京智源研究院文本嵌入模型,支持 100+ 语言,8192 长度。Text Embedding 3 Large
模型 ID:
text-embedding-3-largeOpenAI 第三代文本嵌入模型,3072 维向量。重排序模型
BGE Reranker V2 M3
模型 ID:
bge-reranker-v2-m3北京智源研究院轻量级重排序模型,专为 RAG 流程优化。联网搜索模型
启航 AI 提供多个模型的联网搜索版本,自动调用搜索引擎获取最新信息:deepseek-chat#searchdeepseek-r1#searchgemini-2.5-flash#searchkimi-k2#search
如何选择模型?
文本聊天场景
文本聊天场景
- 日常对话: GPT-4o, Claude Sonnet 4
- 复杂推理: O3, DeepSeek R1, Claude Opus 4
- 代码生成: GPT-5, Kimi K2, Claude Opus 4
- 长文本处理: Kimi K2 (128K), Claude Opus 4 (200K)
- 成本优先: DeepSeek V3, GLM-4.6
图像生成场景
图像生成场景
- 高质量绘图: 启航绘图 X2 Preview, DALL-E 3
- 快速生成: 即梦 4.0, 启航绘图 X1 Flash
- 角色一致性: Nano Banana 2, Gemini 2.5 Flash Image
- 特定风格: qh-draw:韩漫风, qh-draw-3d, qh-draw-4d
语音场景
语音场景
- 文本转语音: qhai-tts (38+ 角色可选)
- 语音识别: qhai-asr-lite
- 语音克隆: 使用自定义语音模型创建接口
获取完整模型列表
您可以通过 API 获取最新的模型列表:查看 API 文档
了解如何通过 API 获取模型列表