阶跃星辰发布StepAudio 2.5 Realtime:主观体验评分碾压GPT-Realtime-1.5近18%,通话每小时3.8元

快链头条 2026-05-08 22:27:39
阅读 4,029
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,阶跃星辰发布端到端实时语音大模型 StepAudio 2.5 Realtime,主打「活人感」对话,支持全维度人设自定义和副语言(语调、停顿、叹息等非语言信号)感知。模型已全量上线开放平台 API。

官方给出的五个评测维度(2026 年 4 月测试)全部拿下第一。其中最能反映真实体验的主观评测(手机 APP 真人对话打分)得 80.41,GPT-Realtime-1.5 为 68.01,Gemini Live 为 67.16。语音问答基准得 79.80,是 GPT-Realtime-1.5(53.20)的近 1.5 倍。副语言理解 82.18,通用对话 86.36,车载场景 84.80。

技术路线有三个关键设计。一是基于 1 万余个原生人设,通过算法裂变出百万级人设特征矩阵,融合大量真实对话语料训练,让模型在长尾小众话题上也能保持稳定。二是针对角色扮演场景做了专属 RLHF(基于人类反馈的强化学习)对齐,解决 AI 聊着聊着「人设崩塌」的老问题。三是理解与生成深度融合,继承自家 StepAudio 2.5 TTS 的表现力,做到全局场景定调和句内细节雕琢。

API 兼容 OpenAI Realtime API 协议(基于 WebSocket),开发者可低成本迁移。定价为输入 10 元/百万 token(缓存命中 2 元),输出 70 元/百万 token,官方估算连续语音通话成本约 3.8 元/小时。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。