产品更新动态
2025-08-27
流式文本在线合成API上新
产品分类:语音合成
功能描述:流式文本在线合成服务,现已全面商业化,支持语音边合成边播放
适用场景:语音助手、情感陪伴、在线教育、资讯播报
接入文档:流式文本在线合成
2025-07-11
端到端语音语言大模型API上新
产品分类:大模型语音
功能描述:端到端语音语言大模型服务,新增支持API连接,可实现云端调用,适用于更多场景
适用场景:语音助手、情感陪伴、呼叫中心、在线教育、智能硬件
接入文档:端到端语音语言大模型API
2025-06-24
实时语音识别支持中文多方言模型
产品分类:语音识别
功能描述:实时语音识别服务,新增支持方言的音频流实时识别,可同时支持中文、粤语、四川话和东北话。
适用场景:在线客服、智能语音助手、电话通话转写等场景,支持多地域用户语音输入,提升用户体验!
升级方式:您可更换输入参数dev_pid,将上述模型dev_pid替换为中文多方言dev_pid=15376即可,注意需要在参数中加入"user":"XXX"(参数任意)
接入文档:实时语音识别-websocket API
2025-06-17
端到端语音语言大模型SDK上新
产品分类:大模型语音
功能描述:端到端语音语言大模型具备超拟人语音合成能力,集成38个垂类助手功能,具备强大的信息检索与指令跟随能力,支持多地域多方言、智能打断与智能降噪。
适用场景:语音助手、情感陪伴、呼叫中心、在线教育、智能硬件
接入文档:端到端语音语言大模型Android SDK、端到端语音语言大模型iOS SDK
2025-06-06
语音合成、识别支持HarmonyOS SDK
产品分类:语音合成、语音识别
功能描述:支持将语音合成与语音识别能力集成至HarmonyOS系统应用,支持无网或弱网环境下的文字合成语音与语音快速准确识别为文字。
适用场景:基于HarmonyOS系统的智能手机、穿戴设备、车机系统等终端,支持语音助手、语音控制等功能
接入文档:语音合成 Harmony OS SDK、语音识别 Harmony OS SDK
2025-06-05
大模型声音复刻服务上新
产品分类:大模型语音
功能描述:基于大模型zero-shot技术,随时随地录制数秒音频,即可极速复刻音色用于语音合成。
适用场景:语音社交、语音助手、在线教育、内容配音
接入文档:大模型声音复刻
2025-05-15
呼叫中心实时语音通话上新
产品分类:语音识别
功能描述:将通话内容准确转写,并根据识别内容提供高度拟人、情感丰富的语音合成与播报功能。支持智能断句、添加标点与工号订单号转换。
适用场景:电话信息通知、客户回访通话、电话营销触达
接入文档:呼叫中心语音-语音识别(8K)
2025-04-30
流式文本在线合成服务上新
产品分类:语音合成
功能描述:支持文本、语音双向流式,在用户输入文本的同时就能接近同步的返回合成音频数据,达到“边合成边播放”的效果。
适用场景:阅读听书、智能客服、车载导航、智能硬件实时语音
接入文档:流式文本在线合成
2024-04-02
【远场语音识别模型下线公告】
尊敬的百度语音客户您好!百度远场语音识别产品历史接口及模型资源整合升级,为您提供更优质的产品效果及使用体验。 以下模型资源将于4月30日下线,为避免影响您的服务,请您尽快将服务切换升级:
- dev_pid=1936(1936、19361、19362、19363)
升级方式:远场语音识别相关合作需求,您可提交合作咨询,我们将尽快安排客户经理与您对接。
2024-03-14
语音质检服务上新
产品分类:语音识别
功能描述:将坐席人员的通话内容转写为文字,并进行AI自动化质检,解决人工抽检成本高昂、覆盖不全等问题,大幅提高语音质量监控效率,助力通话数据分析挖掘。
适用场景:金融风控、信贷营销、快递物流等多种行业场景,准确率业界领先!
接入文档:语音质检API
2023-08-03
语音字幕模型上新
产品分类:语音识别
功能描述:AI助力音视频字幕智能生产,基于海量数据和先进算法,打造音视频场景专属模型,识别准确率高达98%,并支持智能分析标点、断句,准确匹配时间轴,助力字幕生产降本增效。
适用场景:视频编辑工具、视频直播字幕生成、网络课堂字幕生成、在线会议字幕生成
接入文档:音频文件转写极速版API、音频文件转写API、实时语音识别API
2023-03-16
【语音识别模型下线公告】
尊敬的百度语音客户您好!百度语音识别产品历史接口及模型资源整合升级,为您提供更优质的产品效果及使用体验。
以下模型资源将于3月31日下线,为避免影响您的服务,请您尽快将服务切换升级:
- dev_pid=1538
- dev_pid=1700
- dev_pid=1721
升级方式:您可更换输入参数dev_pid,将上述模型dev_pid替换为短语音识别标准版dev_pid=1537(支持API及SDK调用),或短语音识别极速版dev_pid=80001(支持API调用,效果更优)即可。
以下语音自训练平台资源将于3月31日下线,为避免影响您的服务,请您尽快将服务切换升级:
- dev_pid=8001
- dev_pid=8002
- dev_pid=8003
升级方式:点击进入新版语音自训练平台,创建您的专属语音识别模型,具体操作请见:使用文档
若您有任何问题,可提交工单与我们联系,我们将结合您的服务使用情况提供合适的解决方案支持,感谢您的理解和配合!
2023-01-19
长文本在线合成支持字、句时间戳
产品分类:语音合成
功能描述:长文本在线合成服务,新增支持合成结果返回字、句粒度时间戳。
适用场景:小说听书、新闻播报等场景,帮助您实现边听边读、回听定位等效果,提升用户体验!
接入文档:长文本在线合成API
2022-11-24
【服务升级公告】
尊敬的百度语音客户您好!
百度语音服务将于22年11月29日至12月30日进行服务升级,短文本在线合成、实时语音识别服务升级支持多地域并发合并统计,并发配额资源可在多个地域间共享,更好保障跨地域实时服务稳定性。
若您在升级期间出现任何问题,可提交工单与我们联系,我们将结合您的服务使用情况提供合适的解决方案支持,感谢您的理解和配合!