音色创建与管理
音色创建
获取训练文本(非必需)
接口描述
接口描述:通过此接口获取用于训练的文本,使用此接口则创建音色时需要上传与此文本内容对应的音频;若希望使用自定义复刻,无需调用本接口,在创建音色接口处无需填写音频文本ID,其他参数保持不变。
接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text
请求方法:POST
输入参数
属性 |
参数名称 | 类型 | 是否必填 |
说明 |
|---|---|---|---|---|
| 鉴权令牌 | access_token | string | 鉴权方式二选一 | 鉴权令牌 |
| 鉴权API Key | Authorization | string | 鉴权方式二选一 | 鉴权API Key |
输出参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 错误状态 | status | int | |
| 错误信息 | message | string | |
| 数据 | data | object | 响应数据 |
data响应参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 文本ID | text_id | string | 唯一文本id(获取文本id后,文本id有效期为24小时,每个文本id创建音色后自动失效) |
| 文本内容 | text | string |
示例
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/text?access_token=XXX'
上传训练音色
接口描述
接口描述:通过上传训练音频来创建音色,支持音频链接与音频内容两种音频上传方式
接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create
请求方法:POST
输入参数
属性 |
参数名称 | 类型 | 是否必填 |
说明 |
|---|---|---|---|---|
| 鉴权令牌 | access_token | string | 鉴权方式二选一 | 鉴权令牌 |
| 鉴权API Key | Authorization | string | 鉴权方式二选一 | 鉴权API Key |
| 音色名称 | voice_name | string | 必填 | 音色名称,同一个用户下面,音色名称不能重复 |
| 音色描述 | voice_desc | string | 可选 | 音色说明 |
| 音频链接 | audio_url | string | 音频链接和音频内容二选一 | 两个参考同时传:以 audio_file 为准支持:wav、mp3、ogg、aac。音频大小 5M以内,5~20 秒内 |
| 音频内容 | audio_file | string | 音频链接和音频内容二选一 | 音频文件内容base64 支持上传方言进行复刻和迁移,范围包括河南话、上海话、四川话、湖南话、贵州话 |
| 音频文本ID | text_id | string | 选填 | 即文本ID,使用自定义文本复刻则无需填写 |
输出参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 错误状态 | status | int | 0 创建成功,其他为异常 |
| 错误信息 | message | string | |
| 数据 | data | object | 对应发音人ID |
data响应参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 音色 ID | voice_id | int | 唯一id |
示例
- 通过音频URL创建音色
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXXX' \
2--header 'Content-Type: application/json' \
3--data '{
4 "voice_name": "example",
5 "voice_desc": "温柔细腻的音色",
6 "audio_url": "https://bj.bcebos.com/example.wav",
7 "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
8}'
- 通过音频-base64 编码创建音色
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/create?access_token=XXX' \
2--header 'Content-Type: application/json' \
3--data '{
4 "voice_name": "example",
5 "voice_desc": "温柔细腻的音色",
6 "audio_file": "音频 Base64 编码",
7 "text_id": "text_5692181d-8825-40ec-b80f-87b79e3a9345"
8}'
大模型声音复刻的音色创建说明:
通过以上接口创建的音色,若在1年内没有调用合成记录,该音色将被删除,后续将无法使用。
大模型声音复刻和迁移能力说明:
大模型声音复刻分为复刻和迁移两种能力。复刻指保留声音语种/方言等特征的能力,迁移指保持音色特征的同时增加语种/方言等特征的能力。例如:
- 创建音色时输入普通话,合成普通话=复刻
- 创建音色时输入河南话,合成河南话=复刻
- 创建音色时输入普通话,合成河南话=迁移
目前支持河南话、上海话、四川话三种方言的复刻及迁移。为确保方言复刻迁移效果,建议您使用普通话或对应方言进行音色创建。
音色管理
音色列表查询
接口描述
接口描述:获取用户已经创建的音色列表
接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list
请求方法:POST
输入参数
| 属性 | 参数名称 | 类型 | 是否必填 | 说明 |
|---|---|---|---|---|
| 鉴权令牌 | access_token | string | 鉴权方式二选一 | 鉴权令牌 |
| 鉴权API Key | Authorization | string | 鉴权方式二选一 | 鉴权API Key |
| 页码 | page | int | 选填 | 列表页面:page>=1 |
输出参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 错误状态 | status | int | 0代表成功,其他为异常 |
| 错误信息 | message | string | |
| 数据 | data | object | 音色列表信息 |
data响应参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 总数 | total | int | |
| 页码 | page | int | |
| 每页数量 | page_size | int | |
| 音色列表 | items | object [ ] |
items响应参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 音色 ID | voice_id | int | 训练后的音色 ID |
| 音色名称 | voice_name | string | 音色名称 |
| 音色描述 | voice_desc | string | 音色说明 |
| 创建时间 | create_time | string | 创建时间,Unix 时间戳 |
| 状态 | status | int | 恒等于 0 |
示例
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/list?access_token=XXX' \
2--data '{
3 "page": 1
4}'
音色详情查询
接口描述
接口描述:根据音色ID查询音色的详情信息
接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail
请求方法:POST
输入参数
| 属性 | 参数名称 | 类型 | 是否必填 | 说明 |
|---|---|---|---|---|
| 鉴权令牌 | access_token | string | 鉴权方式二选一 | 鉴权令牌 |
| 鉴权API Key | Authorization | string | 鉴权方式二选一 | 鉴权API Key |
| 音色ID | voice_id | int | 必填 |
输出参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 错误状态 | status | int | 0代表成功,其他为异常 |
| 错误信息 | message | string | |
| 数据 | data | object | 音色详情信息 |
data响应参数
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 音色 ID | voice_id | int | 训练后的音色 ID |
| 音色名称 | voice_name | string | 音色名称 |
| 音色描述 | voice_desc | string | 音色说明 |
| 音色状态 | status | int | 恒等于 0 |
| 创建时间 | create_time | string | 创建时间 |
示例
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/detail?access_token=XXX' \
2--header 'Content-Type: application/json' \
3--data '{
4 "voice_id": 1063622
5}'
删除音色
接口描述
接口描述:对已经创建的音色进行删除
接口名称:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete
请求方法:POST
输入参数
| 属性 | 参数名称 | 类型 | 是否必填 | 说明 |
|---|---|---|---|---|
| 鉴权令牌 | access_token | string | 鉴权方式二选一 | 鉴权令牌 |
| 鉴权API Key | Authorization | string | 鉴权方式二选一 | 鉴权API Key |
| 音色ID | voice_id | int | 必填 |
输出参数
通过返回的status判断是否成功,如失败则查看message获得具体错误信息
| 属性 | 参数名称 | 类型 | 说明 |
|---|---|---|---|
| 错误状态 | status | int | 0 删除成功,1 删除异常 |
| 错误信息 | message |
示例
1curl --silent --location --request POST 'https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/voice/clone/delete?access_token=XXX' \
2--header 'Content-Type: application/json' \
3--data '{
4 "voice_id": 1063622
5}'
