"GoogleSpeech" (服务连接)
将 Google Text-to-Speech 和 Speech-to-Text API 与 Wolfram 语言结合使用.
连接与认证
ServiceConnect["GoogleSpeech"] 创建与 Google Speech-to-Text 和 Text-to-Speech API 的连接. 如果可以找到之前保存的连接,则将使用该连接;否则,将发起新的身份认证请求.
请求
ServiceExecute["GoogleSpeech","request",params] 使用参数 params 向 Google Speech-to-Text 和 Text-to-Speech API 发送请求. 下面给出了可能的请求.
根据文本合成音频
Language | All | 将查询限制为能够合成给定语言的语音 |
"Input" | (必需) | 要合成的文字 | |
"Voice" | Automatic | 合成的声音的名称 | |
Language | Automatic | 合成语音的语言 | |
"Pitch" | Automatic | 与母语音调的半音偏差 | |
"Rate" | Automatic | 改变母语语音速度的因子 | |
AudioEncoding | Automatic | 输出音频的编码 | |
GeneratedAssetLocation | $GeneratedAssetLocation | 保存合成音频的位置 | |
GeneratedAssetFormat | Automatic | 合成音频的输出格式 | |
"EffectsProfileID" | Automatic | 应用于语音的后处理效果名称 |
从音频中识别出文字
"Input" | (必需) | 要转录的音频 | |
Language | "English" | 语音中包含的语种 | |
"ChannelRecognition" | False | 是否单独转录每个通道 | |
MaxItems | 1 | 最多返回多少个假设 | |
"ProfanityFilter" | False | 是否尝试取代脏话 | |
"SpeechContexts" | {} | 有助于转录的短语提示 | |
"WordTimeOffsets" | True | 同时返回结果和字词时间偏移值( word time offset) | |
"WordConfidence" | False | 返回单词置信度值和结果 | |
"Punctuation" | True | 在转录中包含标点符号 | |
"SpokenPunctuation" | False | 用 ASCII 字符替换语音标点符号 | |
"SpokenEmojis" | False | 用 Unicode 字符替换语音表情符号 | |
"SpeakerDiarization" | False | 在结果中标记不同的说话者 | |
"Model" | Automatic | 指定用于请求的模型 | |
MetaInformation | None | 描述输入音频的元数据 |