"GoogleSpeech" (サービス接続)
Wolfram言語でGoogleのText-to-SpeechとSpeech-to-TextのAPIを使う.
接続と認証
ServiceConnect["GoogleSpeech"]は,GoogleのSpeech-to-TextとText-to-SpeechのAPIへの接続を確立する.それまでに保存された接続が見付かった場合は,それが使われる.それ以外の場合は,新たな認証リクエストが起動される.
リクエスト
ServiceExecute["GoogleSpeech","request",params]は,パラメータ params を使って,GoogleのSpeech-to-Text APIまたはText-to-Speech APIにリクエストを送る.以下は使用可能なリクエストである.
テキストから音声を合成する
"ListVoices" — 使用可能な声のスタイルのリストを返す
Language | All | クエリを指定言語を合成できる音声に制限する |
"Synthesize" — テキストから合成された音声を返す
"Input" | (必須) | 合成するテキスト | |
"Voice" | Automatic | 合成した声の名前 | |
Language | Automatic | 合成した声の言語 | |
"Pitch" | Automatic | ネイティブの声のピッチから半音のずれ | |
"Rate" | Automatic | ネイティブの音声速度を変更する係数 | |
AudioEncoding | Automatic | 出力音声の符号化 | |
GeneratedAssetLocation | $GeneratedAssetLocation | 合成された音声の保存場所 | |
GeneratedAssetFormat | Automatic | 合成された音声の出力形式 | |
"EffectsProfileID" | Automatic | 音声に適用された後処理効果名 |
音声からのテキスト認識
"Recognize" — 音声から文字起ししたテキストを返す
"Input" | (必須) | 文字起しする音声 | |
Language | "English" | 含まれている音声の言語 | |
"ChannelRecognition" | False | 各チャンネルを別々に文字起しするかどうか | |
MaxItems | 1 | 返す仮説の最大数 | |
"ProfanityFilter" | False | 冒涜的な言葉を置き換えるかどうか | |
"SpeechContexts" | {} | 文字起しに役立つフレーズのヒント | |
"WordTimeOffsets" | True | 結果を含む単語時間オフセットを返す | |
"WordConfidence" | False | 単語の信頼値を結果とともに返す | |
"Punctuation" | True | 文字起しに句読点を含む | |
"SpokenPunctuation" | False | 音声の句読点をASCII文字に置き換える | |
"SpokenEmojis" | False | 音声の絵文字をUnicode文字に置き換える | |
"SpeakerDiarization" | False | 結果内の異なる話者にタグを付ける | |
"Model" | Automatic | リクエストで使うモデルを指定する | |
MetaInformation | None | 入力音声を説明するメタデータ |