"GoogleSpeech" (サービス接続)

Wolfram言語でGoogleのText-to-SpeechとSpeech-to-TextのAPIを使う.

接続と認証

ServiceConnect["GoogleSpeech"]は,GoogleのSpeech-to-TextとText-to-SpeechのAPIへの接続を確立する.それまでに保存された接続が見付かった場合は,それが使われる.それ以外の場合は,新たな認証リクエストが起動される.
この接続にはインターネットアクセスとGoogle APIのアカウントが必要である.

リクエスト

ServiceExecute["GoogleSpeech","request",params]は,パラメータ params を使って,GoogleのSpeech-to-Text APIまたはText-to-Speech APIにリクエストを送る.以下は使用可能なリクエストである.

テキストから音声を合成する

リクエスト:

"ListVoices" 使用可能な声のスタイルのリストを返す

パラメータ:
  • LanguageAllクエリを指定言語を合成できる音声に制限する
  • リクエスト:

    "Synthesize" テキストから合成された音声を返す

    パラメータ:
  • "Input"(必須)合成するテキスト
    "Voice"Automatic合成した声の名前
    LanguageAutomatic合成した声の言語
    "Pitch"Automaticネイティブの声のピッチから半音のずれ
    "Rate"Automaticネイティブの音声速度を変更する係数
    AudioEncodingAutomatic出力音声の符号化
    GeneratedAssetLocation$GeneratedAssetLocation合成された音声の保存場所
    GeneratedAssetFormatAutomatic合成された音声の出力形式
    "EffectsProfileID"Automatic音声に適用された後処理効果名
  • 音声からのテキスト認識

    リクエスト:

    "Recognize" 音声から文字起ししたテキストを返す

    パラメータ:
  • "Input"(必須)文字起しする音声
    Language"English"含まれている音声の言語
    "ChannelRecognition"False各チャンネルを別々に文字起しするかどうか
    MaxItems1返す仮説の最大数
    "ProfanityFilter"False冒涜的な言葉を置き換えるかどうか
    "SpeechContexts"{}文字起しに役立つフレーズのヒント
    "WordTimeOffsets"True結果を含む単語時間オフセットを返す
    "WordConfidence"False単語の信頼値を結果とともに返す
    "Punctuation"True文字起しに句読点を含む
    "SpokenPunctuation"False音声の句読点をASCII文字に置き換える
    "SpokenEmojis"False音声の絵文字をUnicode文字に置き換える
    "SpeakerDiarization"False結果内の異なる話者にタグを付ける
    "Model"Automaticリクエストで使うモデルを指定する
    MetaInformationNone入力音声を説明するメタデータ
  • パラメータの詳細

    "Voice"の可能な値は"ListVoices"リクエストを使って取り出せる.
    "Rate"の可能な値は因子を表す実数(1が自然なレート)である.
    "Pitch"の可能な値は実数または半音を表す数量(0は自然のピッチ)である.
    "SpeakerDiarization"は,{max}または{min,max}として検出する話者数を取る.
    "SpeechContexts"の可能な設定には以下がある.
  • strw文字列 str に重み w を与える
    {str1w1,str2w2,}文字列 striに重み wiを与える
  • 次は,"EffectsProfileID"の可能な設定例である.
  • "large-automotive-class-device"車内の話者に最適化
    "small-bluetooth-speaker-class-device"小さい家の中の話者に最適化
  • 次は,"Model"の可能な設定例である.
  • "latest_long"長形式の内容に最適化
    "latest_short"短形式の内容に最適化
    "command_and_search"短いクエリに最適化
  • 例題

    すべて開くすべて閉じる

      (1)

    Google Speech Serviceに接続する:

    Text-to-Speechを行う:

    Speech-to-Textを行う:

    スコープ  (2)

    音声合成  (1)

    テキストから音声を合成するん:

    テキストを異なる言語に合成する."Language"Automaticに設定すると,入力テキストから言語が推測される.特定の言語を指定することもできる.このサービスは,リクエストされた言語の声のスタイルを選ぼうとする:

    明示的な言語を使う:

    使用可能な声のスタイルをリストにする:

    特定の声を使って音声を合成する:

    音声を速くしてピッチを下げる:

    音声認識  (1)

    音声を含む音から文字起しする:

    デフォルトで,API応答からのあらゆるものが認識された単語の情報を含めて返される:

    文字起しについての複数の推測を返す:

    録音中の異なる話者を分ける:

    話者の最小数と最大数を指定する:

    Datasetでラベルが付いている単語を表示する.APIは,このファイルの執筆時点では,2番目の結果で単語に話者のラベルを返す: