"GoogleSpeech" (サービス接続)

Wolfram言語でGoogleのText-to-SpeechとSpeech-to-TextのAPIを使う．

接続と認証

ServiceConnect["GoogleSpeech"]は，GoogleのSpeech-to-TextとText-to-SpeechのAPIへの接続を確立する．それまでに保存された接続が見付かった場合は，それが使われる．それ以外の場合は，新たな認証リクエストが起動される．

この接続にはインターネットアクセスとGoogle APIのアカウントが必要である．

リクエスト

ServiceExecute["GoogleSpeech","request",params]は，パラメータ params を使って，GoogleのSpeech-to-Text APIまたはText-to-Speech APIにリクエストを送る．以下は使用可能なリクエストである．

テキストから音声を合成する

リクエスト：

"ListVoices" — 使用可能な声のスタイルのリストを返す

パラメータ：

Language

All

クエリを指定言語を合成できる音声に制限する

リクエスト：

"Synthesize" — テキストから合成された音声を返す

パラメータ：

"Input"	（必須）	合成するテキスト
"Voice"	Automatic	合成した声の名前
Language	Automatic	合成した声の言語
"Pitch"	Automatic	ネイティブの声のピッチから半音のずれ
"Rate"	Automatic	ネイティブの音声速度を変更する係数
AudioEncoding	Automatic	出力音声の符号化
GeneratedAssetLocation	$GeneratedAssetLocation	合成された音声の保存場所
GeneratedAssetFormat	Automatic	合成された音声の出力形式
"EffectsProfileID"	Automatic	音声に適用された後処理効果名

音声からのテキスト認識

リクエスト：

"Recognize" — 音声から文字起ししたテキストを返す

パラメータ：

"Input"	（必須）	文字起しする音声
Language	"English"	含まれている音声の言語
"ChannelRecognition"	False	各チャンネルを別々に文字起しするかどうか
MaxItems	1	返す仮説の最大数
"ProfanityFilter"	False	冒涜的な言葉を置き換えるかどうか
"SpeechContexts"	{}	文字起しに役立つフレーズのヒント
"WordTimeOffsets"	True	結果を含む単語時間オフセットを返す
"WordConfidence"	False	単語の信頼値を結果とともに返す
"Punctuation"	True	文字起しに句読点を含む
"SpokenPunctuation"	False	音声の句読点をASCII文字に置き換える
"SpokenEmojis"	False	音声の絵文字をUnicode文字に置き換える
"SpeakerDiarization"	False	結果内の異なる話者にタグを付ける
"Model"	Automatic	リクエストで使うモデルを指定する
MetaInformation	None	入力音声を説明するメタデータ

パラメータの詳細

"Voice"の可能な値は"ListVoices"リクエストを使って取り出せる．

"Rate"の可能な値は因子を表す実数（1が自然なレート）である．

"Pitch"の可能な値は実数または半音を表す数量（0は自然のピッチ）である．

"SpeakerDiarization"は，{max}または{min,max}として検出する話者数を取る．

"SpeechContexts"の可能な設定には以下がある．

	strw	文字列 str に重み w を与える
	{str₁w₁,str₂w₂,…}	文字列 str_iに重み w_iを与える

次は，"EffectsProfileID"の可能な設定例である．

	"large-automotive-class-device"	車内の話者に最適化
	"small-bluetooth-speaker-class-device"	小さい家の中の話者に最適化

次は，"Model"の可能な設定例である．

	"latest_long"	長形式の内容に最適化
	"latest_short"	短形式の内容に最適化
	"command_and_search"	短いクエリに最適化

例題

すべて開くすべて閉じる

例 (1)

Google Speech Serviceに接続する：

Text-to-Speechを行う：

Speech-to-Textを行う：

スコープ (2)

音声合成 (1)

テキストから音声を合成するん：

テキストを異なる言語に合成する．"Language"をAutomaticに設定すると，入力テキストから言語が推測される．特定の言語を指定することもできる．このサービスは，リクエストされた言語の声のスタイルを選ぼうとする：

明示的な言語を使う：

使用可能な声のスタイルをリストにする：

特定の声を使って音声を合成する：

音声を速くしてピッチを下げる：

音声認識 (1)

音声を含む音から文字起しする：

デフォルトで，API応答からのあらゆるものが認識された単語の情報を含めて返される：

文字起しについての複数の推測を返す：

録音中の異なる話者を分ける：

話者の最小数と最大数を指定する：

Datasetでラベルが付いている単語を表示する．APIは，このファイルの執筆時点では，2番目の結果で単語に話者のラベルを返す：

トップへ

その他のラーニングリソース

テクニカルサポート

大人用の教育プログラム

若者のための教育プログラム

イベント

Wolframイニシアチブ

教育リソース

趣味とプロジェクト

Wolframソリューション

教育のためのWolframソリューション

使い始める

Grow Your Skills

Wolframと繋がる

読む

大人用の教育プログラム

若者のための教育プログラム

イベント

"GoogleSpeech" (サービス接続)

接続と認証

リクエスト

テキストから音声を合成する

音声からのテキスト認識

パラメータの詳細

例題

例 (1)

スコープ (2)

音声合成 (1)

音声認識 (1)

"GoogleSpeech" (サービス接続)

接続と認証

リクエスト

テキストから音声を合成する

音声からのテキスト認識

パラメータの詳細

例題

例 (1)

スコープ (2)

音声合成 (1)

音声認識 (1)

関連項目

履歴