SpeechRecognize
SpeechRecognize[audio]
识别 audio 中的语音并以字符串形式返回.
SpeechRecognize[audio,level]
返回指定结构层级上的字符串列表.
SpeechRecognize[audio,level,prop]
返回指定层级上的文字的 prop.
更多信息和选项
- 语音识别旨在将语音音频信号转换为文字. 它也称为“语音转文字”,通常用于启用语音的人机交互和数字个人助手.
- SpeechRecognize[audio] 以单个字符串返回 audio 中所有识别的语音.
- level 指定的结构元素包括:
-
Automatic 在所有音频信号中找到的语音(默认) "Segment" 转录片段列表 "Sentence" 句子列表 "Word" 单词列表 - 属性 prop 可为以下内容:
-
"Audio" 包含已识别文本的修剪过的音频 "Confidence" 识别出的文字的强度 "Interval" 包含特定文字的片段 "SubtitleRules" 时间段和文字列表 "Text" 识别出的文本(默认) {prop1,prop2,…} 属性列表 - 可以给出以下选项:
-
Language Automatic 要识别的语种 Masking All 兴趣区间 Method Automatic 使用方法 PerformanceGoal $PerformanceGoal 优化的目标 ProgressReporting $ProgressReporting 是否报告计算进度 TargetDevice "CPU" 执行识别的设备 - 用 Languagelang1lang2 识别假定语言为 lang1 的语音,返回翻译成 lang2 的文本.
- 默认情况下,识别整个信号中的语音. 使用 Masking->{int1,int2,…} 限制识别为区间 inti.
- Method 的可能设置有:
-
Automatic 自动选择方法 "GoogleSpeech" 使用谷歌语音转文字 "NeuralNetwork" 使用内置神经网络 "OpenAI" 使用 OpenAI 语音转文字 - 默认情况下,如果某种方法返回非语音 token(如 [applause]),将在结果中返回这些内容. 可通过 Method{method,"NonSpeechReplacement"replacements} 指定不同的内容进行替换. 也可用 "NonSpeechReplacement""" 删除这些内容.
- SpeechRecognize 适用于英语语音以及各种其他语言,例如中文、荷兰语、法语、日语和西班牙语.
- SpeechRecognize 使用机器学习. 在不同版本的 Wolfram 语言中,其方法、训练集和偏差可能会改变并给出不同的结果.
- SpeechRecognize 可能下载资源存储在 $LocalBase 的本地对象存储并使用 LocalObjects[] 列出,使用 ResourceRemove 删除.
范例
打开所有单元关闭所有单元
Wolfram Research (2019),SpeechRecognize,Wolfram 语言函数,https://reference.wolfram.com/language/ref/SpeechRecognize.html (更新于 2024 年).
文本
Wolfram Research (2019),SpeechRecognize,Wolfram 语言函数,https://reference.wolfram.com/language/ref/SpeechRecognize.html (更新于 2024 年).
CMS
Wolfram 语言. 2019. "SpeechRecognize." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/SpeechRecognize.html.
APA
Wolfram 语言. (2019). SpeechRecognize. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/SpeechRecognize.html 年