文本标准化
Wolfram 语言为文本分析、可视化等中的文本标准化提供强大的基于知识的工具.
字符级别的标准化
ToLowerCase, ToUpperCase — 把所有字符转换为小写、大写
IgnoreCase — 忽略字母大小写的选项
RemoveDiacritics — 去除变音符号,例如音标、元音变音等
CharacterNormalize — 简化或分解字符为正常格式(例如: ¼ 1⁄4, ï ī )
Transliterate — 翻译为 ASCII 或其他编写脚本
PrintableASCIIQ — 检验字符串是否只包含可打印的 ASCII 字符
CharacterEncoding — 指定假设的字符编码
结构化字符串的标准化
StringSplit — 在换行或其他分隔符处分割字符串
StringDelete — 删除子字符串或模式
StringReplace — 替代子字符串或模式
StringDrop ▪ StringTake ▪ StringCases
StringTrim — 删减字符串中的空格或其他模式
StringPadLeft, StringPadRight — 填充至固定的长度
StringExtract — 提取字符串的指定部分
文本级别的标准化
TextSentences — 提取句子列表
TextWords — 提取单词列表
DeleteStopwords — 删除标准的停用词("the"、"and"等)
内容提取
TextCases — 提取符号式指定的元素
Containing ▪ Alternatives ▪ Entity
形态及语言标准化
WordStem — 把单词简化为词干
DictionaryLookup — 在字典中查找单词
Interpreter — 把自然语言转换为许多形式
SpellingCorrectionList — 用于错误拼写单词的拼写建议列表
DictionaryWordQ — 检验单词是否是正确拼写的字典单词
语言翻译
LanguageIdentify — 识别是何种语言文本
WordTranslation — 翻译单词
TextTranslation — 使用已集成的外部服务翻译文本
单词列表标准化
AlphabeticSort — 把字符串按字母顺序排序
WordCounts ▪ LetterCounts ▪ CharacterCounts
WordFrequency — 词频或文本中的 元
WordFrequencyData — 在典型文本中整个词频的数据
基于 LLM 的标准化 »
LLMResourceFunction — 根据 Wolfram Prompt Repository 应用操作
LLMExampleFunction ▪ LLMFunction ▪ LLMTool ▪ ...
外部数据的标准化
Import — 从文件或网页中导入数据
"Text", "PDF", "TeX", "HTML" — 提取纯文本、表格数据等
ImportString — 转换带有特殊外部格式的字符串