文本标准化

Wolfram 语言为文本分析、可视化等中的文本标准化提供强大的基于知识的工具.

字符级别的标准化

ToLowerCase, ToUpperCase 把所有字符转换为小写、大写

IgnoreCase 忽略字母大小写的选项

RemoveDiacritics 去除变音符号,例如音标、元音变音等

CharacterNormalize 简化或分解字符为正常格式(例如: ¼ 1⁄4, ï )

Transliterate 翻译为 ASCII 或其他编写脚本

PrintableASCIIQ 检验字符串是否只包含可打印的 ASCII 字符

CharacterEncoding 指定假设的字符编码

结构化字符串的标准化

StringSplit 在换行或其他分隔符处分割字符串

StringDelete 删除子字符串或模式

StringReplace 替代子字符串或模式

StringDrop  ▪  StringTake  ▪  StringCases

StringTrim 删减字符串中的空格或其他模式

StringPadLeft, StringPadRight 填充至固定的长度

StringExtract 提取字符串的指定部分

文本级别的标准化

TextSentences 提取句子列表

TextWords 提取单词列表

DeleteStopwords 删除标准的停用词("the"、"and"等)

内容提取

TextCases 提取符号式指定的元素

Containing  ▪  Alternatives  ▪  Entity

形态及语言标准化

WordStem 把单词简化为词干

DictionaryLookup 在字典中查找单词

Interpreter 把自然语言转换为许多形式

SpellingCorrectionList 用于错误拼写单词的拼写建议列表

DictionaryWordQ 检验单词是否是正确拼写的字典单词

语言翻译

LanguageIdentify 识别是何种语言文本

WordTranslation 翻译单词

TextTranslation 使用已集成的外部服务翻译文本

单词列表标准化

AlphabeticSort 把字符串按字母顺序排序

WordCounts  ▪  LetterCounts  ▪  CharacterCounts

WordFrequency 词频或文本中的

WordFrequencyData 在典型文本中整个词频的数据

基于 LLM 的标准化 »

LLMResourceFunction 根据 Wolfram Prompt Repository 应用操作

LLMExampleFunction  ▪  LLMFunction  ▪  LLMTool  ▪  ...

外部数据的标准化

Import 从文件或网页中导入数据

"Text", "PDF", "TeX", "HTML" 提取纯文本、表格数据等

ImportString 转换带有特殊外部格式的字符串