DOCX (.docx, .docm)

背景

    • 注册的 MIME 类型:application/vnd.openxmlformats-officedocument.wordprocessingml.document
    • Microsoft Word 文档文件.
    • Microsoft Word 2007 及更高版本的标准格式.
    • 也称为 Office Open XML 文档.
    • 基于 XML 的文件包
    • 存储文本、表格和图形.

导入

  • Import["file.docx"] 将 DOCX 文件作为字符串导入.
  • Import["file.docx",elements] 导入指定的元素.
  • 导入格式可以通过 Import["file","DOCX"]Import["file",{"DOCX",elem,}] 指定.
  • 请参阅以下参考页面了解完整的通用信息:
  • Import从文件导入
    CloudImport从云对象导入
    ImportString从字符串导入
    ImportByteArray从字节数组导入

导入元素

  • 通用 Import 元素:
  • "Elements" 该文件中可用的元素和选项列表
    "Summary"文件摘要
    "Rules"所有可用元素的规则列表
  • 数据表示元素:
  • "Plaintext"给出整个文档文本内容的字符串
    "FormattedText"整个文档的格式化文本的序列
  • 嵌入媒体元素:
  • "EmbeddedImageNames"捆绑包中的图像文件名列表
    "EmbeddedImages"嵌入图像的列表
  • 元数据元素:
  • "CreationDate"文档的创建日期,以 DateObject 形式给出
    "Creator"创建内容的程序
    "Description"文档说明
    "Language"文档语言
    "LastModifiedBy"最后修改该文件的作者
    "ModificationDate"文档的修改日期,以 DateObject 形式给出
    "RawMetaInformation"以字符串和日期对象形式给出的元数据
    "RevisionNumber"文档已保存的次数
    "Subject"文档的主题
    "Title"文档的标题

范例

打开所有单元关闭所有单元

基本范例  (2)

导入 DOCX 文件:

导入 DOCX 文件的摘要:

范围  (2)

Import  (2)

从 DOCX 文件导入纯文本:

导入一些元数据:

导入元素  (15)

可用元素  (1)

可用元素列表:

数据表示  (2)

"Plaintext"  (1)

从整个文档导入文本:

"FormattedText"  (1)

从整个文档导入格式化文本:

嵌入媒体元素  (2)

"EmbeddedImageNames"  (1)

导入嵌入图像的名称:

"EmbeddedImage"  (1)

导入嵌入图像:

Metadata  (10)

"CreationDate"  (1)

导入文档的创建日期:

"Creator"  (1)

导入文档的创建者:

"Description"  (1)

导入文档的说明:

"Language"  (1)

导入文档的语言:

"LastModifiedBy"  (1)

导入最后修改该文件的作者:

"ModificationDate"  (1)

导入文档的修改日期:

"RawMetaInformation"  (1)

从文件导入元数据:

"RevisionNumber"  (1)

导入修订版本号:

"Subject"  (1)

导入文档的主题:

"Title"  (1)

导入文档的标题: