Parquet (.parquet)
予備知識
-
- 登録されているMIME タイプ: application/vnd.apache.parquet
- 効率的で汎用的な列指向のデータ形式.
- Apache Software Foundationによって開発された.
- バイナリファイル形式.
- 複数の圧縮方式をサポートしている.
ImportとExport
- Import["file.parquet"] はParquetファイルをTabularオブジェクトとしてインポートする.
- Import["file.parquet",elem]は指定の要素をインポートする.
- Import["file.parquet",{elem,subelem1,…}] は部分要素subelemiをインポートする.これは部分的なデータインポートに役立つ.
- インポート形式は Import["file","Parquet"] または Import["file",{"Parquet",elem,…}]で指定できる.
- Export["file.parquet",expr] exprからParquetファイルを生成する.
- サポートする式 expr は以下を含む:
-
{v1,v2,…} データ単一列 {{v11,v12,…},{v21,v22,…},…} データ行のリスト array SparseArray,QuantityArrayなどの配列 dataset Dataset オブジェクトまたはTabularオブジェクト - 一般的な情報は,以下の関数ページを参照のこと.
-
Import, Export ファイルからインポートする,あるいはファイルへエキスポートする CloudImport, CloudExport クラウドオブジェクトからインポートする,あるいはクラウドオブジェクトへエキスポートする ImportString, ExportString 文字列からインポートする,あるいは文字列へエキスポートする ImportByteArray, ExportByteArray バイト配列からインポートする,あるいはバイト配列へエキスポートする
Import要素
- 一般的なImport要素:
-
"Elements" ファイル中の有効な要素とオプションのリスト "Summary" ファイルの概要 "Rules" 使用可能なすべての要素の規則のリスト - データ表現要素:
-
"Data" 2次元配列 "Dataset" Datasetとしての表データ "Tabular" Tabularオブジェクト - デフォルトでは,Importは"Tabular" 要素を使用する.
- "Tabular"要素の部分的なインポートにおける部分要素は{"Tabular",rows,cols}という形式で行と列を指定することができる.ここで,rows と cols は以下のいずれでもよい:
-
n n 番目の行または列 -n 最後から数える n;;m n から m まで n;;m;;s n から m までステップ s で {n1,n2,…} 特定の行または列 ni - データ記述子要素:
-
"ColumnLabels" 列の名前 "ColumnTypes" 各列のデータ型の連想 "Schema" TabularSchemaオブジェクト - メタデータ要素:
-
"ColumnCount" ファイルに保存されている列の数 "Dimensions" データ次数 "RowCount" ファイルに保存されている行の数 "MetaInformation" メタデータ
オプション
- 一般的なImport オプション:
-
IncludeMetaInformation All インポートするためのメタデータ型 "Schema" Automatic Tabularオブジェクトの構築に使用するスキーマ - 一般的なExportオプション:
-
"Compression" None 圧縮方法 CompressionLevel Automatic 圧縮のレベル - "Compression"の設定は以下をサポートする:
-
None 圧縮なし "Brotli" Brotli 圧縮 "GZIP" GZIP 圧縮 "LZ4" LZ4 圧縮 "LZ4Hadoop" LZ4 Hadoop 圧縮 "Snappy" Snappy 圧縮 "ZSTD" ZSTD 圧縮