表形式データのクリーニング

データのクリーニングは,データを準備し,追加で処理するために障害を取り除く過程である.データのクリーニングには,データサイエンスプロジェクトにおける大量のリソースの使用を必要とすることが多いので,さまざまなクリーニングタスクに対して複数のツールを提供することにより,クリーニングをルーティンにし,より自動化することができる. Wolfram言語は,データのクリーニングツールの豊かなコレクションを提供する.列を分割あるいは結合することから,列の値と名前の間で変換することまで,データの構造を変更するための構造のクリーニングツールがある.また,追加の処理を行う際に妨げとなる欠落値や外れ値を処理するための値のクリーニングツールもある.

列のキー

ColumnKeys 列のキーを得る

RenameColumns 列のキーを設定する

列の型

ColumnTypes 列の型を得る

CastColumns 列の型を設定する

列の再編成

TransformColumns 列を分割したり結合したりする

DeleteColumns  ▪  InsertColumns

表形式データの値の再構築

PivotToColumns 1つの列の値を複数の列に広げる

PivotFromColumns 複数の列からの値を1つにまとめる

欠落値の処理

TransformMissing 欠落値をどのように処理するか,値をどのように帰属させるか等

MissingFallback  ▪  MissingValuePattern  ▪  Missing

極値の処理 »

TransformAnomalies 極値をどのように処理するか,値をどのように切り取るか等

FindAnomalies  ▪  DeleteAnomalies  ▪  Clip  ▪  ...