How to | Webサイトからインポートしたデータを整理する方法
Mathematica の接続とデータ処理の機能は,Webサイトに表示されるデータをインポートして解析するのに理想的である.ほとんどの場合,これは比較的簡単に行うことができる.しかし,このノートブックの例に見られるように,すべてのWebサイトにおいてデータが簡単にアクセスできる形式で掲載されているわけではない.そのような場合にでも Mathematica では,ほんの数ステップでこれらの操作を行うことができる.
アメリカ国勢調査局は,アメリカと中国の間の貿易収支についてのデータを管理している.アメリカ国勢調査局のWebサイトには,1985年から2010年にかけての月ごとのデータが示されている.
Mathematica では要素と呼ばれる部分のリストを見ることから始める.要素はWebサイトからインポートすることができる:
| Out[1]= |  |
要素をインポートする.以下の例では,大量のデータがインポートされるので,セミコロン(
)を使って出力が制御されている.「
」を付けずにImportコマンドを評価すると,インポートされたデータがすべて表示される:
Shortを使ってデータの一部だけを見る:
Out[3]//Short= |
| |  |
出力の大部分は表示されていないが,関心データが
,
,
,
という4つの要素からなるリストに含まれていることが見て取れるであろう.したがって,4つの要素だけを含むリストを抽出することによってすべてのデータを得ることができる.データだけが確実に得られるように,最後の要素が数値である4つの要素のリストすべてを抽出する.
リストに入れた4つの下線文字と一緒にCasesを使って,4つの要素だけを持つリストを抽出する.下線文字はパターンオブジェクトであり,任意の Mathematica 式を表すことができる.最後の下線文字に?NumericQを加えることによって,4番目で最終の要素が数値であるリストだけを確実に得ることができる.Casesの最終引数として
を使って,ネストしたリスト
のすべてのレベル内でパターンが検索されるように指定する:
もう一度Shortを使ってデータの一部だけを見る:
Out[5]//Short= |
| |  |
出力は1985年12月に始まり,1992年3月まで続くので,データの一部は返されていない.いろいろな形式がデータの表に含まれていると,このような問題がよく起る.
この場合,いくつかの入力で数字は文字列として表示されている.このためこれらの入力は,各リストの第4要素が数値でなくてはならないという必要条件に合わないとして含まれないことになる:
| Out[6]= |  |
| Out[7]= |  |
NumberString を使って文字列に数字が含まれるかどうかをチェックすることができるが,そのためには文字列からコンマを削除する必要がある.
StringQを使って引数が文字列であるかどうかをテストし,文字列である場合にはStringReplaceを使ってコンマを空白スペースに置換する関数をまず作成する.引数が文字列ではない場合には,変更なしで返される:
引数が文字列であるかどうかをテストし,文字列である場合にはNumberStringをStringMatchQと一緒に使って文字列に数値が含まれるかどうかをテストする別の関数を作る.引数が文字列ではない場合には,関数はNumericQを使ってそれが数値であるかどうかをテストする.言い換えれば,引数が文字列であるないにかかわらず,関数の引数に数値が含まれる場合には,その関数はTrueを返す:
その後
をパターンに適用される条件付きテスト(シンボル「
」はConditionの簡略形)で使うことができる:
短くされたデータを見ると,今度はこれが1985年から2010年にまたがっていることが分かる.追加のパターンマッチングがうまく働いてすべてのデータが抽出されている.この段階では出力からコンマは削除されておらず,条件テストを適用する際にこれが削除されることに注意する:
Out[11]//Short= |
| |  |
次にToExpressionを使って任意の数列を Mathematica 入力として解釈できる式に変換する関数を作成する.関数は,文字列中のコンマを空白スペースで置換することも行う:
次の関数は,各リストの第1要素が年間合計を表す文字列であるか,それとも日付を表す文字列であるのかをテストする.日付の場合は,DateListに変換される:
今度は上のCasesの式を取り,データの各リストの4要素それぞれに適用する置換規則を加える.Trueを返し,
について条件付きである要素は,
で置換され,数列から数式に変換される.各リストの第1要素は
で置換され,これは任意の日付の文字列をDateListに変換する:
短くされたデータを見ると,先に文字列で表された日付が今度はDateListとして表示されるようになったことが分かる.またどの数字にもコンマが付いていないことに注意する:
Out[15]//Short= |
| |  |
次にDeleteCasesをパターンと一緒に第2引数として使い,データから年間合計を削除する.パターンとしてアンダースコアを2つ含むリストで
を使い,
で始まり,1つ以上の Mathematica 式の任意数列を含む任意リストをマッチさせる:
年間合計が削除された:
Out[17]//Short= |
| |  |
データが正しい順序になっていないことに注意する.それぞれの年ブロックは,Webサイトの表が構築さた方法のせいで,逆年代順になっている.
Sortを使ってこれを修正する:
これでデータが正しい年代順になった:
Out[19]//Short= |
| |  |
やっとデータをプロットすることができる.
プロットの外見を見やすくするオプションをいくつか定義する:
プロットのラベルを定義する:
DateListPlotを使って,日付ベースのデータをプロットする:
| Out[22]= |  |
厳密なデータ処理の手順は,データがどのような構造になっているかによって,Webサイトごとに異なる.