分析のために.mboxファイルをインポートする.

MBOXファイル形式は,メールサーバでよく使われる形式である.データは,Apacheの公開アーカイブ https://lists.apache.orgからのものである.

受信箱をインポートする

MBOXのファイル要素についての情報を得る:

データをインポートするための要素を定義する:

ファイルからデータをインポートする:

Datasetのそれぞれの電子メールを可視化する:

電子メールを分析する

電子メールが送信された日付を抽出する:

  • それぞれの日付はDateObjectとして表される.

電子メールのメインテキストを抽出する:

StringLengthTotalを使って,電子メールの文字の長さを合計する:

電子メールを可視化する

DateHistogramを使って,電子メールが送信された時刻についてのヒストグラムを作成する:

メッセージの長さの分布を示すHistogramを作成する: