Wolfram言語＆システムドキュメントセンター

FeatureExtraction

FeatureExtraction[{example₁,example₂,…}]

与えられた例で訓練されたFeatureExtractorFunction[…]を生成する．

FeatureExtraction[examples,spec]

指定された特徴抽出法 spec を使う．

FeatureExtraction[examples,spec,props]

props で指定された特徴抽出特性を与える．

詳細とオプション

FeatureExtractionは，一般に，生のデータを処理して（例えば機械学習アルゴリズムの訓練に）使用可能な特徴にする関数を定義するために使われる．
FeatureExtractionは，数値，テキスト，サウンド，画像，グラフ，時系列，それらの組合せを含む数多くのデータ型に使うことができる．
次は，examples の可能な値である．
{example₁,…} 訓練例のリスト

Dataset[…] Datasetオブジェクト

Tabular[…] Tabularオブジェクト

None 訓練例はなし
各 example_iは，単一のデータ要素，データ要素のリスト，あるいはデータ要素の連想でよい．
次は，spec の可能な値である．

	extractor	指定された抽出器法を使う
	partextractor	特定の例題部分に抽出器を適用する
	{part₁extractor₁,…}	特定の部分に対する抽出器を指定する

使用可能な特徴抽出法 extractor には以下がある．

	Automatic	自動抽出
	Identity	データを変更せずに与える
	"ConformedData"	一致する画像，色，日付等
	"NumericVector"	任意のデータからの数値ベクトル
	"name"	名前付きの抽出器法
	f	関数 f を各例に適用する
	{extractor₁,extractor₂,…}	一連の抽出器を交互に使う

次は，part の可能な形式である．

	All	各例題のすべての部分
	i	各例題の i 番目の部分
	{i₁,i₂,…}	各例題の i₁, i₂, …番目の部分
	"key"	各例題の指定されたキーを持つ部分
	{"key₁","key₂",…}	各例題の名前"key_i"がある部分

明示的に部分を指定する場合は，特徴抽出の際に言及されていない部分は除去される．

抽出器

FeatureExtraction[examples]はFeatureExtraction[examples,Automatic]に等しいが，これは通常FeatureExtraction[examples,"NumericVector"]に等しい．
"NumericVector"法は，通常，例題を数値ベクトルに変換し，欠落データを補完し，DimensionReductionを使って次元削減を行う．
特定のデータ型に固有の特徴抽出法は，そのデータ型と互換性のあるデータ要素にのみ適用される．その他のデータ要素は変更されずに返される．
examples がNoneのときは，固有の特徴抽出器すべてが使えるわけではない．
固有の抽出器には以下がある．
数値データ

	"DiscretizedVector"	離散化された数値データ
	"DimensionReducedVector"	次元を削減した数値ベクトル
	"MissingImputed"	欠落値が補完されたデータ
	"StandardizedVector"	Standardizeで処理された数値データ

名義データ

	"IndicatorVector"	インジケータベクトルで「ワンホットエンコード」された名義データ
	"IntegerVector"	整数で符号化された名義データ

テキスト

	"LowerCasedText"	各文字が小文字のテキスト
	"SegmentedCharacters"	文字に分割されたテキスト
	"SegmentedWords"	単語に分割されたテキスト
	"SentenceVector"	テキストからの意味ベクトル
	"TFIDF"	単語の出現頻度と逆文書頻度のベクトル
	"WordVectors"	英語テキストからの意味ベクトル列（英語のみ）

画像

	"FaceFeatures"	ヒトの顔からの意味ベクトル
	"ImageFeatures"	画像からの意味ベクトル
	"PixelVector"	画像からの画素値のベクトル

音声オブジェクト

	"AudioFeatures"	音声オブジェクトからの意味ベクトル列
	"AudioFeatureVector"	音声オブジェクトからの意味ベクトル
	"LPC"	音声線形予測係数
	"MelSpectrogram"	対数周波数ビンの音声スペクトログラム
	"MFCC"	音声メル周波数ケプストラム係数ベクトル列
	"SpeakerFeatures"	意味話者ベクトルの列
	"SpeakerFeatureVector"	話者の意味ベクトル
	"Spectrogram"	音声スペクトログラム

動画オブジェクト
"VideoFeatures" 動画オブジェクトからの意味ベクトルの列

"VideoFeatureVector" 動画オブジェクトからの意味ベクトル
グラフ
"GraphFeatures" グラフ特性を要約する数値ベクトル
分子

	"AtomPairs"	原子対と両者間の経路長からのブールベクトル
	"MoleculeExtendedConnectivity"	列挙された分子の部分グラフからのブールベクトル
	"MoleculeFeatures"	分子の特性を要約する数値ベクトル
	"MoleculeTopologicalFeatures"	円形の原子近傍からのブールベクトル

特性

FeatureExtraction[examples,extractors,props]では，props は単一の特性あるいは特性のリストでよい．次は使用可能な特性である．

	"ExtractorFunction"	FeatureExtractorFunction[…]（デフォルト）
	"ExtractedFeatures"	特徴抽出後の examples
	"ReconstructedData"	抽出と逆抽出後の examples
	"FeatureDistance"	抽出器から生成されたFeatureDistance[…]

"ExtractedFeatures"特性と"ReconstructedData"特性は，examples がNoneのときには使えない．
"ReconstructedData"特性は，指定されたすべての extractor が可逆のときにしか計算できない．

オプション

使用可能なオプション

FeatureNames	Automatic	example_iの要素に割り当てる名前
FeatureTypes	Automatic	example_iの要素に仮定する特徴タイプ
RandomSeeding	1234	どのような擬似乱数生成器のシードを内部的に使うべきか

RandomSeedingの可能な設定

	Automatic	関数が呼び出されるたびに自動的にシードを変える
	Inherited	外部シードの乱数を使う
	seed	明示的な整数または文字列をシードとして使う

例題

すべて開くすべて閉じる

例 (3)

単純なデータ集合についてFeatureExtractorFunctionを訓練する：

新たな例から特徴を抽出する：

例のリストから特徴を抽出する：

画像のデータ集合について特徴抽出器を訓練する：

訓練集合に特徴抽出器を使う：

特定の抽出器を指定する：

スコープ (32)

入力の形状 (9)

単一の特徴がある例のリストで特徴抽出器を訓練する：

新たな例から特徴を抽出する：

複数の新たな例から特徴を抽出する：

複数の特徴がある例のリストで特徴抽出器を訓練する：

複数の新たな例から特徴を抽出する：

混合型のデータ集合で特徴抽出器を訓練する：

新たな例から特徴を抽出する：

連想のリストで特徴抽出器を訓練する：

新たな例から特徴を抽出する：

複数の新たな例から特徴を抽出する：

特徴のリストとして与えられたデータで特徴抽出器を訓練する：

Tabularで特徴抽出器を訓練する：

Datasetで特徴抽出器を訓練する：

欠落値があるデータ集合で特徴抽出器を訓練する：

訓練を必要としない特徴抽出器を定義する：

これをテキストに適用する：

抽出器の指定 (10)

単一のテキスト特徴に対して特徴抽出器"SentenceVector"を指定する：

これをテキストに適用する：

"StandardizedVector"法を使って特徴抽出器を訓練する：

新たな例から特徴を抽出する：

この特徴抽出器は可逆なので，FeatureExtractorFunction特性の"OriginalData"を使って逆抽出が行える：

"TFIDF"法を使い次に"DimensionReducedVector"法を使って，特徴抽出器をテキストについて訓練する：

訓練集合について特徴を抽出する：

テキストのみの"TFIDF"法を使って特徴抽出器をテキストと画像で訓練する：

特徴はテキスト部分からしか抽出されない：

複数の特徴の特徴抽出を位置によって指定する：

この特徴抽出器を新たな特徴に使う：

2つの項目のリストは2つの特徴の単一の入力であると見なされる：

2番目の名義変数のみに対して"IndicatorVector"法を使って特徴抽出器を訓練する：

最初の名義変数は除去される：

Identity抽出器法を使って最初の変数をコピーする：

最初の変数がコピーされた：

変数は複数回コピーできる：

キーを使って複数の特徴について特徴抽出器を指定する：

新たな特徴に特徴抽出器を使う：

特徴抽出器をリストに使うと，もともと指定されていたのと同じ順序が仮定される：

カスタム関数を使って訓練抽出器を生成する：

この抽出器を訓練集合に適用する：

"StandardizedVector"メソッドでカスタム抽出器を繋ぐ：

処理前にデータを適合させる：

出力の次元性を下げる：

特徴型 (10)

"SentenceVector"抽出器を訓練なしで使って，テキストデータの特徴抽出器を作成する：

入力型は指定された抽出器から推定される．この特徴抽出器を例に対して使う：

暗黙のテキストおよび画像の特徴がある例に対して特徴抽出器を使う：

特徴は両方の部分から抽出される：

テキストデータについて特徴抽出器を訓練する：

"IndicatorVector"法を使った名義変数についての特徴抽出器：

特徴抽出器を訓練して，テキストから用語頻度・逆文書頻度(TF-IDF)ベクトルを計算する：

訓練集合の用語頻度・逆文書頻度行列はSparseArrayで計算できる：

行列を可視化する：

"TFIDF"法はトークン化データ（名義上のバッグ）に使うこともできる：

DateObjectのインスタンスのリストで特徴抽出器を訓練する：

新たなDateObjectのインスタンスから特徴を抽出する：

日付文字列を与えることもできる：

Graphのインスタンスのリストで特徴抽出器を訓練する：

新たなグラフから特徴を抽出する：

TimeSeriesのインスタンスのリストで特徴抽出器を訓練する：

Moleculeデータで特徴抽出器を訓練する：

Audioのインスタンスのリストで特徴抽出器を訓練する：

情報 (3)

訓練済みのFeatureExtractorFunctionからInformationを取得する：

使用可能な特性を求める：

入出力の型についての情報を取得する：

オプション (4)

FeatureNames (2)

特徴抽出器を訓練し，各特徴の名前を与える：

連想形式を使って新たな例から特徴を抽出する：

リスト形式も使うことができる：

FeatureNamesを使って名前を設定し，FeatureExtraction[examples,{spec₁ext₁,…}]でそれを参照する：

名前を使って特徴を指定して，新規例から特徴を抽出する：

FeatureTypes (2)

"IndicatorVector"法で簡単なデータ集合について特徴抽出器を訓練する：

最初の特徴は数値的であると解釈された．"IndicatorVector"法は名義的特徴に対してしか動作しないので，最初の特徴は変更されない：

FeatureTypesを使って最初の特徴が名義的であるという解釈を強制する：

これで，両方の特徴がインジケーターベクトルとして符号化される：

訓練なしで特徴抽出器を作ると，特定の特徴器からの期待するデータ型が推測される：

特徴型を指定すると仮定がオーバーライドされる：

名前付きの特徴に適用する：

アプリケーション (3)

画像検索 (1)

犬の画像のデータ集合を構築する：

このデータ集合から抽出器関数を訓練する：

このデータ集合の抽出された特徴についてNearestFunctionを生成する：

NearestFunctionを使ってデータ集合の最近画像を描画する関数を構築する：

この関数をデータ集合には含まれない画像に使う：

特徴抽出器関数は似すぎている画像ペアを削除することもできる：

テキスト検索 (1)

「Alice in Wonderland」（不思議の国のアリス）のテキストをロードする：

テキストを文に分割する：

特徴抽出器をこれらの文について訓練する：

文の特徴を使ってNearestFunctionを生成する：

NearestFunctionを使って「Alice in Wonderland」の最も近い文を表示する関数を構築する：

この関数をいくつかのクエリに使う：

インピュテーション（データ補完） (1)

ExampleDataから"MNIST"データ集合をロードし，画像を保存する：

画像を数値データに変換し，データ集合を訓練集合とテスト集合に分ける：

データ集合の大きさは784である：

"MissingImputed"法を使って特徴抽出器を作成する：

テスト集合ベクトルのいくつかの値をMissing[]で置換し，可視化する：

FeatureExtractorFunction[…]を使って欠落値を補完する：

もとの画像，欠落値を含む画像，補完した加増を可視化する：

特性と関係 (4)

名前付きの特徴があるデータで特徴抽出器を訓練する：

認識されないキーは無視される：

FeatureExtraction[…,"ExtractedFeatures"]はFeatureExtract[…]に等しい：

"FeatureDistance"特性は，抽出器にFeatureDistanceを使うことに等しい：

まず，FeatureExtractorFunctionを計算する：

この特徴抽出器の特徴距離を構築する：

2つの距離関数は同一である：

特定の訓練データについてFeatureExtractorFunctionを作ると，その特徴を表す特徴空間が作られる：

異なる訓練データを使うとサイズが決まった特徴空間になることがある：

同じ項目をデータなしで作ると，同じ特徴空間で同じ結果を一貫して与える訓練されていない関数が生成される：

考えられる問題 (7)

匿名データで抽出器を訓練すると自動の特徴名が使われる：

関数適用時にカスタム名を使うと，特徴が見付からないというエラーになる：

特徴名は訓練時に指定できる：

FeatureExtractorFunctionの特徴名をチェックする：

これでカスタム名が使えるようになった：

FeatureExtraction特性の"ReconstructedData"を使うと，抽出と再構築の後でデータが取得できる：

特徴抽出器の中には逆抽出の近似しかできないものがある：

特徴抽出器の中には反転できないもがある：

特性"ReconstructedData"は訓練データなしでは使えない：

抽出器の中にはデータなしで作れるものもある：

初期化するために例が必要となるものもある：

同様に，すべての特性がサポートされる訳ではない：

データ型とマッチしない抽出器は無視される：

入力型は"Nominal"なので，"LowerCasedText"抽出器は入力型を無視する：

同様に，入力を強制的に"Text"にすると"IndicatorVector"が無視されるようになる：

データフリーのコンテキストで作用するためには，"ConformedData"抽出器は追加的な情報を必要とする：

FeatureTypesを明示的に指定する：

特徴型は，後続する抽出器から暗黙の内に推測されることがある：

自動特徴抽出は，しばしば次元削減ステップに適用される：

明示的な特徴抽出器は削減を含まないので，より長いベクトルになることが多い：

"DimensionReducedVector"を使って次元削減ステップを加える：

次元削減は使用可能な特徴で訓練されなければならず，したがってデータが与えられていない場合は適用できない：

Top

その他のラーニングリソース

テクニカルサポート

Wolframソリューション

教育のためのWolframソリューション

使い始める

Grow Your Skills

Wolframと繋がる

大人用の教育プログラム

若者のための教育プログラム

読む

FeatureExtraction