CreateSemanticSearchIndex

CreateSemanticSearchIndex[source]

source 内のデータから検索索引を作成する.

CreateSemanticSearchIndex[{source1,}]

ソース sourceiの集合から検索索引を作成する.

CreateSemanticSearchIndex[{source1val1,}]

ソース sourceiを値 valiに関連付ける.

CreateSemanticSearchIndex[data,"name"]

検索索引に指定された名前を与える.

詳細とオプション

  • CreateSemanticSearchIndexは,内容の意味的検索に使える特徴をテキストから抽出するために使われる.
  • 次は,source の可能な値である.
  • "string"プレーンな文字列
    File["path"]個々のファイル
    URL["url"]"url"のテキスト表現
    CloudObject[]クラウドオブジェクト
    LocalObject[]ローカルオブジェクト
    ContentObject[]コンテンツオブジェクト
    {source1,source2,}ソースのリスト
  • ソースには注釈が付けられる.同じソースからのものには同じ注釈が付けられる.
  • 次は,注釈を指定する可能な方法である.
  • {source1val1,}ソースと関連付けられた値のリスト
    {source1,}{val1,}ソースと値の間の規則
  • 次は,許容される valiの形式である.
  • "string"文字列ラベル
    <|"tag1"v1,|>タグとメタデータ値の連想
  • CreateSemanticSearchIndexは,以下のオプションをサポートする.
  • DistanceFunction EuclideanDistance使用する距離関数
    FeatureExtractor "SentenceBERT"テキストの断片から特徴をどのように抽出するか
    GeneratedAssetLocation $GeneratedAssetLocation索引の場所
    Method Automaticメソッドの詳細
    OverwriteTarget Automatic既存の場所に上書きするかどうか
    ProgressReporting$ProgressReporting計算の進捗状況を報告するかどうか
    WorkingPrecision "Real32"浮動小数点演算の精度
  • DistanceFunctionの可能な値には,EuclideanDistanceSquaredEuclideanDistanceCosineDistanceJaccardDissimilarityHammingDistanceがある.
  • 次は,FeatureExtractorの可能な値である.
  • "SentenceBERT"SentenceBERTに基づくローカルモデル
    LLMConfigurationLLMに基づく文の埋込み
    fカスタムの抽出関数
  • カスタムの抽出器 f は,文字列のリストに作用して同じ長さのベクトルのリストを生成しなければならない.
  • より細かいオプションは,Method<|opt1val1|>を使って与えることができる.次は,optiの可能な値である.
  • "ContextPadding"断片間の最小のオーバーラップ
    "MaximumItemLength"テキストの断片の最大の長さ
    "MinimumItemLength"テキストの断片の最小の長さ
    "SplitPattern"Automatic長い文字列をどこで分割するか
  • 自動"SplitPattern"は,ラグラフ,改行,単語内のソーステキストを分割して,"MinimumItemLength"から"MaximumItemLength"までの長さの断片を作成しようとする.
  • 次は,WorkingPrecisionの可能な設定である.
  • "Integer8"-128から127までの符号付き8ビット整数
    "Real32"単精度実数(32ビット)
    "Real64"倍精度実数(64ビット)

例題

すべて開くすべて閉じる

  (2)

新たなSemanticSearchIndexを作成する:

意味的類似性でテキストの検索を行う:

複数のラベル付きソースから索引を作成する:

最も類似している項目のラベルを回復する:

スコープ  (6)

データソース  (4)

文字列から索引を作成する:

ファイルから索引を作成する:

URLから索引を作成する:

特定の名前で索引を作成する:

注釈  (2)

ソースにラベルで注釈を付ける:

各断片が対応するソースsラベルを継承する:

検索を実行するとラベルが返される:

タグ付けされたメタデータがある注釈付きソース:

別のAssociationで注釈をん指定する:

オプション  (10)

DistanceFunction  (1)

索引についてカスタムの距離関数を指定する:

デフォルトで,EuclideanDistanceが使われる:

FeatureExtractor  (1)

カスタムの特徴抽出器を訓練する:

これを使って別のテキストから特徴を抽出する:

GeneratedAssetLocation  (3)

索引を格納するカスタムの場所を指定する:

場所を取り出す:

デフォルトで,索引はローカルオブジェクトに格納される:

ベクトル索引をファイルに格納する:

場所を取り出す:

ファイル参照からデータベースを再構築する:

Method  (2)

複数の非常に短い項目を含むテキストを作成する:

テキスト全体が単一の断片として埋め込まれる:

項目の最短と最長の長さを調整して,より関連生が高いセクションに分割する:

数パラグラフのテキストを作成する:

非標準的な分離記号で上記パラグラフを繋ぐ:

デフォルトの自動的なパラグラフと文の分離による結果は好ましいものではない:

カスタムの分離パターンを使ってカスタムの分離記号を使って分離する:

OverwriteTarget  (2)

索引の自動的な場所はその名前によって決定される:

デフォルトのOverwriteTargetAutomaticでは,衝突を避けるために新たな索引名が生成される:

強制的に上書きしたければOverwriteTargetTrueを使うとよい:

OverwriteTargetFalseを使って厳密にチェックする:

OverwriteTargetFalseは,同じ索引名を別の場所で再度使用することも防ぐ:

ファイルを作成する:

デフォルトで,既存のファイルは上書きされない:

OverwriteTargetTrueを使って既存のファイルを上書きする:

WorkingPrecision  (1)

ベクトルの埋込みにカスタムの作業精度を指定する:

作業精度は索引のベクトルデータベースに格納される:

精度値を取り出す:

アプリケーション  (2)

単語とその定義の間の逆マッピングを作成する:

マッピングを使って索引を構築する:

クエリと定義をマッチングすることで辞書の逆検索を行う:

書籍から引用する:

厳密な言葉遣いが分からない状態で引用を検索する:

考えられる問題  (2)

入力文字列は常にテキストとして解釈される:

リンクを辿る場合はURLラッパーを使う:

Fileを使ってコンテンツをインポートする:

小さな項目が複数あるテキスト:

文字列の長さがデフォルトの最大長より短いので分割は行われない:

項目の最大長を短くすると分割が行われる:

Wolfram Research (2024), CreateSemanticSearchIndex, Wolfram言語関数, https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html (2025年に更新).

テキスト

Wolfram Research (2024), CreateSemanticSearchIndex, Wolfram言語関数, https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html (2025年に更新).

CMS

Wolfram Language. 2024. "CreateSemanticSearchIndex." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2025. https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html.

APA

Wolfram Language. (2024). CreateSemanticSearchIndex. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html

BibTeX

@misc{reference.wolfram_2025_createsemanticsearchindex, author="Wolfram Research", title="{CreateSemanticSearchIndex}", year="2025", howpublished="\url{https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html}", note=[Accessed: 02-July-2025 ]}

BibLaTeX

@online{reference.wolfram_2025_createsemanticsearchindex, organization={Wolfram Research}, title={CreateSemanticSearchIndex}, year={2025}, url={https://reference.wolfram.com/language/ref/CreateSemanticSearchIndex.html}, note=[Accessed: 02-July-2025 ]}