miso_soup3 Blog

主に ASP.NET 関連について書いています。

Synonyms in Azure Search - Japanese

Azure Search にシノニム機能が Public Preview として追加されたので、日本語で試しました。

※追記:2018/7/3 Public Previewが外れGAしました。

参照:

シノニム

シノニム - Wikipedia シノニム(synonym)とは、類語や同意語といった意味です。 検索エンジンでは、ある言葉で検索した場合に、違う言葉でヒットさせるための機能をいいます。

たとえば、ユーザーが「いか」と検索したときは「するめ」を表すドキュメントをヒットさせたい、といったときに、”「いか」は「するめ」”という意味のシノニム辞書を作成します。

Azure Search でのシノニム機能

Azure Search では、現在シノニム機能は Public Preview です。よってプロダクション環境での使用は推奨されません。 また、REST API (api-version=2016-09-01-Preview)と、.NET SDK にて使えます(ポータルでは対応していません)。(GAしました。API-Versionはドキュメントにて確認します)

ステップ

シノニム機能を使うには、次の2ステップを行います。

    1. シノニムマップを作成する。
    2. (この言葉はこの言葉にマップする、という情報を登録する)
    1. インデックス定義のフィールドに、シノニムマップを適用する。
    2. (このフィールドは、このシノニムマップを参照して検索できるようにする、という情報を登録する)

この2ステップは、Azure Search releases support for synonyms (public preview) | Blog | Microsoft Azure ここに記載されている API のことです。シノニムマップは、REST API の POST・PUT のメソッドにより作成・更新します。

その他

他に以下のような特徴があります(把握している範囲です)。

  • シノニムマップを更新した場合、インデックスの再構築やサービスが中断されるということは無い。
  • 1つのフィールドには、1つのシノニムマップしか適用できない(現在は)。
  • ヒットハイライティングとスコアリングプロファイルは、元のワードと同意語の両方を同等として扱う。
  • Filter, Facet, Suggestion は、シノニムマップが適用されない。
  • シノニムマップは、Solr の SynonymFilterFactory のフォーマットで記述する。

シノニムマップのフォーマットはこんな感じです:

インターネット,internet,ワイファイ,wifi\n
five star=>高級\n
旅亭,旅荘=>旅館

インデックスの再構築を行わない、ということは、あまりに複雑で大量なシノニムマップを作成すると、検索が遅くなるのかな?と推測しています。

コンソールアプリで試してみる

ということで、日本語で試してみました。.NET SDK を使い、コンソールアプリケーションを作成します。 Azrue Search が提供するサンプル こちらをベースに、日本語に書き換えてみました。

インデックスの定義や、ドキュメントの作成など全てコンソールアプリケーションから行っています。

手順

・Azure Search をプロビジョニングします。

Azrue Search が提供するサンプルを取得し、App.config にある設定(サービス名・管理キー・クエリキー)を書き換えます。

・Hotel.cs の Category と Tags のフィールドに [Analyzer(AnalyzerName.AsString.JaLucene)] を定義します。

[IsSearchable, IsFilterable, IsSortable, IsFacetable]
[Analyzer(AnalyzerName.AsString.JaLucene)]
public string Category { get; set; }

[IsSearchable, IsFilterable, IsFacetable]
[Analyzer(AnalyzerName.AsString.JaLucene)]
public string[] Tags { get; set; }

・ドキュメントを作成している UploadDocuments メソッドにて、次のように日本語に置き換えます。

private static void UploadDocuments(ISearchIndexClient indexClient)
{
    var hotels = new Hotel[]
    {
        new Hotel()
        {
            HotelName = "東京ホテル",
            Category = "ホテル",
            Tags = new[] { "ジャグジー", "夜景", "wifi", "送迎", "高級"},
            HotelId = "1",
//略
        },
        new Hotel()
        {
            HotelName = "神奈川旅館",
            Category = "旅館",
            Tags = new[] { "温泉", "内湯", "大浴場", "露天風呂"},
            HotelId = "2",
// 略

・シノニムマップを作成している UploadSynonyms メソッドにて、次のように記述します。

private static void UploadSynonyms(SearchServiceClient serviceClient)
{
    var synonymMap = new SynonymMap()
    {
        Name = "desc-synonymmap",
        Format = "solr",
        Synonyms = "インターネット,internet,ワイファイ,wifi\nfive star=>高級\n旅亭,旅荘=>旅館"
    };

    serviceClient.SynonymMaps.CreateOrUpdate(synonymMap);
    Console.WriteLine("UploadSynonyms");
}

コードは gist にアップしました:gist

こんな感じ

以上の手順により、次の2つのドキュメントを作成しています。

Name Category Tags
東京ホテル ホテル [ジャグジー, 夜景, wifi, 送迎, 高級]
神奈川旅館 旅館 [温泉, 内湯, 大浴場, 露天風呂]

シノニムマップはこのように。

インターネット,internet,ワイファイ,wifi\n
five star=>高級\n
旅亭,旅荘=>旅館

以下の検索に対応したいため、上記のようなシノニムマップを作成しました。

  • 「"five star"」(double quot付き)で検索すると「東京ホテル」がヒットする
  • 「インターネット」で検索すると「東京ホテル」がヒットする
  • 「旅亭」で検索すると「神奈川旅館」がヒットする
結果

シノニムを作成する前 は、検索しても該当しません。

1. Search the entire index for the phrase "five star":
no document matched

2. Search the entire index for the term 'インターネット':
no document matched

3. Search the entire index for the term '旅亭':
no document matched

4. Search the entire index for the terms 'インターネット' AND 'five star':
no document matched

シノニムを作成した後は、期待したように検索結果がヒットします。

1. Search the entire index for the phrase "five star":
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
2. Search the entire index for the term 'インターネット':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
3. Search the entire index for the term '旅亭':
Name: 神奈川旅館        Category: 旅館  Tags: [温泉, 内湯, 大浴場, 露天風呂]
4. Search the entire index for the terms 'インターネット' AND 'five star':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
シノニムマップを更新する

さらに、「リッチ」で検索したときに「高級」でヒットするように、シノニムマップを更新します。 次のように「リッチ」を追加して、UploadSynonyms メソッドを実行します。 これはつまり、API: PUT https://[servicename].search.windows.net/synonymmaps/desc-synonymmap?api-version=2016-09-01-Preview を送信します。インデックスの定義は更新していません。

private static void UploadSynonyms(SearchServiceClient serviceClient)
{
    var synonymMap = new SynonymMap()
    {
        Name = "desc-synonymmap",
        Format = "solr",
        Synonyms = "インターネット,internet,ワイファイ,wifi\nリッチ,five star=>高級\n旅亭,旅荘=>旅館"
    };

更新後、検索すると「リッチ」で「東京ホテル」がヒットするようになりました。

5. Search the entire index for the term 'リッチ':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]

JavaScript で TypeScript 型定義ファイルに基づくインテリセンス(Visual Studio 2017)

Visual Studio 2017 では、TypeScript を使用しなくても、JavaScript だけを書いていても、 自動で該当する TypeScript 型定義ファイルを取得し、TypeScript のようにインテリセンスを表示します。

参照:Visual Studio 2017 RC で JavaScript 開発がより生産的に – Visual Studio 日本チーム Blog

以下の図のように、TypeScript ファイルや .tsconfig ファイルが無い、ただの JavaScript ファイルを配置したプロジェクトを用意します。 そして、jQuery ライブラリを追加します。

f:id:miso_soup3:20170320153734p:plain

site.js にて、「$.a」とタイプすると、jQuery の .d.ts を参照したインテリセンスが表示されます。

f:id:miso_soup3:20170320154211p:plain

メソッドのところで F12 を押すと、型定義ファイルに移動し、表示します。

f:id:miso_soup3:20170320154631p:plain

型定義ファイルは、%LOCALAPPDATA%\Microsoft\TypeScript に格納されており、私の環境ではC:\Users\hoge\AppData\Local\Microsoft\TypeScript\node_modules\@types なので、そこを開くと、ちゃんと実ファイルがあります。

f:id:miso_soup3:20170320154926p:plain

例えば、プロジェクト内に新たに「d3.min.js」(グラフのライブラリ)を追加したとすると、

f:id:miso_soup3:20170320155044p:plain

先のフォルダには、このように型定義ファイルが取得されています。

f:id:miso_soup3:20170320155124p:plain

もちろん(?)、型定義ファイルとは違う書き方をしても、エラーが表示されたりはしません(通常の JavaScript ファイルでの開発と同じ挙動)。 フォルダを削除しても、Visual Studio でプロジェクトを開くと再度取得されていました。

JSDoc の強化もされており、JavaScript だけの開発においても、TypeScript のような補助が得られます。