miso_soup3 Blog

主に ASP.NET 関連について書いています。

Synonyms in Azure Search - Japanese

Azure Search にシノニム機能が Public Preview として追加されたので、日本語で試しました。

※追記:2018/7/3 Public Previewが外れGAしました。

参照:

シノニム

シノニム - Wikipedia シノニム(synonym)とは、類語や同意語といった意味です。 検索エンジンでは、ある言葉で検索した場合に、違う言葉でヒットさせるための機能をいいます。

たとえば、ユーザーが「いか」と検索したときは「するめ」を表すドキュメントをヒットさせたい、といったときに、”「いか」は「するめ」”という意味のシノニム辞書を作成します。

Azure Search でのシノニム機能

Azure Search では、現在シノニム機能は Public Preview です。よってプロダクション環境での使用は推奨されません。 また、REST API (api-version=2016-09-01-Preview)と、.NET SDK にて使えます(ポータルでは対応していません)。(GAしました。API-Versionはドキュメントにて確認します)

ステップ

シノニム機能を使うには、次の2ステップを行います。

    1. シノニムマップを作成する。
    2. (この言葉はこの言葉にマップする、という情報を登録する)
    1. インデックス定義のフィールドに、シノニムマップを適用する。
    2. (このフィールドは、このシノニムマップを参照して検索できるようにする、という情報を登録する)

この2ステップは、Azure Search releases support for synonyms (public preview) | Blog | Microsoft Azure ここに記載されている API のことです。シノニムマップは、REST API の POST・PUT のメソッドにより作成・更新します。

その他

他に以下のような特徴があります(把握している範囲です)。

  • シノニムマップを更新した場合、インデックスの再構築やサービスが中断されるということは無い。
  • 1つのフィールドには、1つのシノニムマップしか適用できない(現在は)。
  • ヒットハイライティングとスコアリングプロファイルは、元のワードと同意語の両方を同等として扱う。
  • Filter, Facet, Suggestion は、シノニムマップが適用されない。
  • シノニムマップは、Solr の SynonymFilterFactory のフォーマットで記述する。

シノニムマップのフォーマットはこんな感じです:

インターネット,internet,ワイファイ,wifi\n
five star=>高級\n
旅亭,旅荘=>旅館

インデックスの再構築を行わない、ということは、あまりに複雑で大量なシノニムマップを作成すると、検索が遅くなるのかな?と推測しています。

コンソールアプリで試してみる

ということで、日本語で試してみました。.NET SDK を使い、コンソールアプリケーションを作成します。 Azrue Search が提供するサンプル こちらをベースに、日本語に書き換えてみました。

インデックスの定義や、ドキュメントの作成など全てコンソールアプリケーションから行っています。

手順

・Azure Search をプロビジョニングします。

Azrue Search が提供するサンプルを取得し、App.config にある設定(サービス名・管理キー・クエリキー)を書き換えます。

・Hotel.cs の Category と Tags のフィールドに [Analyzer(AnalyzerName.AsString.JaLucene)] を定義します。

[IsSearchable, IsFilterable, IsSortable, IsFacetable]
[Analyzer(AnalyzerName.AsString.JaLucene)]
public string Category { get; set; }

[IsSearchable, IsFilterable, IsFacetable]
[Analyzer(AnalyzerName.AsString.JaLucene)]
public string[] Tags { get; set; }

・ドキュメントを作成している UploadDocuments メソッドにて、次のように日本語に置き換えます。

private static void UploadDocuments(ISearchIndexClient indexClient)
{
    var hotels = new Hotel[]
    {
        new Hotel()
        {
            HotelName = "東京ホテル",
            Category = "ホテル",
            Tags = new[] { "ジャグジー", "夜景", "wifi", "送迎", "高級"},
            HotelId = "1",
//略
        },
        new Hotel()
        {
            HotelName = "神奈川旅館",
            Category = "旅館",
            Tags = new[] { "温泉", "内湯", "大浴場", "露天風呂"},
            HotelId = "2",
// 略

・シノニムマップを作成している UploadSynonyms メソッドにて、次のように記述します。

private static void UploadSynonyms(SearchServiceClient serviceClient)
{
    var synonymMap = new SynonymMap()
    {
        Name = "desc-synonymmap",
        Format = "solr",
        Synonyms = "インターネット,internet,ワイファイ,wifi\nfive star=>高級\n旅亭,旅荘=>旅館"
    };

    serviceClient.SynonymMaps.CreateOrUpdate(synonymMap);
    Console.WriteLine("UploadSynonyms");
}

コードは gist にアップしました:gist

こんな感じ

以上の手順により、次の2つのドキュメントを作成しています。

Name Category Tags
東京ホテル ホテル [ジャグジー, 夜景, wifi, 送迎, 高級]
神奈川旅館 旅館 [温泉, 内湯, 大浴場, 露天風呂]

シノニムマップはこのように。

インターネット,internet,ワイファイ,wifi\n
five star=>高級\n
旅亭,旅荘=>旅館

以下の検索に対応したいため、上記のようなシノニムマップを作成しました。

  • 「"five star"」(double quot付き)で検索すると「東京ホテル」がヒットする
  • 「インターネット」で検索すると「東京ホテル」がヒットする
  • 「旅亭」で検索すると「神奈川旅館」がヒットする
結果

シノニムを作成する前 は、検索しても該当しません。

1. Search the entire index for the phrase "five star":
no document matched

2. Search the entire index for the term 'インターネット':
no document matched

3. Search the entire index for the term '旅亭':
no document matched

4. Search the entire index for the terms 'インターネット' AND 'five star':
no document matched

シノニムを作成した後は、期待したように検索結果がヒットします。

1. Search the entire index for the phrase "five star":
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
2. Search the entire index for the term 'インターネット':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
3. Search the entire index for the term '旅亭':
Name: 神奈川旅館        Category: 旅館  Tags: [温泉, 内湯, 大浴場, 露天風呂]
4. Search the entire index for the terms 'インターネット' AND 'five star':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]
シノニムマップを更新する

さらに、「リッチ」で検索したときに「高級」でヒットするように、シノニムマップを更新します。 次のように「リッチ」を追加して、UploadSynonyms メソッドを実行します。 これはつまり、API: PUT https://[servicename].search.windows.net/synonymmaps/desc-synonymmap?api-version=2016-09-01-Preview を送信します。インデックスの定義は更新していません。

private static void UploadSynonyms(SearchServiceClient serviceClient)
{
    var synonymMap = new SynonymMap()
    {
        Name = "desc-synonymmap",
        Format = "solr",
        Synonyms = "インターネット,internet,ワイファイ,wifi\nリッチ,five star=>高級\n旅亭,旅荘=>旅館"
    };

更新後、検索すると「リッチ」で「東京ホテル」がヒットするようになりました。

5. Search the entire index for the term 'リッチ':
Name: 東京ホテル        Category: ホテル        Tags: [ジャグジー, 夜景, wifi, 送迎, 高級]

Azure Search Sample & Xamarin.Forms でアプリ作成

作ってみました。 構成は、Azure Search と Xamarin.Forms だけで他にサーバーは立てていません。 Azure Search が提供する HTTP API を通してデータをやり取りします。 また、Azure Search の方は、ボタン1つで立ち上げられるサンプルデータを利用しています。

f:id:miso_soup3:20170227185632p:plain

動画 Android で:

www.youtube.com

iOSで:

www.youtube.com

ソース GitHub: https://github.com/hhyyg/Miso.SearchForms

(プルリクなど大歓迎です。バグもあります。)

Features

Azure Search の機能のうち、Suggest・Filter・Facet・Paging を盛り込みました。

そのほか、以下のものを使用しています。

Azure Search - Sample data source

Azure Search には、不動産のデータのサンプルが用意されています。 7種類の言語が含まれていますが、残念ながら日本語は用意されていません。 SuggestやFacetなど、ある程度の機能が利用できるようにあらかじめインデックスが作成されています。 立ち上げるとすぐに HTTP でアクセスできます。

参照:Azure Search のサンプルデータ | ブチザッキ

GitHubの方には、自分の Azure Search の接続情報がコミットされています。 本当はよくないですが、フリープランのため課金は大したことなく、いつでも無効にできるためサンプルに入れました。なのですぐ試せると思います。

Other Sample

Azure Search と Xamarin のサンプルを探したところ、次の2つを発見しました。

Sample 1

これは、Xamarin.Android と Azure Search のサンプルです。 Azure Search の方は、サンプルの不動産データを使用しています。 また、このアプリを使った解説動画が Channel9 の方にあります。→ - The Xamarin Show 9: Azure Search with Liam Cavanagh | The Xamarin Show | Channel 9

Sample 2

こちらは、Xamarin.Forms と、Azure Search のサンプルです。 Azure Search のデータは、独自のものが定義されています。(ですので、自分で立ち上げるときは Azure Search の設定等を行う必要あり)