Azure Search で CSV 検索
Azure Search にて、Azure Storage Blob においてある CSV ファイルの行検索が可能になりました(version 2015-02-28-Preview にて可能、プレビューでの提供です)。 今までは行・列単位ではなくファイル単位での検索しかできませんでした。
主な機能
- Azure Storage の Blob にある CSV ファイルを対象にできる。
- コンテナー、フォルダーの指定が可能です。
- コンテナーまたはフォルダー内にある CSV はすべて対象となります。(複数ファイルごそっと配置できます)
- UTF-8、カンマ(,)区切りのみ対応。
- CSVは、ヘッダー行有り・無し、の両方対応しています。
注意
- Shift-JIS で保存すると日本語が文字化けします
- 指定したコンテナー、またはフォルダ内には、CSVファイル以外のファイルを混在できません。
- プレビューなので、URL に ?api-version=2015-02-28-Preview を付けることを忘れない。
- CR, LF のみの改行コードだとダブルクォーテーションで囲ったとしてもエラーになります。
主な流れ
- データソースの作成(CSV ファイルのある Azure Blog Storage、コンテナー、フォルダー名の指定)
- インデックスの作成(CSV ファイルの列名をフィールドとして設定します)
- インデクサーの作成(CSV ファイルとインデックスをつなげるインデクサーを作成します)
- 検索実行
実際にやってみたので手順を記載します。
サンプルCSVの用意
サンプルとして下の場所から郵便番号のCSVファイルを用意しました。
vallog: 無料CSVデータ 住所データCSV【住所.jp】
このCSVファイルは、ヘッダー行が日本語になっています。Azure Search では対応していないので、英数のヘッダーに置き換えました。 この英数のヘッダー名は後の手順で参照することになります。
CSV ファイルは、Azure Storage の Blog に配置します。 ここでは、コンテナー名「yago-test」の「zipcode」フォルダ内に配置しました。
データソースの作成
Azure Search をプロビジョニングした後、データソースを作成します。 API は次のようになります。 Azure Search の API については、Azure Search Service REST API バージョン 2015-02-28-Preview) | Microsoft Azure | Azure Search Preview API こちらを参照します。
POST https://[サービス名].search.windows.net/datasources?api-version=2015-02-28-Preview Content-Type: application/json api-key: キー { "name" : "my-blob-zipcode(データソースの名前。なんでもよいですがあとで参照します。)"", "type" : "azureblob", "credentials" : { "connectionString" : "Azure Storage の接続文字列" }, "container" : { "name" : "yago-test(コンテナ名)", "query" : "zipcode(フォルダ名(ある場合))" } }
作成後、Azure ポータルではこのように表示されます。
インデックスの作成
つぎにインデックスを作成します。 ここで、CSV ファイルの各列について記述することになります。CSV ファイルの全ての列を定義する必要はありません。 取得可能や検索可能といった仕様に応じて定義します。
また、CSV ファイルにヘッダー行がある場合は、このヘッダー名とここで定義するフィールド名は同じにしなければいけません。
例として、次のようにインデックスを作成しました。
POST https://[サービス名].search.windows.net/indexes?api-version=2015-02-28-Preview Content-Type: application/json api-key: キー { "name": "zipcode-index", "fields": [ {"name": "AddressCode", "type": "Edm.String", "key": true }, { "name": "Prefecture", "type": "Edm.String" }, { "name": "ZipCode", "type": "Edm.String" }, { "name": "PrefectureKana", "type": "Edm.String" }, { "name": "City", "type": "Edm.String" }, { "name": "CityKana", "type": "Edm.String" }, { "name": "Area", "type": "Edm.String" }, { "name": "AreaKana", "type": "Edm.String" } ] }
インデクサーの作成
次にインデクサーの作成です。ヘッダー行がある場合・無い場合で Body の Json が変わります。
ヘッダー行がある場合
POST https://[service name].search.windows.net/indexers?api-version=2015-02-28-Preview Content-Type: application/json api-key: [admin key] { "name" : "my-zipcode-indexer", "dataSourceName" : "my-blob-zipcode", "targetIndexName" : "zipcode-index", "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "firstLineContainsHeaders" : true } } }
"firstLineContainsHeaders" : true が、ヘッダー行があることを意味します。
ヘッダー行がない場合
POST https://[service name].search.windows.net/indexers?api-version=2015-02-28-Preview Content-Type: application/json api-key: [admin key] { "name" : "my-zipcode-indexer", "dataSourceName" : "my-blob-zipcode", "targetIndexName" : "zipcode-index", "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "AddressCode,PrefectureCode,CityCode,Address1Code,ZipCode,Flag1,Flag2,Prefecture,PrefectureKana,City,CityKana,Area,AreaKana,AreaNote,Torina,Cho,ChoKana,Note,Office,OfficeKana,OfficeAddress,NewAddressCode" } } }
delimitedTextHeaders には、CSV ファイルの全ての列名を定義する必要があります。 この列名とインデックスのフィールド名が照会し検索が動作します。
インデクサーの実行
インデクサーが作成されると、データのインデックスが行われます。 Azure ポータルから結果を確認できます。エラーがある場合はエラーの内容を確認します。
検索
これで検索の準備ができました。 「富山市」で検索すると、結果が返ってきました。
GET https://yagosear2.search.windows.net/indexes/zipcode-index/docs?api-version=2015-02-28&search=フチュウ Content-Type: application/json api-key: キー
検索は Azure ポータルからも試すことができます。(日本語での検索は結果を確認できなかったので API で確認しました。)
(日本語での検索は、アナライザーを日本語用のアナライザーにすることを忘れないようにします。)
カンマ以外の対応が欲しい場合、ほか要望は https://feedback.azure.com/forums/263029-azure-search こちらでフィードバックします。
Azure Search を触ってみて
Azure Search をいろいろ触ってみてのノートです。最新のアップデート内容とは違う可能性があります。
最初に
Azure Search を知らない場合、参考になる資料です
- Azure Search Deep Dive ~検索エクスペリエンス向上のためのノウハウ徹底解説~ | de:code 2016 | Channel 9
- 2016/5 の de:code 2016 での約1時間の動画。大変参考になり、概要を知ることができます。
- スライド:DEV-018_Azure Search Deep Dive ~検索エクスペリエンス向上のためのノウハウ徹底解説~ - Docs.com
- Azure Search とは | Microsoft Azure | ホスト型クラウド検索サービス
- Azure の公式ドキュメントです
- ここのドキュメントはどのページも参考になります。サンプルもここから取得できます。
- Daiyu Hatakeyama さんの資料(2017/4 追加)
やってみる
開発について
- Azure ポータルからの操作以外に次のツールが用意されているが、自分で REST API を叩いた方が良い。雰囲気をつかむまでは Azure ポータル上で、そのあとは REST API 中心がいい。
ツール
- Azure Search SDK (Azure Search 公式 SDK) NuGet Gallery | Microsoft Azure Search Library 1.1.2
- reddog-io/RedDog.Search: Management library for Microsoft Azure Search
- Azure Search 操作できるポータルサイトを立ち上げる、Azure Web Apps の拡張機能を利用する
- REST API はここを参照 Azure の検索サービスの REST
REST API たたき中心がよい理由は、
- SaaS という特性から。
- 現在、Azure Search は REST API を先行して実装されており、Azure ポータルは二の次の実装、という印象を受ける。Azure のポータル上の変な日本語翻訳に惑わされやすい。
- 試行錯誤等で REST API を何度も叩く可能性あり。
- インデックスは作成した後、一部だけ更新というのができない。
- ツールがプレビュー機能に対応しておらず、プレビュー機能の API を試すことができない。
他
- Azure Search を作成した後、価格レベルが変更できないので注意
- 特に Free で試した後、実際のデータで試したりするとドキュメント数が足りなくて、もう一度作り直す、ということがあって面倒。
- 変更できるようにしてーという Feedback あり。Allow to upgrade the pricing tier – Customer Feedback for Microsoft Azure
- アナライザーは ja.microsoft, ja.lucene どちらともで試した方がよい
- de:code 2016 でも言われていたが、検索対象によって異なってくるので、どちらのアナライザーも実際のデータで試した方がよい。
- CSV は、現在、各行を検索できない。1ファイル単位で検索可能。が、しばらく後検索可能になりそう。please treat each line in a CSV file as a separate document when indexing – Customer Feedback for Microsoft Azure
面白そうな機能
- スコアプロファイリング
- ドキュメント クラッキング (現時点プレビュー)
PDF Microsoft Office 形式: DOCX/DOC、XLSX/XLS、PPTX/PPT、MSG (Outlook 電子メール) HTML XML ZIP EML プレーン テキスト ファイル (.txt) JSON