Azure Search で自炊本 PDF を検索

by:dots.女子部 Advent Calendar 2016 - Qiita

自炊した本PDFファイルをいくつか用意し、Azure Search で中身を検索する実装を試してみました。

大まかな流れは、次の通りです。

Azure Blob Storage に PDF ファイルを入れる
Azure Search を用意する
検索する Web アプリを作成し、HTTP で Azure Search の API から本を検索する

試してみた結果ですが、なぜかいくつかの PDF がインデックスする際にエラーとなってしまい、原因が分からず、結局 6 冊分しか検索できないアプリになってしまいましたorz

今回使用したツールなど：

OS: Windows 10
Azure で使うサービス
- Azure Blob Storage
- Azure Search
IDE: Visual Studio 2017 RC
Web Framework: ASP.NET MVC（ASP.NET Code ではなく）
C#

GitHub サンプルはこちら、gist

作成した Webアプリ

画面

f:id:miso_soup3:20161208170936p:plain

「深層」で検索してみる

f:id:miso_soup3:20161208170943p:plain

Azure Search

Azure Search とは、Azure のサービスの１つで検索 SaaS です。 Azure Search では検索対象となるデータソースを指定できるのですが、そのうちの１つとして、Azure Blob Storage があります。 PDF・Office ファイル・CSV・JSON などを入れた Azure Blob Storage を指定すると、それを検索対象としてインデックスを作成し、HTTP 経由で検索を提供します。この Azure Blob を対象とする機能は、今までプレビューだったのですが、11月末に一部GAとなりました。

また、PDF の場合は Azure Search が PDF の中のテキストを抽出してくれます。

詳しくはこちら：

以下の表は、各ドキュメント形式に関して実行される処理と、Azure Search によって抽出されるメタデータのプロパティをまとめたものです。 Azure Blob Storage のインデックスを Azure Search で作成する

サンプル PDF ファイルの用意

まず、Azure Blob Storage を用意し、そこにサンプル PDF ファイルをアップロードします。

ローカルにて用意した PDF ファイル群：

f:id:miso_soup3:20161208171025p:plain

アップロードには、「AzCopy」コマンドが便利です。AzCopy を使用してストレージにデータをコピーまたは移動する | Microsoft Docs

AzCopy をインストールし、次のようにコマンドを実行します。

AzCopy /Source:C:\Users\hhyyg\Desktop\books2{←PDFがあるフォルダパス} /Dest:https://{your account}.blob.core.windows.net/{conainer 名} /DestKey:{Azure Blob Storage の key}} /S /SetContentType

アップロード後、Microsoft Azure Storage Explorer　等のツールで Blob の中身を確認します。

f:id:miso_soup3:20161208171035p:plain

なぜここで、ファイル名が数字になっていて、ファイル数が6つしかないのか、というと、この後の「インデックス」作成の手順でエラーが発生したからです。エラーについては最後に記載しました。

Azure Search の用意

次に Azure Search の用意です。Azure ポータルにて、Azure Search を作成した後、「データのインポート」を選択します。

f:id:miso_soup3:20161208171135p:plain

データの接続で、先ほど PDF をアップロードした Azure Blob Storage を選択します。

f:id:miso_soup3:20161208171146p:plain

すると、通知欄に”データソースをサンプリングしています”と表示されます。

f:id:miso_soup3:20161208171154p:plain

ここで成功すると、「インデックス」を設定するフォームが表示されます。

f:id:miso_soup3:20161208171201p:plain

↑の画像では、インデックス名が「temp」となっていますが、「booksindex」みたいに分かりやすい名前を付けます。この「インデックス名」は、後のコードで参照します。

設定の内容ですが、画像のように、「content」以外を「取得可能」にチェック、「content」のみを「検索可能」にチェックします。

f:id:miso_soup3:20161208171210p:plain

「content」には、PDF から抽出したテキストが入るため、膨大なサイズの値になります。これを「取得可能」にしてしまうと HTTP でアクセスした際に膨大な値がレスポンスに入ってしまいます。なのでチェックを外します。また、「content」の「検索可能」にチェックを入れるのは、PDFから抽出したテキストを検索対象とするためです。

次に、「アナライザー」タブをクリックし、「content」の「アナライザー」を、「日本語 - Lucene」に設定します。これは、「日本語 - Micorosoft」でもかまいません。 PDF の内容が日本語であれば、このどちらかを選択するのが良いと思います。

f:id:miso_soup3:20161208171218p:plain

次は、「インデクサー」の作成です。ここでは、「１度」を選択します。 Azure Blob Storage の内容が変更になる可能性がある場合は、「毎時間」や「毎日」を選択し、インデックスの内容を更新するようにします。

f:id:miso_soup3:20161208171225p:plain

操作が完了すると、「インデクサー」の画面から成否が表示されます。ここで成功となれば、Azure Search の準備は完了です。

f:id:miso_soup3:20161208171229p:plain

検索してみる

検索の結果は Azure のポータルから確認できます。Azure Search の「Search エクスプローラー」を開き、「検索」をクリックすると検索結果を確認できます。

f:id:miso_soup3:20161208171235p:plain

結果として、metadata_storage_name PDF のファイル名や、metadata_storage_path Azure Blob Storage の URL（base64で変換されています。）が格納されていることを確認できます。アプリを作成する場合は、この URL を SDK などで叩いて HTTP アクセスにより検索結果を得ます。

ここで、実際の PDF のテキスト内容が格納されていない理由は、先ほどの「インデックス」の設定で「content」の「取得可能」にチェックを入れなかったためです。もし、チェックと入れていると、ここで大量のテキストデータがここに出力されることになります。

Web アプリを作成

検索を試してみたところで、Web アプリを作成します。今回は ASP.NET MVC 5 で作成しましたが、HTTP 経由で Azure Search にアクセスするので他のプラットフォーム・フレームワークでも作成できます。

Visual Studio で ASP.NET MVC 5 のベースを作成した後、NuGet パッケージ「Microsoft.Azure.Search」をインストールします。インストール後、Web.config にて、次のようにキーを設定します。

このキーの名前は、後の実装によるので、実装とともに変更して構いません。キーの値は、ポータルより確認できます。

f:id:miso_soup3:20161208171244p:plain

サンプルは GitHub にありますので、ここでは注意点だけ記載します。

ハイライト

検索結果をハイライトして表示するには、リクエストを送信する際にどのフィールドをハイライトしたいか指定します。 Azure Search SDK を使った今回は、次のように「content」をハイライト対象に設定しました。

return new SearchParameters()
{
    SearchMode = SearchMode.Any,
    IncludeTotalResultCount = true,
    HighlightFields = new string[] { "content" },
    Top = 20
};

base64 デコード

レスポンスにある「metadata_storage_path」フィールドには、Azure Blob Storage の URL がエンコードされて格納されます。実際に PDF を取得するには、この Azure Blob Storage の URL にアクセスする必要があるのですが、デコードは次のようにします。

System.Text.Encoding.UTF8.GetString(HttpServerUtility.UrlTokenDecode("{metadata_storage_path の値}".ToString()));

エラー

インデックスの際のエラーですが、発生した原因は分からず、以下の可能性が怪しいとみています。

ファイル名が日本語だから？
PDF ファイル内のコンテンツが日本語？変な値がある？

f:id:miso_soup3:20161208171041p:plain

エラーメッセージ： 説明データソースからインデックススキーマを削除するときにエラーが発生しました: "Error processing blob 'https://misobooksst.blob.core.windows.net/mycontainer/180日でグローバル人材になる方法.pdf' with content type '': 422

Azure Search では日本語関連の問題に出会うことが多いです。現在このエラーの原因の調査をお願いしています。（12/9）

miso_soup3 Blog

主に ASP.NET 関連について書いています。