ホーム > 報告書・刊行物 > びぶろす > 85・86合併号(令和元年10月)

びぶろす-Biblos

85・86合併号(令和元年10月)

びぶろす

  • 発行:国立国会図書館総務部
    (National Diet Library)
  • ISSN:1344-8412

10. 次世代デジタルライブラリーの機能紹介:発見性の改善に向けて

国立国会図書館電子情報部電子情報企画課次世代システム開発研究室 里見 航、青池 亨、川島 隆徳

概要

国立国会図書館では、次世代のデジタルライブラリーの開発を目指し、調査研究を行っている。これまでの調査研究の成果として2019年3月29日にNDLラボのWebサイトから次世代デジタルライブラリーという実験サービスを公開した。

次世代デジタルライブラリーの大きな目的は、全文テキスト検索機能や機械学習を用いた自動処理やInternational Image Interoperability Framework(IIIF) API1等の技術的有効性を検証することである。

本稿では次世代デジタルライブラリーが有する機能(1. 全文テキスト検索、2. 図版の自動切り出しを利用した画像検索、3. 提供資料の白色化、4. 資料の目次自動生成、5. スマートフォン表示のための自動画像加工、6. IIIFの活用)と採用した技術を説明し、今後の展望について述べる。

I. 次世代デジタルライブラリー構築に当たって

1. 背景

図書館が提供する情報探索サービスは、最新技術を効果的に取り入れることで、自館が有する情報資源から、利用者に対して、より多くの知識をより使いやすい機能によって提供していくことが可能になると考えられる。

光学文字認識(OCR)の技術もその一つである。OCRによる全文テキスト化の事業の一例として、米国議会図書館は、古い新聞をOCR処理したテキストデータを公開するサービス2を行っている。英国図書館は、OCRの性能を向上させるための研究に対する支援として、ドキュメント自動認識の国際学会であるInternational Conference on Document Analysis and Recognition (ICDAR)に対してインド貴重書の画像と正解データを含むデータセットを提供し、ICDAR主催でOCRコンテストを実施した3。またGoogle Booksでは既に、OCRを利用した書籍の全文テキスト検索サービスが提供されている。一方、日本においては、2019年1月1日に改正著作権法が施行され、著作権保護期間内の著作物であっても、権利処理をせずに全文テキスト化し、これを検索可能にするとともに、その一部を検索結果と合わせて表示するサービス(所在検索サービス)や、情報を収集して解析し、求めに応じて解析結果を提供するサービス(情報解析サービス)が可能となった。今後は図書館でも全文テキスト検索を利用した有効な図書館サービスを検討していく必要がある。

また、機械学習技術の活用の試みとしては、英国図書館が2015年から提供している“British Library Machine Learning Experiment”がある。このサービスでは、著作権保護期間が満了した16世紀から19世紀までの資料画像に対して、機械学習に基づいてタグを自動付与している。日本国内では、奈良文化財研究所と東京大学史料編纂所が共同開発して提供している木簡(文字を記した木片)を画像検索する「MOJIZO 木簡・くずし字解読システム」や、国立情報学研究所と国文学研究資料館が開発した古典籍資料を画像検索するサービス「古典籍画像検索」が存在する。

また、デジタルアーカイブ提供機関として利用者の利便性を考えたとき、国際的な標準仕様に対応したサービスを提供することや、システム部門が仕様の技術面を利用者の目線で検証しながらサービスを提供することは重要である。IIIFは国際的な画像の相互運用のための規格であり、これに準拠することで国内外のデジタルアーカイブの間で互いの資料の比較や一元的な表示が可能になる。IIIFのホームページでは、世界の国立図書館や大学図書館等、計120機関(2019年4月12日現在の状況)がIIIFコミュニティ参加機関として掲載されている。当館はIIIFコミュニティ参加機関ではないが、2018年5月から順次IIIFへの対応を開始し、国立国会図書館デジタルコレクションにおいて、著作権保護期間満了資料を対象にManifestURI4及びImageAPI5による画像の提供を進めている。

2. 実験の目的

次世代デジタルライブラリーの構築に当たり、上記の背景を踏まえて、デジタル化資料の今後の提供方法を検討するべく、実験全体として次の3つの目的を設定した。

・ OCRソフトウェアの出力したテキストを利用する全文テキスト検索機能を検証する

・ デジタル化資料の発見性・検索性と提供方法の改善のための機械学習技術を検証する

・ IIIF APIを利用した画像表示を検証する

3. 次世代デジタルライブラリーの搭載資料

2019年8月時点で、日本十進分類法(NDC)において、「産業」に該当する1890年代から1940年代までの資料約2万5000件が利用できる。「農業」「園芸」「蚕糸業」「畜産業」「林業」「水産業」「商業」「運輸・交通」「通信事業」等の分野の資料が含まれる。搭載資料については順次拡大予定である。

II. 次世代デジタルライブラリーの機能の特徴と効果

本章では、前述の目的を追求するために、次世代デジタルライブラリーで提供している機能について、技術面での特徴と現時点で確認できた効果について述べる。

1. OCRを利用した全文テキスト検索機能
(1)目的

OCRにより作成したテキストを利用した全文テキスト検索機能を提供し、情報探索を支援する。

(2)手法の概要

ABBYY FineReader 12及びOmnipage Ultimate 19.0を用いて、見開きページごとにテキストファイルを出力し、検索に利用した。

(3)次世代デジタルライブラリーにおけるインターフェース

図1.1のとおり、検索時にヒットした箇所がハイライトされ、ヒットした箇所の前後が一部表示される。


図1.1 「牛乳」で検索した際の検索結果

図1.1は、検索クエリ「牛乳」に対して、検索順位1位に牛乳の品質検査方法を指南する資料(1901年出版)が、検索順位2位に乳牛品種改良の研究会の報告資料(1943年出版)がヒットしている。

(4)効果

OCRの出力にはノイズが多く含まれるが、単語等の短い文字列であれば検索の実用に堪えると考えられる。今回次世代デジタルライブラリーから提供している資料群には、出版当時存在した会社組織の事業内容をまとめた書籍が含まれている。「半世紀以上前に消滅した会社がどのような事業を扱っていたのか調べてほしい」という当館に寄せられたレファレンス事例に対して、既存の検索サービスでは見当たらなかった資料から、該当する事実を発見できたとの報告があった。

2. 機械学習による図版の自動切り出しを利用した画像検索
(1)目的

従来の検索サービスと異なる、切り口の新しい情報探索を支援する。

(2)手法の概要

Semantic segmentationと呼ばれる深層学習の手法(DeepLab V3+6)を用いて、機械学習モデルに領域を「文字」「図版」「それ以外」に塗り分けて自動認識するタスクを学習させた。学習用データは筆者が作成し、対象資料の選定において一部Crowd4Uの成果物7を利用した。技術的な詳細は別稿8に示した。


図2.1 図版の自動切り出しと画像検索の流れ図

まず「図版」として認識された領域を切り出し、互いにサイズや解像度の異なる図版同士の類似度を比較するために、深層学習の手法(事前に学習済のDenseNet9)によって、画像の持つ情報を同じ長さのベクトルに要約した特徴を抽出した(図2.1)。

各画像から抽出した特徴について、類似したベクトルを高速に探し出すための手法(Neighborhood Graph and Tree for Indexing(NGT)10)を用いて検索システムを構築した。

(3)次世代デジタルライブラリーにおけるインターフェース及び効果[ndl4]


図2.2 「百花弁覧」の資料画像(右)から自動で切り出された図版群(左)を表示するUI

図2.2の資料に含まれる文字部分は毛筆による手書き文字に近い書体であり、現在の技術ではOCRによってテキスト化することが困難である。したがって文字列検索によってこのページを発見することは非常に難しい。しかし、図版部分(この資料では植物のスケッチ)を自動的に切り出し、類似画像検索機能を提供することによって、このページを発見するための新たな方法を提供することができたと考えられる。

3. 機械学習による提供資料の白色化
(1)目的

国立国会図書館デジタルコレクションでインターネット公開されている資料には、経年変化による変色や撮影時のコントラスト不良のために文字が読みづらくなっている資料が多く含まれる。このように可読性の損なわれた資料に対して文字や図版・図表以外の部分のみを白く変換することで、可読性を向上させる。

(2)手法の概要

学習データとして与える2枚の画像間の対応関係を学習するGenerative Adversarial Network(GAN)と呼ばれる深層学習の手法(pix2pix11)を用いた。元画像と文字部分以外の部分を白く修正した画像の対応関係をモデルに学習させた。学習方法等の技術的な詳細は別稿12に示した。入力画像がカラーであっても、出力される画像は白黒画像である。

 
図3.1 元資料画像(左)と資料白色化によって得られた画像(右)

(3)次世代デジタルライブラリーにおけるインターフェース

図3.2に示したとおり、可読性を高めたい利用者は画像下部にあるメニューからダウンロードボタンを押すことで、白色化した資料画像をダウンロードすることができる。


図3.2 白色化画像のダウンロードボタン(左)とダウンロードされた画像(右)

(4)効果

資料画像の可読性が向上した。一般的な二値化13やコントラスト補正14と比較すると、文字のつぶれがなく輪郭や濃淡の変化が滑らかである。また、印刷時においても可読性が大きく改善しており、利用者への複写サービス等への展開が期待できる。

4. 機械学習による目次を含むページの自動検出と自動目次生成
(1)目的

全文テキスト検索と書誌メタデータに対する検索の中間の粒度となる「目次」を自動生成し、情報探索におけるガイドを提供する。

(2)手法の概要

画像の分類のタスクにおいて高い性能を持つ深層学習の手法(Xception15)を用いて、目次を含むページと目次を含まないページを分類する画像分類モデルを作成した。作成したモデルで目次のあるページを自動認識し、発見した目次ページ中に含まれるテキストをOCRで読み取った。さらに、テキスト中の一定以上の長さの部分文字列が書籍中で最初に登場する場所を見つけることで、目次と該当ページのリンクを自動生成した。

(3)効果

目次ページの発見は9割程度の精度となったが、目次の自動生成はOCRの精度の影響も受けるため有効なレベルには達していない。とはいえ、目次ページに限定された全文テキスト検索は可能となり、全てのページを検索するよりも相対的に検索の適合率が高くなることが期待される。当館では、資料のデジタル化の際に目次のテキストデータも手動で作成しており、将来的にはこの作業の半自動化も実現したい。

5. 機械学習によるページ分割と背景領域の除去
(1)目的

国立国会図書館デジタルコレクションでは、デジタル化資料を横幅の大きな見開きの状態で提供している。近年普及してきたスマートフォンやタブレット端末等、縦に長いディスプレイで閲覧する利用者の利便性のため、見開き位置で自動的に分割し、加えて資料部分をより大きく表示できるよう撮影時の背景を自動的に取り除いて提供する。

(2)手法の概要

画像中から特定の物体を認識するための手法(Single Shot Multibox Detector16)を利用し、資料ののど元位置を自動的に検出した。また、Semantic Segmentationの手法(SegNet17)を利用して、計算時間短縮のために縮小した資料画像から資料の含まれる領域を抽出した。これらの結果を組み合わせることで1ページ単位の表示を実現した(図5.1)。


図5.1 元画像に対して2種類の処理を別々に行い、結果を合わせてページ単位の表示を行う


図5.2 表示方法の切替え操作(左)と、スマートフォンによる実際の表示画面(右)

(3)次世代デジタルライブラリーにおけるインターフェース

図5.2に示したとおり、利用者は画像下部にあるメニューから表示方法を変更することができる。

(4)効果

機械学習による自動処理により、従来のデジタル化資料をスマートフォンによる表示に適した表示形式に変換できることが確認できた。

6. IIIF APIによる画像取得
(1)目的

国立国会図書館デジタルコレクションが対応したIIIF APIを活用して技術検証を行い、サービスへの応用を検討する。

(2)手法の概要

サムネイル表示のためにIIIFのImage APIを利用して、国立国会図書館デジタルコレクションから画像を取得している。また、資料画像の表示のためにLeaflet-IIIF Viewerを本サービス用途にアレンジしたビューワを利用している。

(3)効果

デジタルアーカイブがIIIF APIに準拠することで世界中の機関のデジタル化資料の一元的な表示が可能になるため、IIIF APIに準拠した資料を表示するためのビューワが世界中の技術者の手によって開発されている。資料画像の閲覧機能を開発するに当たり、既存のIIIFビューワの中から次世代デジタルライブラリーに必要な要件(例えば、スマートフォンにおける動作が軽量である等)に近いビューワを選択して土台に利用することで、少ない労力で開発を行うことが可能となった。また、IIIF Image APIは画像中の特定部分の切り出しやサイズ変更にも対応しているため、今回の実験機能を提供するに当たって、次世代デジタルライブラリーとして独自に画像データを保有したり、取得した画像をシステム内部で加工したりする必要がないことも大きな利点である。国立国会図書館デジタルコレクションが保有する画像データをIIIF APIで表示することにより、次世代デジタルライブラリーは画像以外の情報だけを持てばよく、ストレージ容量を節約してサービスを提供することが可能となった。

7. まとめ

全文テキスト検索については、実際のレファレンスの場で活用されるなど、内容検索の提供可能性が広がる点において早くも有用性が示されつつある。また、機械学習技術を利用した各実験的機能においても、資料白色化をはじめとした資料の提供方法の大きな改善や、画像検索による新しい情報探索方法を一般の利用者が試せるサービスとしてリリースすることができたと考えている。利用者から寄せられたフィードバックを活用することによって、今後開発する機能の検討や性能改善につなげていきたい。

III. 次のステップ

次世代デジタルライブラリーは、今後、次に掲げる2種類の役割を果たしていきたいと考えている。

1. 当館サービスにおいて採用する技術を検討するパイロットサービスとしての役割

調査研究活動を今後も続けて、図書館サービス上有用と考えられる機能を開発・公開していく予定である。また既に公開した機能についても、より高い性能を発揮できるよう、最新の技術動向を取り入れ、データセットを拡充しながら改善を試み続けることが重要である。本サービスで実験的に先端的な機能を一般に公開し、利用者やエンジニアからのフィードバックを得ることによって、当館が今後正式サービスに導入する技術を検討する際の見通しが立ちやすくなると考えられる。

2. 機械学習用途に当館がデータセットやソースコードを一般に公開していく際の利活用事例としての役割

今回の次世代デジタルライブラリーを構築するに当たって学習時に用いたデータセットや実験に用いたソースコードを公開し、広く活用を促すことも次のミッションである。次世代デジタルライブラリーに実装された機能や今後実装される機能によってエンジニアの注目を集め、当館の提供するデータセットから新たなサービスを生み出す意欲を喚起する役割を果たしていくことが望ましい。

最後に

先進的な情報技術を用いて利用者のニーズを満たす図書館サービスを実現するためには、解決したい課題に対して、どのような既存の方法を適用すれば目的を達成できるのかを把握する必要がある。今回の事例紹介が技術導入に積極的な図書館関係者の参考になれば幸いである。

最後に、他組織が実験サービスを開発する際の体制の参考のため、今回の開発の役割分担を記述する。

里見航: ITインフラ構築と資料白色化機能の開発

青池亨: 各種機械学習機能の開発(※資料白色化機能を除く)

川島隆徳: Webサービスの開発

謝辞

機械学習による背景白色化及びページ分割について、国立情報学研究所阿辺川武特任准教授からデータセットの提供及び助言を頂いた。

機械学習による図版の自動切り出しについて、人文情報学研究所の永崎研宣主席研究員からデータセットの一部提供及び助言を頂いた。

国立情報学研究所高野明彦教授、東京大学美馬秀樹准教授、同増田勝也特任助教から、研究進捗について有意義な助言を頂いた。

この場を借りて御礼申し上げる。

(Appendix)サービス構成図


図Appendix. サービス構成図

システム構築の参考のために本サービスの簡単な見取り図を図Appendixに示した。

本サービスは、サービスを提供するメインのAPIサーバのほかに2つのAPIサーバとElasticsearchサーバからなる。これらサーバはそれぞれDockerコンテナ上で動作し、コンテナ管理ソフトウェアであるRancherを利用して運用している。

資料白色化のAPIサーバは、利用者が要求したタイミングで該当するページを国立国会図書館デジタルコレクションからダウンロードして白色化処理を実行し、処理の完了した画像を提供している(青い矢印)。

ElasticsearchサーバはOCRによる全文テキストや国立国会図書館デジタルコレクションの書誌メタデータのほか、各ページに対して各種機械学習を適用して得られた情報を保存しており、検索時や資料の表示時に参照される(黒い矢印)。

画像検索APIサーバには、切り出された図版画像の特徴が保存されており、NGTを用いることにより、クエリ画像と類似した画像を高速に検索することができる(黒い矢印)。

資料画像の表示には国立国会図書館デジタルコレクションが提供するIIIF APIを活用している(赤い矢印)。

(さとみ わたる、あおいけ とおる、かわしま たかのり)

(付記)本稿は、2019年8月にギリシャのアテネで開催された世界図書館情報会議(国際図書館連盟(IFLA)第85回年次大会)において、英語で発表した内容をもとにしたものです。外国の聴衆に向けた内容となっていることに御留意ください。

  1. デジタル画像へのアクセスを標準化し、相互運用性を確保することを目的とする、国際的なコミュニティの枠組みであるIIIFに対応したAPI。
  2. https://chroniclingamerica.loc.gov/ocr/
  3. https://blogs.bl.uk/digital-scholarship/2017/03/british-library-launches-ocr-competition-for-rare-indian-books.html
  4. IIIFに準拠した形式で資料のメタデータを提供するためのURI。
  5. IIIFに準拠したデジタルアーカイブの提供する画像に対して、取得したい領域・サイズ・回転等を指定して取得させるためのAPI。
  6. Chen, Liang-Chieh, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation, “Proceedings of the European Conference on Computer Vision (ECCV)” 2018.
  7. Crowd4Uとは、公共と学術の問題解決のための非営利のマイクロボランティア・クラウドソーシングプラットフォーム。短時間で作業可能な仕事が多数登録されており、それを皆で分担して作業する仕組みを構築している。詳細は、永崎研宣, et al. 「オープンサイエンスの基盤としての国デコ Image Wall: IIIF+ Crowd4Uの活用事例として」情報処理学会研究報告 人文科学とコンピュータ (CH) vol. 2016-CH-112 No.3, 2016.10, pp.1-4.
  8. Wataru Satomi, Toru Aoike, Takeshi Abekawa, Takanori Kawashima. Machine learning approaches for background whitening and contrast adjustment of digital images, “Proceedings of the 8th Conference of Japanese Association for Digital Humanities”, pp.157-160 (2018)及び青池亨・里見航・川島隆徳 「資料画像中の挿絵領域の自動抽出及び画像検索システムの実装」『デジタルアーカイブのイノベーション:人文科学とコンピュータシンポジウム論文集 : じんもんこん2018 (情報処理学会シンポジウムシリーズ = IPSJ symposium series)』vol. 2018 no. 1, 2018.11, pp.97-102 [国立国会図書館請求記号:H11-M9]
  9. Huang, Gao, et al. Densely connected convolutional networks. “Proceedings of the IEEE conference on computer vision and pattern recognition”, 2017
  10. Iwasaki, Masajiro. Pruned bi-directed k-nearest neighbor graph for proximity search. “International Conference on Similarity Search and Applications”, SISAP 2016. Lecture Notes in Computer Science, vol 9939, Springer, Cham, 2016
  11. Isola, Phillip, et al. Image-to-image translation with conditional adversarial networks. “Proceedings of the IEEE conference on computer vision and pattern recognition” 2017.[国立国会図書館請求記号:Z53-F56]
  12. 青池亨・里見航・川島隆徳 「資料画像中の挿絵領域の自動抽出及び画像検索システムの実装」『デジタルアーカイブのイノベーション:人文科学とコンピュータシンポジウム論文集 : じんもんこん2018 (情報処理学会シンポジウムシリーズ = IPSJ symposium series)』vol. 2018 no. 1, 2018.11, pp.97-102 [国立国会図書館請求記号:H11-M9]
  13. 画像内の濃淡を特定の基準で「白」と「黒」の2色に分け、グラデーションをなくすこと。
  14. 画像内の濃淡をより見やすくなるように強調すること。
  15. Chollet, Fran?ois. Xception: Deep learning with depthwise separable convolutions. “Proceedings of the IEEE conference on computer vision and pattern recognition.” 2017.
  16. Liu, Wei, et al. Ssd: Single shot multibox detector. “European conference on computer vision.” Springer, Cham, 2016.
  17. Badrinarayanan, Vijay, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. “IEEE transactions on pattern analysis and machine intelligence” Vol.39. No.12, 2017.12, pp.2481-2495. [国立国会図書館請求記号:YH247-1130]

このページの先頭へ