• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

トップ > 刊行物 > びぶろす > 69号(平成27年7月)

びぶろす-Biblos

69号(平成27年7月)

びぶろす

  • 発行:国立国会図書館総務部
    (National Diet Library)
  • ISSN:1344-8412
2. 【特集・著作権(応用編)】
視覚障害者等へのテキスト化データ提供を目指して

日本点字図書館 澤村 潤一郎
国立国会図書館電子情報部 原田 久義

1. デジタル化資料のテキスト利活用に関する実証実験

平成22年1月に施行された改正著作権法により、国立国会図書館を含む図書館等において視覚障害者等のための著作物の複製及び自動公衆送信が著作権者の許諾なく行えるようになった(第37条第3項)。

国立国会図書館ではその趣旨に沿い、視覚障害者等を対象としたデジタル化資料のテキスト利活用に関する実証実験を実施してきた。具体的には、平成22年度に実施した「全文テキスト化実証実験」、平成24年度の外部研究機関との協同によるOCR1認識率向上に向けた取組、平成25年度のOCR読み取りテキストデータを基にした音声配信実験がそれである。

これらの実験結果から、画像データ(デジタル化資料)からOCRを用いてテキストデータを作成する方法の場合、実用に耐える認識率を得ることは、現時点における技術水準では困難であることが判明している。

一方、次項で述べるとおり日本点字図書館の「アクセシブルな電子書籍製作実験プロジェクト」(以下「本プロジェクト」という。)では、クラウドソーシング型図書校正システムの複数OCR結果の突合機能及び共同校正インターフェースによって、テキスト化の精度向上の効率化を実現している。

2. 日本点字図書館「アクセシブルな電子書籍製作実験プロジェクト」

日本点字図書館は、テキストDAISY2等テキスト化データの製作効率化と利用促進を目的として、日本アイ・ビー・エム株式会社、東京大学大学院情報理工学系研究科廣瀬・谷川研究室、メディアドライブ株式会社の協力のもと、平成25年10月から本プロジェクトを開始した。

テキストDAISYは、デジタルテキストからなるリフロー型電子書籍3である。見出しやページ単位でコンテンツ内を移動できる等のナビゲーション機能をもち、既存のDAISY再生端末やPCソフトウェアで、視覚障害者等の間で既に普及している音声DAISY形式の録音図書と同等の操作感で利用することができる。音声合成機能で読み上げさせて耳で聴いたり、文字のサイズや配色を変えて目で読んだりと、障害の程度に応じて複数の方法で読むことが可能である。合成音声で読み上げる際に漢字等の誤読が避けられないという欠点はあるが、ソフトウェアによっては、漢字等の表記を一文字単位で読み上げさせて確認することができる。製作に点訳や音訳といった専門技能を要しない分、多くの場合数か月の製作期間を要する点字図書・録音図書より迅速な提供が期待できる。

本プロジェクトでは、原本のスキャン画像をOCR処理した際に生じるテキスト等の誤認識修正に、クラウドソーシング型図書校正システムを導入している。2ないし3種類のOCRソフトウェアによる認識結果を突合して得た校正対象を3種類に自動分類し、それらを不特定多数の参加ボランティアに確認・修正してもらうことで、テキストDAISYのもととなるデジタルテキストの校正の迅速化・効率化を図っている。

また本プロジェクトでは、Web上のオープン・コミュニティを参加者の活動基盤としている。ここで障害当事者は、読みたい図書・資料のテキストDAISY化リクエストができ、ボランティアは校正作業のほか、作業に関する質問や情報交換ができる。このように、Web上でいつでも気軽にコミュニケーションができる仕組みを用意することで、テキストDAISYの利用促進と、ボランティア活動の活性化を図っている。

3. 視覚障害者等へのテキスト化データ提供に係る実験の概要

平成27年3月11日に、日本点字図書館と国立国会図書館は協力に関する覚書を取り交わした。

この覚書に基づき、平成27年度は本プロジェクトに係るシステムを日本点字図書館から国立国会図書館へ移管し、日本点字図書館が行ってきた従来のテキストDAISY製作に加えて、以下の実験を協力して実施する。

国立国会図書館デジタル化資料テキスト化データの視覚障害者等向け提供実験として、国立国会図書館のデジタル化資料5タイトルを、本プロジェクトのフローでテキストDAISY化する。この中には旧字資料や学術文献録音図書4として製作実績のある資料も含まれる。

その後、OCR処理やクラウドソーシング型図書校正システムでの作業等に要したコストを試算し、日本点字図書館での製作実績や商用電子書籍の外注製作相場と比較して、国立国会図書館デジタル化資料等の全文テキスト化に対するシステムの有効性を評価する。

また、製作したテキストDAISYを本プロジェクトのコミュニティ・サイトやサピエ図書館で配信し、アンケートやダウンロード数の調査等を通じて利用者満足度を評価する。

その他、視覚障害者等用データ(DAISY/テキスト)の製作を行っている複数機関にシステムの利用希望やニーズ、必要なシステム要件をヒアリングし、システム利用による視覚障害者等向け資料の製作促進可能性を検証する。

日本点字図書館と国立国会図書館は以上の実験を今後継続して実施することにより、課題であるテキスト化の精度向上の実現、他の図書館等における視覚障害者等向け資料製作の効率化の可能性を検証していく予定である。

(さわむら じゅんいちろう/はらだ ひさよし)

  1. 光学文字認識(Optical Character Recognition)
  2. DAISY(Digital Accessible Information System)は、視覚障害や学習障害等により印刷物を読むことが困難な人々のために開発されたアクセシブルな情報システムの国際標準規格。この規格で製作したコンテンツには、音声DAISY、テキストDAISY、マルチメディアDAISYの3種類がある。本稿では、テキストDAISYを中心に述べる。
  3. 画面サイズやフォントサイズの設定に応じて文章行の折り返し等のレイアウトが自動的に変更される形式。
  4. 視聴覚障害者等の利用に供するため、図書館等を通じた利用者からの申込みに応じて、国立国会図書館が所蔵する専門的な学術文献をDAISY規格で製作した録音図書。

このページの先頭へ