ホーム > 報告書・刊行物 > びぶろす > 85・86合併号(令和元年10月)

びぶろす-Biblos

85・86合併号(令和元年10月)

びぶろす

  • 発行:国立国会図書館総務部
    (National Diet Library)
  • ISSN:1344-8412

7. 【専門情報機関のデジタルアーカイブ】
渋沢栄一記念財団情報資源センターが公開するデジタルアーカイブについて

公益財団法人渋沢栄一記念財団情報資源センター長 茂原 暢

1.はじめに

情報資源センター(旧・実業史研究情報センター。以下、「センター」という。)は公益財団法人渋沢栄一記念財団(以下、「財団」という。)の“図書・情報部門”であり、さらに“デジタル部門”である。センターの役割は、「近代日本資本主義の父」とも言われる渋沢栄一(しぶさわ・えいいち、1840-1931)の経験や考え方に誰でもアクセスできるよう、「渋沢栄一を社会の中に埋め込むこと」そして「埋め込むための器(うつわ)を作ること」である。センターには資料を一般の利用に供する閲覧室はなく、「文化資源を作り出す」「ウェブサイトが閲覧室」という二つのモットーの下に、渋沢栄一や実業史に関するデジタルアーカイブを、インターネットを通じて提供することで、その役割を果たしている。

センターとして、『びぶろす』への寄稿は平成19年10月号(電子化38号)の「文化資源を作り出す : (財)渋沢栄一記念財団実業史研究情報センターの活動」(小出いずみ)以来2度目となる。今回はその後の12年間において、書籍や雑誌をデジタル化したテキスト系のデジタルアーカイブ3件を紹介することで、センターの取組を振り返りたい。

2.渋沢敬三アーカイブ(2012年9月公開)

「渋沢敬三アーカイブ」は、渋沢栄一の嫡孫である渋沢敬三(しぶさわ・けいぞう、1896-1963)の没後50年を迎えるに当たり、「渋沢敬三記念事業」の一環として、渋沢敬三に関する情報を集約・発信する目的で2012年9月3日に開設された。ここには、テキスト、画像、動画によって、記念事業や渋沢敬三自身に関する多様なリソースがアーカイブされている。センターは国立情報学研究所連想情報学研究開発センターと協力してデジタルアーカイブの開発・公開を行った。

コンテンツの中核をなすデジタル版『渋沢敬三著作集』(以下、『著作集』という。)は、1992年から1993年にかけて平凡社から刊行された『著作集』を、著作権者や出版社の御理解・御協力の下にデジタル化し、国立情報学研究所で開発された電子書籍リーダー「eReading」によって公開したものである。この「eReading」には全文検索機能のほかに、自動索引生成機能および自動脚注表示機能が搭載されており、もともと巻ごとの索引がない『著作集』にグラフィカルな索引が加わるとともに、ページ画像の両サイドに、本文に関連する情報(Wikipedia日本語版、長崎大学附属図書館「WEB版グラバー図譜」)を自動で表示することが可能となっている。


「eReading」で「WEB版グラバー図譜」の関連情報を表示

また、『著作集』の月報や渋沢敬三編著書の解題、伝記(渋沢雅英著『父・渋沢敬三』)など、約50件の渋沢敬三関連記事を、必要に応じて著作権処理をした上で公開している。ここではhtmlによるスタティックなページでのテキスト公開にとどまっているが、書籍などのテキスト化、著作権処理、htmlによるページ作成、サイト公開まで行った一連の経験が、その後のデジタルアーカイブ構築の際に活かされることとなった。


スタティックなページで公開されたテキスト

3.デジタル版『渋沢栄一伝記資料』(2016年11月公開)

『渋沢栄一伝記資料』(以下、『伝記資料』という。)は、渋沢栄一の事績に関する資料を網羅的に収載した資料集である。財団の前身である渋沢青淵記念財団竜門社の編纂により1955(昭和30)年から1971(昭和46)年にかけて刊行された。全68巻(本編58巻、別巻10巻)、総計約48,000ページという分量は、個人の資料集としては破格なスケールであり、全ての内容を把握するには研究者でさえ10年かかると言われてきた。デジタル版『伝記資料』は、財団の基幹資料である『伝記資料』を対象に情報アクセスの改善を図り、渋沢栄一および日本近代史の一大情報源を創造することを目的としたデジタルアーカイブである。

『伝記資料』デジタル化のプロセスは2004年に始まり、ページ画像作成、目次データ作成、全文テキスト化、著作権調査などを経て、2016年11月11日にデジタル版の公開を開始した。現在公開しているのは、本編58巻のうち索引巻(第58巻)を除く第1~57巻、約40,000ページ分の本文テキストとページ画像である(著作権保護期間中の箇所を除く。)。

『伝記資料』の内容は本編と別巻で異なっており、本編は渋沢栄一の生涯を3つの時代で区切り、1873(明治6)年以降の第2編、第3編においては事業別の編年体という構成をとる一方、別巻は日記、書簡、講演録など、資料を種別ごとにまとめた翻刻集のような形となっている。さらに本編では、「綱文」と呼ばれるサマリーの後に関連資料の抜粋が連なるという構造を持っており、デジタル版『伝記資料』では、この基本構造をウェブ上で再現することを目指している。


『伝記資料』本編の基本構造をウェブ上で再現

公開サイトのベースとなるのは、wikiクローン1の「PukiWiki」である。本文テキストのマスター・ファイルは『伝記資料』本編の構造に特化した独自仕様のxml2で、そのほかにいくつかの設定ファイル(著作権による非公開設定や旧字新字変換テーブルなど)と原本をデジタル化した画像データがある。検索機能として「全文検索」と「詳細検索」を用意しているが、これはwiki既存の機能を利用するのではなく、検索対象のwikiテキストから検索用インデックスファイルを作成して検索を行うものである。そのため検索結果が表示されるまでの時間が短く、巻や目次などでの絞り込みや、新字/旧字を区別なく検索することが可能となっている。

4.デジタル版「実験論語処世談」(2017年3月公開)

デジタル版「実験論語処世談」は、『伝記資料』別巻公開システムのプロトタイプ作成プロジェクトに端を発するコンテンツで、2014年に検討が開始され2017年3月8日に公開された。

「実験論語処世談」(以下、「実験論語」という。)は1915(大正4)年から9年間にわたって経済雑誌『実業之世界』に連載された渋沢栄一の談話記事である。1873(明治6)年以降「論語」を人生の指針とした渋沢栄一は、この記事の中で「論語」の解釈だけでなく自らの実体験(実験)を数多く語っている。デジタル版では、『伝記資料』別巻に収載されている記事69編に『伝記資料』からこぼれ落ちた記事8編を追加することで資料の網羅性を確保し、各記事の書誌的来歴および版(エディション)に関するレポートも掲載している。

デジタル版「実験論語」ではGit3クライアントのSourceTreeを使ってオンラインでの編集環境を構築している。以下にシステムの概要図を示す。


SourceTreeを使った編集環境

マスターデータはデジタル版『伝記資料』同様xmlだが、「実験論語」が収載されている『伝記資料』別巻は本編とは構造が異なるため、マークダウン記法4による別仕様となっている。また「実験論語」の内容に鑑み、「論語」の章句や読み下し文の位置情報、人名・地名などのキーワード、記事ごとの書誌的来歴などを記述できるようにしており、マークダウンで記述したフレーズや単語については一覧表形式の索引のほか、ヒートマップ5やバブルチャート、ワードクラウド6を使ったグラフィカルな索引を作成することで、本文への多様なアクセスを可能としている。


本文への多様なアクセス

なお、全文検索にはGoogleカスタム検索を利用している。検索結果がページ単位となる、広告が表示されるなどのデメリットもあるが、ビッグ・ワード7はローマ字でも検索できる(例:西郷→Saigou、論語→rongo)、検索キーワードの揺れを吸収するなど、日頃より使い慣れている大手検索エンジンならではの検索結果を期待することができる。

5. 今後の展望

以上、2007年以降にセンターが公開した3つのテキスト系デジタルアーカイブを見てきた。2012年の「渋沢敬三アーカイブ」から2017年のデジタル版「実験論語処世談」までの変化の中でxmlの採用は大きい。今後新しく開発するコンテンツでは、独自仕様ではなく、「TEI8」のガイドラインに沿ったxmlをマスターデータにする予定である。また、前記マスターデータについても再度TEIによるエンコーディングを施し、リソース間の仕様統一を図ることで、デジタルアーカイブの統合を進めるとともに、TEIファイルでの公開も視野に入れたいと考えている。さらに、「渋沢栄一関連会社名・団体名変遷図」「渋沢社史データベース」「実業史錦絵絵引」などの既存コンテンツや、他機関との連携もチャレンジすべき課題の一つである。

6. おわりに

2019年4月9日、財務省は2024年度に刷新される一万円券の肖像に渋沢栄一を採用すると発表した。同日、デジタル版『伝記資料』や「実験論語」のページビュー数は前日比約15倍となった。このブームは3日ほどで落ち着いたが、社会的な関心が高まる際にデジタルアーカイブがその受け皿になるということを改めて認識した。これから2024年にかけて渋沢栄一に対する関心が再度高まっていくと思われるが、センターの使命は、デジタル・リソースを通じて渋沢栄一と社会とのつながりをさらに強固なものにすることであると考えている。

(しげはらとおる)

  1. 複数のユーザーが、ウェブブラウザを用いて簡便にウェブページの作成・編集を行うことができるソフトウェア。
  2. Extensible Markup Language。文書やデータの構造を記述するためのマークアップ言語の一種。異なる情報システムの間で、特にインターネットを介して、構造化された文書やデータの共有を容易にする。
  3. ファイルの変更履歴を管理するソフトウェア。
  4. タグではなく簡易な記号などを用いて構造化された文書を記述する方法。
  5. 2次元(行列)の数値データを色の違いや濃淡を用いて可視化した図。
  6. テキストデータから単語を抽出し、その出現頻度に応じて文字の大きさを変えて図示する手法。
  7. SEO対策において、サーチエンジンで検索される回数が多く、一般性の高いキーワード(『デジタル大辞泉』)。
  8. Text Encoding Initiative。人文学研究に用いる資料について、テキストをデジタル形式で記述するための標準ガイドラインを策定する国際的プロジェクト。

このページの先頭へ