• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

Linked Web NDL AuthoritiesとGeoNames.jp―典拠データの利活用事例紹介

NDL書誌情報ニュースレター

NDL書誌情報ニュースレター2017年2号(通号41号)

【はじめに】

国立国会図書館では、作成・維持管理している典拠データをWeb NDL Authorities(国立国会図書館典拠データ検索・提供サービス)で公開・提供しています[1]。ウェブでの利用可能性を考慮し、コンピュータが理解して処理できる形、つまり、ウェブでつなげることができるLinked Dataとして提供しています[2]

このたび、当館の典拠データの利活用について、ICTコンサルティング等の事業を行うインディゴ株式会社の松澤有三さんにお話を伺いました。松澤さんは、Web NDL Authoritiesの典拠データにWikipedia、DBpediaのデータをリンクし、人物の情報や人脈(人物間の関係)を視覚的に表現する「Linked Web NDL Authorities」を公開しています。また、Web NDL Authoritiesと、Linked Open Dataのための地理空間情報の基盤となる「GeoNames.jp」のリンクセットも公開しています。これは、それぞれに含まれる同一地名のURIをつないだものです。これら二つの事例について、ご紹介いただきました。

1. Linked Web NDL Authoritiesについて

Linked Web NDL Authoritiesの概要について教えてください。

2015年11月に開催された「国立国会図書館のデータを使い尽くそうハッカソン」[3]に参加したことがきっかけで作ったアプリケーションです(図1参照)。

Web NDL Authorities で提供されている人物の典拠データについて、人物の説明を表示したり、関係のある人物へのリンクを表示したりできたらもっと使いやすくなるのではないかというアイディアが発端でした。

実現にあたって二つのリンクセットとそれを用いたアプリケーションを用意しました。

  1. Web NDL AuthoritiesとDBpedia Japanese[4]の同一人物をつなげたリンクセット(後述)。
  2. Web NDL Authoritiesの人物間の「知人」関係をまとめたリンクセット。Wikipedia日本語版のページ間のリンク関係を「知人」関係とみなして作成したものです。
  3. Web NDL Authoritiesのページを模したデモアプリケーション。上記1、2のリンクセットのデータをもとに、Web NDL Authoritiesから取得した標目、生年、没年等の基本情報、DBpedia Japaneseから取得した人物の説明、「知人」関係のリンク(図1の赤枠参照)が一つのページに表示されます。

    図1 Linked Web NDL Authorities画面例(抜粋)

「1.Web NDL AuthoritiesとDBpedia Japaneseの同一人物をつなげたリンクセット」は、どのように作成しているのでしょうか?

当初はWeb NDL AuthoritiesとDBpedia JapaneseのそれぞれのSPARQL Endpoint[5]から人物の名前・生没年を取得して完全一致するものだけを抽出していたのですが、表記の揺らぎや生没年の不備などが原因で漏れてしまう人物が多いのが悩みでした。

その後、バーチャル国際典拠ファイル(Virtual International Authority File; VIAF)で、VIAFに提供されている各機関の典拠データの識別子の対応関係が整備されたデータセットが公開されており、VIAF URIとWikipedia URI、VIAF URIとNDL ID[6]の関係もそれぞれ整備されていることを知りました。現在はWeb NDL AuthoritiesのSPARQL Endpointから取得した人物のNDL IDのリストをソースとして、VIAFのデータセット内のNDL ID→VIAF URI→Wikipedia URIの対応関係をたどることでリンクセットを作成しています。

Web NDL Authoritiesの典拠データをどのように利用しているか教えてください。

リンクセットやアプリケーションの作成過程で、Web NDL AuthoritiesのSPARQL Endpointを利用し、以下のような典拠データを取得しています。

  1. Web NDL Authoritiesの典拠データにおける人物(個人名典拠)の一覧。上述のとおり、この中のNDL IDを一次データとして利用し、VIAF URIを介したWikipedia URIとのリンクセットを作成しています。
  2. 特定の人物の情報一式。ウェブブラウザ上でLinked Web NDL AuthoritiesのHTML画面(図1参照)を生成するのに利用しています。

Linked Web NDL Authoritiesの利活用について、どのようなものを期待されていますか?

Web NDL Authoritiesでは地名や出来事など多様な典拠データが整備されていますが、Linked Web NDL Authoritiesで扱っているのは今のところ人物だけです。

地名と人物、人物と出来事、といったようにリンクを増やしていくことで、典拠データがもっと使いやすくなるのではないかと思っています。

2. Web NDL AuthoritiesとGeoNames.jpのリンクセットについて

まずは、GeoNames.jpの概要について教えてください。

GeoNames.jpは、日本の都道府県から郡、市区町村、町名・字・丁目にいたる地名を対象として、それぞれの地名にURIを付与した、地名のURI基盤です(図2参照)。


図2 GeoNames.jpの画面例

「http://geonames.jp/resource/」の後に都道府県から始まる地名を記述することで、URIとして使用できるという特徴があります。たとえば、国立国会図書館のある千代田区永田町1丁目は「http://geonames.jp/resource/東京都千代田区永田町一丁目」というURIで表現され、人が閲覧できるHTMLページと機械処理用のメタデータをそれぞれ提供しています。

Linked Open Dataはその名のとおりデータとデータのリンクを重視していますが、特に地名はさまざまなデータからリンクしやすいものと考えられています。世界的には、GeoNames.orgというサービスが地名のURI基盤として有名ですが、日本語の誤りや、日本の小地域地名の網羅性が低いことなどから、国内ではなかなか活用が進まない状況でした。一方、日本の地名に特化したGeoNames.jpはこのような課題を解決し、地名とさまざまなデータをつながりやすくすることを目的としています。

Web NDL AuthoritiesとGeoNames.jpのリンクセットは、どのような点が期待できますか?

GeoNames.jpでは、Web NDL Authoritiesだけでなく、GeoNames.orgやDBpedia Japanese、統計LOD[7]など外部のデータセットに対して、同一地名をリンクしたリンクセットも公開しています。

これらのリンクセットは単体でそのまま役に立つようなものではないのですが、たとえば「東京都の○○年時点の人口を知りたい」といった場合に、Web NDL Authoritiesの地名典拠「東京都」のIDをソースとして、GeoNames.jpの地名のID→統計LODの地名(都道府県、市区町村別)のID→その地名に関する統計データ、といったように機械的にリンクをたどることができます。Web NDL Authoritiesとのリンクセットは、こうした必要なデータにアクセスできるようにするための基盤の一部となることが期待できます。

GeoNames.jp自体については、どのような利活用が期待できるでしょうか?

場所に関連する情報であればなんでもつなげられる、というのがGeoNames.jpの強みです。なかでも、統計分野や地理情報分野ではさまざまな機関から膨大なデータが提供されているので、このようなデータを相互につなぐためのハブとしてGeoNames.jpが活用できたらいいですね。

また、特にアーカイブの分野では、過去に存在した地名をどうやって保存していくかが課題です。現在のGeoNames.jpでも、過去に存在した自治体名などは提供しているのですが、さらに粒度の細かい、消えてしまった町名なども収録していきたいです。

3. Web NDL Authoritiesを利用して

Web NDL Authoritiesのデータの特徴や強みは、どのような点にあると思われましたか?

技術的な話になってしまうのですが、データ構造の設計・配信ともに、ウェブの標準に忠実でとてもよいと感じています。データ構造に関しては、FOAF(Friend of a Friend)SKOS(Simple Knowledge Organization System)といったよく使われる語彙を中心に設計されており、理解が容易でした。データもSPARQL Endpointと個別の典拠データのURIを通じて取得することができ、用途に合わせて選択することができました。

最後に、Web NDL Authoritiesについて、何か利活用のヒントがあればお聞かせください。

Web NDL Authoritiesは、GeoNames.jpと同様にデータを持続的にリンクするための情報インフラとして重要だと考えています。派手で即効性のある応用というのはなかなか難しいかもしれませんが、持続的にデータをつなげていければいいなと考えています。

【おわりに】

「データをリンクすると何ができるようになるのか?」という問いは、Linked Dataを作成・提供する側、利用する側のそれぞれの立場で考えていく必要があります。松澤さんによると、Linked Web NDL Authoritiesは、その答えの一つであり、今後もこのテーマを継続的に考えていきたいとのことでした。

当館も、この問いに対する答えを探しながら、典拠データをLinked Dataとして持続的に提供していく必要があります。その際、持続できるだけでなく信頼のおけるデータであることは、新たなサービスやアプリケーションの基盤となる上で、非常に重要だと考えています。そこで、実際に当館の典拠データを使って作成されたGeoNames.jpとのリンクセットや、Linked Dataの効用が視覚化されているLinked Web NDL Authoritiesは、たいへん参考になりました。

もし「こんな使い方をしてみたよ」という事例がありましたら、ぜひ当館(bib-newsアットマークエヌディーエルピリオドジーオーピリオドジェーピー)までお知らせください。今後もWeb NDL Authoritiesの利活用可能性を探り、よりよいサービスを提供できるよう努めたいと思います。

協力:松澤有三さん
(まつざわ ゆうぞう インディゴ株式会社)
聞き手・構成:NDL書誌情報ニュースレター編集委員会

[1] Web NDL Authoritiesの概要については、以下のページをご覧ください。
Web NDL Authoritiesについて
http://id.ndl.go.jp/information/about/, (参照 2017-03-29).

[2] 本誌2015年1号(通号32号)に、Web NDL Authoritiesが提供している典拠データについて、Linked Dataの観点からご紹介したコラムが掲載されています。
柴田洋子. コラム:書誌データ利活用(6)―Web NDL Authorities解読講座 その1―ウェブでつながる典拠データ.
http://www.ndl.go.jp/jp/data/bib_newsletter/2015_1/article_04.html, (参照 2017-04-04).

[3] 地域や企業、学術の各分野を越えたさまざまなオープンデータをつなげて新たなアイディアやアプリケーション等を創出するイベントである「LODチャレンジ2015」および 「アーバンデータチャレンジ2015 」の開催に合わせて、NDLが提供するデータを活用してツールやアプリケーションを作るハッカソンを実施しました。以下のページに、当日開発した試作品の概要等を紹介しています。
https://lab.ndl.go.jp/cms/?q=hack2015, (参照 2017-03-29).

[4] DBpediaはWikipediaから情報を抽出し、Linked Open Dataとして公開するプロジェクトです。DBpedia Japaneseは、Wikipedia日本語版を対象にしています。

[5] SPARQLは、"SPARQL Protocol and RDF Query Language"の略で、Linked Open Dataに適した形に構造化されたデータの検索や操作を行うためのコンピュータ言語です。SPARQL Endpointは、あるコンピュータやデータベースに対するデータの検索や更新等の要求(クエリ)を受け付ける場所です。Web NDL AuthoritiesのSPARQL Endpointは、http://id.ndl.go.jp/auth/ndlaです。
Web NDL AuthoritiesにおけるSPARQLの利用については、本誌2015年2号(通号33号)のコラムもご覧ください。
柴田洋子. コラム:書誌データ利活用(7)―Web NDL Authorities解読講座 その2―いろいろ探せるSPARQL(スパークル).
http://www.ndl.go.jp/jp/data/bib_newsletter/2015_2/article_03.html, (参照 2017-04-04).

[6] 本稿では、Web NDL Authoritiesの典拠データに付与されている固有の識別子(ID)またはURIを意味します。

[7] 統計LODは、総務省統計局が所管する国勢調査や経済センサス等の7種類の統計のうち、一部の統計データについてLinked Open Data化したもので、政府統計の総合窓口(e-Stat)で提供されています。
e-Stat 統計LOD.
http://data.e-stat.go.jp/lodw/, (参照 2017-04-04).


このページの先頭へ

NDL書誌情報ニュースレター(年4回刊)

ISSN 1882-0468/ISSN-L 1882-0468
2017年2号(通号41号) 2017年6月27日発行

編集 国立国会図書館収集書誌部
発行 国立国会図書館

〒100-8924 東京都千代田区永田町1-10-1

メールアドレス:bib-newsアットマークエヌディーエルピリオドジーオーピリオドジェーピー(ニュースレター編集担当)