• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

コラム:書誌データ利活用(6)―Web NDL Authorities解読講座 その1―ウェブでつながる典拠データ

NDL書誌情報ニュースレター

NDL書誌情報ニュースレター2015年1号(通号32号)

【はじめに―ウェブでつながる典拠データとは】

国立国会図書館典拠データ検索・提供サービス(Web NDL Authorities)」は、国立国会図書館が作成・維持管理している典拠データを検索・利用できるサービスです[1] 。Web NDL Authoritiesの検索方法は本誌2014年1号のコラムでご紹介しましたが、今回はWeb NDL Authoritiesが提供している典拠データについて、ウェブでの利用可能性の観点からご説明します[2] 。Web NDL Authoritiesの「Web」には、単に「ウェブ上でデータを提供しています」というだけでなく、「ウェブ上で利活用しやすいデータを提供しています」という意味が込められているのです。

ウェブ上には、さまざまな分野の有用なデータが存在します。これらのデータを、ある特定の機関や分野といった閉じられた世界の中だけでなく、より広いウェブの世界で共有し、関連するデータと次々につなげることで、新しい発見やサービスが生まれることがあります。しかし、ウェブ上の膨大なデータの中から関連するデータを見つけ出し、それを人手でつなげていくには限界があります。そこで、データをコンピュータが理解し、処理できる形で記述することで、人間の代わりにコンピュータが大量のデータの意味を解釈し、関連付けることができます。ウェブでつながるデータは、Linked Data(リンクするデータ)とも呼ばれ、その利活用の取組みは多岐にわたっています。

Web NDL Authoritiesの典拠データも、コンピュータが処理できる形、つまり、ウェブでつなげることができるデータとして提供されています。これにより、ウェブ上の多様なデータとのリンクや、ウェブアプリケーションとの機械的な連携が実現でき、図書館だけでなくさまざまな場面において典拠データの利用可能性が広がります。

【つながる典拠データの素】

あるデータをさまざまなシステムや分野で広く利用できるようにするには、特定のアプリケーションや予備知識がなくともデータの意味を理解して処理できるモデルの共有と、ウェブ上でそのデータを確実に特定できる識別子(ID)の付与が必要です。また、データの記述に使う語彙も共有できることが望まれます。そこでWeb NDL Authoritiesの典拠データは、ウェブ上のリソース[3] について記述するための共通の枠組みであるRDF(Resource Description Framework)モデル[4] に基づき、ウェブ全体で共有できるURI(Uniform Resource Identifier)[5] が与えられています。また、典拠データの記述には、できるだけ共有しやすい、標準的な語彙として、SKOS(Simple Knowledge Organization System)FOAF(Friend of a Friend)等が使われています[6]

典拠データがどのように表現されているかを見てみる前に、まずは、つながるデータの素となる三点「RDF」「URI」「語彙の共有」について簡単にご説明します。

RDF―ウェブでデータをつなげるための共通の枠組み

RDFは、リソースの関係を主語、述語、目的語の三つの要素で表現します。これは「トリプル」「三つ組」とも呼ばれ、RDFを表現する基本的な単位となります。

  • 主語:記述対象となるリソース。
  • 述語:主語の特徴や属性。
  • 目的語:主語に対して、述語が表す特徴や属性の値。

たとえば、「この本は『舞姫』というタイトルである。」の場合、トリプルでは「この本のタイトルは『舞姫』である。」のように「〇〇の△△は××である。」の形の文で表されます。「〇〇の」が主語、「△△は」が述語、「××です」が目的語にあたります。文が主語、述語、目的語の順であるため、一般的に述語が文章の最後にくる日本語で考えると少し混乱するかもしれません。「この本」(主語)と『舞姫』(目的語)の関係性を示すのが述語の「タイトル」と考えると、いくぶんかわかりやすいでしょうか。

同様に、「このホームページは国立国会図書館が作成した。」を前述の「〇〇の△△は××である。」の形で表すと、「このホームページの作成者は国立国会図書館である。」となります。このトリプルは、図1のように表現できます。

「このホームページ(http://www.ndl.go.jp/)の作成者は国立国会図書館である。」のRDFグラフ
図1 RDFグラフの例 [7]

トリプルは、主語と目的語を楕円または長方形のノード[8] で表し、この二つを述語を示す矢印(アーク)で結んだ図で表されます。トリプルの集合は「RDFグラフ」と呼ばれます。トリプルが一つでも、一組からなる集合のグラフとみなされます。トリプルは、共通のノードを介して連結することができ、どんどんグラフを大きくしていくことができます。

RDFの目的は、ウェブ上のさまざまなデータモデルの共通語として機能することです。どんなに複雑な情報でも、単純なトリプルに分解して標準的に表現できます。

たとえば、「『舞姫』を書いた森鴎外(本名:森林太郎)の長女の森茉莉の著作には、父・森鴎外に関する随筆『父の帽子』がある。」という情報は、次のようなトリプルに分解することができます。トリプルに分解することで、各リソースの関係性が整理され、つなげやすくなります。図2は、トリプルがつながっているイメージ図です。

「『舞姫』の作者は森鴎外である。」
「森鴎外の本名は森林太郎である。」
「森鴎外の長女は森茉莉である。」
「『父の帽子』の作者は森茉莉である。」
「『父の帽子』のジャンルは随筆である。」
「『父の帽子』のテーマは森鴎外である。」


図2 トリプルがつながるイメージ [9]

標準的に表現されたRDFグラフであれば、異なるシステムや分野でデータ構造や記述規則が異なっても、お互いのデータの意味を人間もコンピュータも理解・共有でき、どうつなげればよいか考えることができます。

URI―共通の名前付けの仕組み

データをつなげるためには、そのデータが同じリソースを示しているかどうかを識別する必要があります。図1の例でいえば、「このホームページ」だけではどのホームページを示しているのか特定できませんが、URI「http://www.ndl.go.jp/」を使って名前付け(識別)することで、「このホームページ」をウェブの他のホームページから誰もが一意に識別することができるようになります。URIは、ホームページのようなネットワーク経由でアクセスできるものに限らず、本や人物、概念などにも与えることができます。URIで名前付けができるものすべてがリソースです。RDFでは、主語だけでなく、主語と目的語の関係を表す述語も、ウェブ上で共有できるようにURIで表現されます。

ある図書館の書誌ID「00001234」のような文字列の場合、その図書館の閉じられた世界の中で使われるだけであれば、識別子として成り立ちます。しかし、ウェブ上でつながるためには、リンク(参照)できるように、httpスキーム(「http://」で表現される識別子の体系)を使ったURIを用いる必要があります。つまり、つながる典拠データには、URIが不可欠といえます。

語彙の共有―標準的なものを使う

ウェブ上で広く利用できるデータには、その記述に使う語彙もできるだけ共有しやすいもの、つまり、相互運用性の高いものを使うことが望ましいとされています。たとえば、単なる英単語としての「title」は、本の書名の意味もあれば、人の肩書きを指すこともあります。あるデータの中でどちらの意味で使われているか、人間が見ればそれが使われている状況や文脈から判断できるかもしれませんが、コンピュータは理解できません。そのため、あらかじめ意味が定義され、共有されている”title”を用いることで、書名なのか肩書きなのかをコンピュータでも判断し、処理することができます。

前述のとおり、Web NDL Authoritiesの典拠データには、複数の標準的な語彙が使われています。それができるのは、さまざまな分野の語彙を組み合わせて記述できるRDFを採用しているからです。

【典拠データを見てみると…】

Web NDL Authoritiesの典拠データには、当館の典拠IDを使用したURIが付与されています。これにより、ウェブ上で誰も(人間もコンピュータも)が典拠データを特定し、共有することができます。

「ワイン」の典拠データ(典拠ID:00560930)の場合

RDFグラフでは図3のように表わせます。このグラフは、ブラウザで詳細情報画面(HTML)として閲覧できるだけでなく、アプリケーションで利用可能なRDF/XMLRDF/TurtleJSONの各形式のデータを用途に合わせて取得することもできます[10]


※クリックすると拡大します。
図3 「ワイン」の典拠データのRDFグラフ [11] [12] [13]

たとえば図4と図5のグラフは、共通の主語(「ワイン」の典拠データのURI(http://id.ndl.go.jp/auth/ndlsh/00560930))をもつため、図6のように結合されます。

図4 「”http://id.ndl.go.jp/auth/ndlsh/00560930”の作成日(dct:created)は1980年6月20日である。」を示すグラフ

図5 「”http://id.ndl.go.jp/auth/ndlsh/00560930”のラベル(rdfs:label)はワインである。」を示すグラフ


図6 図4と図5が結合したグラフ

また、あるグラフの目的語(URI)が、別のグラフの主語(URI)と一致して、連結するパターンもあります。たとえば、図7の目的語のURI(http://id.ndl.go.jp/auth/ndlsh/00565279)は、図8の主語と同じものを指しているため、図9のように連結することができます。

図7 「”http://id.ndl.go.jp/auth/ndlsh/00560930”の上位語(skos:broader)は”http://id.ndl.go.jp/auth/ndlsh/00565279”である。」を示すグラフ

図8 「”http://id.ndl.go.jp/auth/ndlsh/00565279”のラベル(rdfs:label)は果実酒である。」を示すグラフ


図9 図7と図8が連結したグラフ

こうして同様に共通の主語や目的語を介してたくさんのグラフがつながった図が、先にお示しした図3です。

ヒトの典拠データはURIが二種類?

個人名・家族名・団体名典拠は、典拠データを維持管理するための情報(典拠情報)と、その典拠の記述対象となる実在の人物や場所等(名称実体)の二種類のリソースで構成され、両者は関連付けられています。典拠情報とその対象となる実世界の存在を区別することは、ウェブの設計における基本事項の一つです。

たとえば、典拠データ(典拠情報)としての「森, 鴎外, 1862-1922」(典拠ID:00046801)とは別に、その対象となる実在の人物の森鴎外にもURIが与えられます。

「生年」や「没年」は実在の人物(名称実体)についての情報(属性)ですが、「作成日」や「最終更新日」は、森鴎外自身に対する属性ではなく、典拠データについての情報(典拠情報)です。実体の属性と典拠データの属性のそれぞれを記述するためには、それぞれの記述対象のリソースを区別するための二種類のURIが必要です。そのため、名称実体のURIには、典拠情報のURIの「ndlna」を「entity」に置き換えたものが付与されています[14]

図10は、「『舞姫』の作者は森鴎外である。」という文を表現したRDFグラフです。


図10 「『舞姫』(http://www.example.com/01234567)の作者(dct:creator)は森鴎外(http://id.ndl.go.jp/auth/entity/00046801)である。」を示すグラフ

ここでは、仮に、主語の『舞姫』を表すURIを「http://www.example.com/01234567」とし、作者を表す述語には、DCMI Metadata Termsで作成主体を表す語彙として定義されている「dct:creator」を使っています。ここで注目していただきたいのは、目的語にあたる森鴎外のURIが、典拠データ(典拠情報)のURI(http://id.ndl.go.jp/auth/ndlna/00046801)でなく、名称実体のURI(http://id.ndl.go.jp/auth/entity/00046801)で記述されている点です。『舞姫』を作成した実体は、あくまで森鴎外という生身の人間であり、森鴎外の典拠データではないからです。

典拠情報はウェブ上で実際にアクセスして直接得られるデータですが、名称実体は現実世界に存在する人物や組織であり、ネットワーク経由ではアクセスできません。森鴎外に関するデータやウェブページにはアクセスできても、森鴎外自身は(もし生きていた場合でも)ウェブ上にはいないため、直接アクセスすることはできません。そのため、ウェブの世界で推奨される指針に則り、名称実体のURIにアクセスした場合は、代わりに典拠データのURIに自動的に転送されるように設定されています。

【おわりに】

このように、Web NDL Authoritiesの典拠データは、ウェブでつながるLinked Dataになるために必要な技術や要素、つまり「RDFモデル」「URI」「共通の語彙」を積極的に採り入れた形で提供されています。さまざまなLinked Dataの取組みの中で、Web NDL Authoritiesの典拠データとつながることで、さらに新たな知見やサービスが生まれることを期待しています[15]

※次号では、RDFで記述されたデータを検索・操作するためのコンピュータ言語SPARQL(「スパークル」と読む。SPARQL Protocol and RDF Query Languageの略。)による典拠データの検索方法をご紹介する予定です。

柴田 洋子
(しばた ようこ 収集・書誌調整課)

[1] Web NDL Authoritiesの概要については、以下のページをご覧ください。
・Web NDL Authoritiesについて
http://id.ndl.go.jp/information/about/,(参照 2015-02-03).

[2] 本稿における「典拠データ」は、「Web NDL Authoritiesで提供する典拠データ」を指します。

[3] ウェブ上で識別できるもののことです。これは、データだけでなく、ヒトや本などの実体があるものや、主題のような概念も含まれ、RDFを用いて表現できます。

[4] RDFについては、ウェブ技術の標準化団体であるWorld Wide Web Consortium (W3C)の勧告が出されています。各文書の日本語訳も公開されており、以下で検索することができます。
W3C Translations
http://www.w3.org/Consortium/Translation/,(参照 2015-02-03).
Web NDL AuthoritiesのRDFモデルについては、以下のページをご覧ください。
http://id.ndl.go.jp/information/model/,(参照 2015-02-03).

[5] 本稿における「URI」は、URIを拡張した国際化識別子「IRI(Internationalized Resource Identifier)」とほぼ同義に使っています。

[6] 採用している語彙の詳細は、以下をご覧ください。
・RDFモデルについて > 2.記述に使用する語彙
http://id.ndl.go.jp/information/model/#2,(参照 2015-02-03).

[7] 主語はURI等の識別子で表現されるため、「このホームページ」の識別子といえるURI(http://www.ndl.go.jp/)を使っています。述語もおもにURIで表現されますが、ここでは簡略化して文字列で表しています。なお、URLは、URIの一種のため、本稿ではすべてURIと表記しています。

[8] 「ノード」は結び目を意味し、ネットワークを構成する個々の要素を表します。URI等のリソースの場合は楕円、文字列の値の場合は長方形で表現します。

[9] この図はつながるイメージを表したものであり、正確なRDFグラフではありません。

[10] それぞれの形式でのデータの取得については、以下をご覧ください。
・機能説明 > 4. 特定の形式によるデータ取得(データ形式と拡張子)
http://id.ndl.go.jp/information/function/#4,(参照 2015-02-03).
また、「国立国会図書館件名標目表(NDLSH)」の収録範囲となる普通件名等は、一括してダウンロードすることもできます(RDF/XML形式、TAB区切りテキスト形式データ)。詳細は、以下をご覧ください。
・一括ダウンロード用ファイル
http://id.ndl.go.jp/information/download/,(参照 2015-02-03).

[11] RDFグラフは、いずれも下記のツールを使って作成しました。
・RDFグラフの視覚化 Turtle, Microdata, JSON-LD, RDF/XML, TriG
http://www.kanzaki.com/works/2009/pub/graph-draw,(参照 2015-02-03).

[12] Web NDL Authoritiesの典拠データで使用している各述語(rdfs:label、dct:created等)については、詳細表示画面の項目名または以下をご覧ください。
・RDFモデルについて > 4.RDF/XML形式によるフォーマット仕様
http://id.ndl.go.jp/information/model/#4,(参照 2015-02-03).

[13] 図中でURIが付与されていない楕円は「空白ノード」と呼ばれます。標目とその読みのように一組の値をまとめて構造的に表現する際に、複数のトリプルの仲介役として利用できます。

[14] 普通件名等の典拠データについては、記述対象が一般的な概念ではなく、あくまで国立国会図書館の標目(普通件名であればNDLSH)における概念であり、事象や実体そのものについての情報は含まれていないため、個人、家族、団体名のようなURIの区別はありません。そのため、たとえば「ワイン」の典拠データの場合、その典拠データの作成日や作成の根拠となる出典等の情報(典拠情報)は記述されていますが、ワインそのものに関する情報(色、味、香等)は含まれていません。詳細は、以下をご覧ください。
・RDFモデルについて > 1.典拠データのRDFモデルについて
http://id.ndl.go.jp/information/model/#1,(参照 2015-02-03).

[15] Web NDL Authoritiesの典拠データを活用した事例については、本誌2013年3号(通号26号)でご紹介しています。
・大柴忠彦. 英国図書館におけるNDLSH付与作業とWeb NDL Authoritiesの活用.
http://www.ndl.go.jp/jp/data/bib_newsletter/2013_3/article_03.html,(参照 2015-02-03).
・有安香子. Web NDL Authoritiesの典拠データを用いた番組情報ネットワークアプリケーションの試作.
http://www.ndl.go.jp/jp/data/bib_newsletter/2013_3/article_02.html,(参照 2015-02-03).


このページの先頭へ

NDL書誌情報ニュースレター(年4回刊)

ISSN 1882-0468/ISSN-L 1882-0468
2015年1号(通号32号) 2015年3月26日発行

編集・発行 国立国会図書館収集書誌部

〒100-8924 東京都千代田区永田町1-10-1

メールアドレス:bib-newsアットマークエヌディーエルピリオドジーオーピリオドジェーピー(ニュースレター編集担当)