当文書は、「図書館Linked Dataインキュベータグループ最終報告書」(原文は英語)を日本語に翻訳したものです。

正式な文書はW3C のサイト上にある英語版であり、英語版はhttp://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/で閲覧できます。最新版はhttp://www.w3.org/2005/Incubator/lld/XGR-lld/に掲載されています。

当文書には翻訳上の誤りが含まれている可能性があります。誤訳、誤植等のご指摘は、E-mail: までご連絡ください。

翻訳者:国立国会図書館電子情報部電子情報流通課標準化推進係、国立国会図書館非常勤調査員 田辺浩介
公開日:2012年6月29日



W3C W3C Incubator Report

図書館Linked Dataインキュベータグループ最終報告書

W3Cインキュベータグループ報告 2011年10月25日

このバージョン:
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/
最新のバージョン:
http://www.w3.org/2005/Incubator/lld/XGR-lld/
編集者
Thomas Baker, Dublin Core Metadata Initiative, US (W3C Invited Expert)
Emmanuelle Bermes, Centre Pompidou, France (W3C Invited Expert)
Karen Coyle, Consultant, US (W3C Invited Expert)
Gordon Dunsire, Consultant, UK (W3C Invited Expert)
Antoine Isaac, Europeana and Vrije Universiteit Amsterdam, Netherlands
Peter Murray, LYRASIS, US (W3C Invited Expert)
Michael Panzer, OCLC Online Computer Library Center, Inc., US
Jodi Schneider, DERI Galway at the National University of Ireland, Galway, Ireland
Ross Singer, Talis Group Ltd, UK
Ed Summers, Library of Congress, US
William Waites, University of Edinburgh (School of Informatics), UK
Jeff Young, OCLC Online Computer Library Center, Inc., US
Marcia Zeng, Kent State University, US (W3C Invited Expert)

翻訳もご覧ください。


概要

2010年5月に設立され、2011年8月まで継続したW3C図書館Linked Dataインキュベータグループは、図書館コミュニティまたはそれ以外において、セマンティックウェブ、とりわけLinked Dataの活動に関与する人々を集結し、既存の取組みの上に、将来に向けた協同作業の道筋を描くことによって、ウェブ上に存在する図書館データのグローバルな相互運用性の向上に資することを目的としている。Linked Data[LINKEDDATA]において、データは、オブジェクトの関係性を記述する「Resource Description Framework (RDF)」[RDF]、「統一資源識別子 (URI、つまり「ウェブ上の所在場所」) 」[URI]といった標準を用いて表現される。当グループによる最終報告は、書誌データ・典拠データ・件名標目表・分類表といった図書館が収集し、作成する価値ある情報資産を、本来の図書館の文脈を越えたより広範なウェブにおいて、可視性と再利用性の高いものにするために、どのようにセマンティックウェブ標準やLinked Dataの原則が適用可能であるか検証している。

当グループは、小規模な独立プロジェクトから、国立図書館による取組みに至るまで、各種団体の関連する活動の報告を収集し、分析するところから開始している(別途とりまとめた図書館Linked Dataインキュベータグループ:ユースケースを参照) [USECASE]。これらのユースケースは、報告書本文に要約される内容の出発点となっている。つまり、図書館のLinked Dataの利点に関する分析、伝統的な図書館データに関する現在の問題点についての議論、既存の図書館におけるLinked Dataに対する取組み、図書館データに関する法的権利、そして次の段階に向けた勧告といった報告書本文の内容は、ユースケースに基づくものである。また、当報告書は現在のLinked Dataの技術の調査結果、現在利用できる図書館のLinked Dataについての資料の一覧をまとめている(詳細は図書館Linked Dataインキュベータグループ:データセット、値語彙、メタデータ要素セットを参照) [VOCABDATASET]。

報告書での主な勧告は以下のとおりである。

当文書の状態

この章は、刊行時点における当文書の状況を記述する。その他の文書が当文書を上書きしている可能性がある。インキュベータグループ最終報告の一覧が利用可能である。http://www.w3.org/TR/のW3C技術報告インデックスも参照のこと。

W3Cインキュベータ活動 の一環として当文書がW3Cから刊行されたことは、W3Cがいかなる内容について保証することも、W3Cが当文書で言及される問題に関して何らかのリソースを既に割り当てている、あるいは割り当てている最中である、または今後割り当てる予定であることも意味していない。インキュベータグループへの参加およびW3Cにおけるインキュベータグループ報告書の刊行は、W3Cメンバーシップ特典に基づくものである。

インキュベータグループは、W3C特許方針に規定されるとおり、利用料無料の原則のもとに成果物を制作することを目的としている。このインキュベータグループへの参加者は、後にW3C勧告に吸収されることになるインキュベータグループ報告書の一部に対し、W3C特許方針のライセンス要求に従って、各自のライセンスを提供することに合意している。

当文書に関する議論は、一般公開しているメーリングリストpublic-lld@w3.orgで受け付けている。(アーカイブ)

目次

1 当報告書の対象

当報告書の対象である「図書館のLinked Data」は、以下のように理解される。

図書館:この報告書での「図書館」という言葉は、図書館、博物館、文書館のような、文化遺産や記録を扱う施設を含んでいる。この用語は三つの異なる、しかし関連した概念を参照している。つまり、物理的・抽象的(潜在的には「デジタル」を含む)オブジェクトのコレクション、コレクションの所在地、そしてコレクションを収集し、所在地を管理する組織である。コレクションは公開・非公開、大規模・小規模を問わず、また特定の種類の資料に限定されるものではない。

図書館データ:「図書館データ」とは、図書館によって作成または収集された、資料の記述や探索支援のためのあらゆる種類の電子情報を指す。図書館のプライバシー方針の範疇となるデータは、この報告書で取扱う範囲に通常含まれない。この報告書は、図書館の典型的な用途に基づく図書館データを、実際的にデータセット要素セット値語彙の三種類に分類している。(付録Aを参照)

Linked Data:「Linked Data」とは、データセット・要素セット・値語彙間のリンク付けを促進するために設計された原則に準拠して公開されたデータのことである[LINKEDDATA]。 Linked Dataはあらゆる種類の資料に対するグローバルに一意な識別子として、Uniform Resource Identifier (URI)を使用する。これは、伝統的な図書館業務において、識別子が典拠コントロールに用いられるのに類似している [URI]。 Linked Dataでは、URI国際化リソース識別子(IRI)、つまりUnicodeによってサポートされる自然言語スクリプトの拡張セットを使用するウェブアドレスの場合がある。Linked Dataは、Resource Description Framework (RDF)といった標準によって表現される。RDFは、事物の関係性を指定する。関係性は複数の情報源をナビゲートし、また情報を統合するために使用することができる[RDF]。

Open Data:「Linked Data」がデータの技術的な相互運用性を指しているのに対し、「Open Data」は法的な相互運用性に焦点を置いている。Open Bibliographic Dataの定義によれば、Open Dataは原則的に自由に利用、再利用、再配布することができる。Linked Data技術自体は、データがオープンであることを必要としないが、Linked Data技術の潜在的な性能は、そのデータがLinked Open Dataであるときに最も発揮される。

図書館のLinked Data:「図書館のLinked Data」とは、Linked Dataとして表現されている(上述の)あらゆる種類の図書館のデータのことである。

2 Linked Dataがもたらす利益

Linked Dataの手法は、図書館が伝統的に採用してきた協同による共有モデルを自然に拡張することにより、図書館データの作成と提供に関する現在の実践に大きな利点をもたらす。Linked DataとりわけLinked Open Dataは、共有可能拡張可能であり、さらには容易に再利用可能である。また、Linked Dataは、言語非依存のURIで識別した概念をラベル付けするように、データや利用者向けサービスが多言語環境で機能できるように支援する。こうした特徴は、Linked Dataの標準に特有のものであり、データや概念に対してウェブと親和性の高い識別子を使用することによって成り立つものである。リソースは、他の図書館と共同して記述することができるほか、他のコミュニティ、さらには個人からの協力により、データとリンク付けすることもできる。今日、ウェブ上のドキュメント間で行われているリンク付けと同様、誰しもが、Linked Dataを用いることで、自身の専門知識を、その再利用や他の専門知識との組み合わせを可能にする形で、活用することができる。また、識別子を使用することにより、多様な記述を一つのオブジェクトに結び付けることも可能になる。信頼できる情報源から補完したデータと豊富なリンク関係を持つことで、図書館は個々の情報を単純に合計した以上に、自身のデータの価値を向上させることができるようになる。

著作、場所、個人、出来事、主題、その他の関心事となるオブジェクトや概念を指示するためにグローバルな環境で一意の識別子を使用することにより、図書館が保有するリソースは、広範に渡るデータの情報源から引用されるようになり、そのメタデータ記述は、よりアクセス可能なものとなる。インターネットの Domain Name Systemは、統制された理解しやすい方法で、識別子の所有関係と維持管理に関する情報を示すことにより、持続性と信頼性を保証する。この考えは、図書館の長期的な任務と親和性の高いものである。図書館とその他記録機関は、一般的にウェブ上のデータとして長期にわたる文化的重要性を持つリソースに関する信頼性の高いメタデータを提供する特異な位置づけにある。

そのほか、こうした一意の識別子を再利用することの大きな利点としては、データ提供者がデータの一部をステートメントとして提供できるようになることが挙げられる。現在のドキュメントベースの情報環境では、データは常にレコード全体、つまりはそれぞれが完全な記述と見なされる形で交換される。一方、グラフベースの情報環境では、機関はリソースに関する個々のステートメントを提供することができ、一意に識別された特定のリソースに関するすべてのステートメントを、グローバルなグラフに統合することができるようになる。例えば、ある図書館がリソースに付与されたその国の全国書誌番号を提供し、別の図書館が翻訳されたタイトルを提供するといったことも可能である。これにより、図書館は、書影を取り込む場合と同様、外部の情報源からステートメントを取り入れることができるようになる。Linked Dataの情報環境においては、文字通り、小さすぎる貢献というものは存在しない。一つの属性記述であっても、それまでは未知の情報源であったところから、重要な関係性を導き出すことが可能になるからである。

図書館が保有する名称典拠や件名典拠は、Linked Dataとして共有される主要な実体を明確に識別することにより、ウェブ上の書誌記述における冗長性の低減に寄与することが期待される。これはまた、図書館の所蔵情報を表現するメタデータの冗長性を削減することにもつながる。

2.1 研究者、学生、利用者にとっての利益

Linked Dataが使われ始めた時点では、変化はいわば「裏側」に潜んでいる状態であり、図書館や文化機関のサービスの利用者にとってその効果は明らかではないかもしれない。しかし、基盤となる構造化データがより多くリンク付けされるにつれて、データの発見と活用のための機能が改善されていることに気が付くだろう。図書館とそれ以外の情報リソース間の横断的なナビゲートは、より洗練されるようになる。また、インデックスの拡張にリンク関係を使用することで横断検索は改善され、利用者はブラウジングに際してより多くの選択肢を得ることになるだろう。

Linked Dataは、閲覧可能なリンク(URI形式)が広がるシームレスな情報空間というウェブを定義づける特徴の上に成り立つものである。ウェブページやウェブサイト全体が丸ごと利用者やアプリケーションにとって利用可能であるのと同じように、RDFURIを使用したデータセット全体は、「直感に従って」一連のURI形式のリンクを辿ることにより、利用者やアプリケーションがシームレスに参照・閲覧することのできるグローバルな情報グラフ、別の言い方をすれば、「toURIsm(※URIによるツーリズムの意)」により強化されたデータの形態として立ち現れるようになる。図書館の利用者にとってLinked Dataの価値は、このような基本的なナビゲーションの原理の中に見出される。図書館とWikipedia、GeoNames、MusicBrainz、BBC、The New York Times等、図書館以外のサービスが提供するデータ間でのリンク関係は、ローカルなコレクションをウェブ上の広大な情報空間の中に接続してくれるだろう。

Linked Dataとは、ウェブの別物を作ることではなく、構造化データを増やすことを通じてウェブをより豊かにすることである。RDF in Attributes (RDFa) やmicrodataのような技術を用いて表現された、構造化データは、サーチエンジンやソーシャルネットワークによるクローリングや関連度のアルゴリズムにおいて効果を発揮し、サーチエンジン最適化(SEO)を通じて、図書館が自身のウェブにおける可視性を向上させるための方法を提供してくれるだろう。また、HTMLページに埋め込まれた、構造化データは、例えばURIのコピー&ペーストをするだけで簡単に引用管理ができるようになるなど、情報検索の利用者へのサービスにおける図書館データの再利用を促してくれる。Linked Dataから引用情報の検索を自動的に行うことや、ウェブ上のリソースから図書館のリソースへとリンクを生成することは、図書館データが研究用の文献や書誌情報の中に完全に統合されることを意味する。また、Linked Dataは、様々な分野特有の知識基盤同士をリンクして知識を豊かにすることにより、分野横断的な研究を支援するだろう。

既存の図書館データをLinked Dataに移行することは、最初の一歩でしかない。論文で報告された実験において使用されたデータセット、このデータを処理するために著者が採用したモデルについても、それぞれLinked Dataとして提供可能である。適切な語彙や形式を用いて、論文、データセット、モデルを表現することで、他の研究者が、実験結果の複製や異なるモデルや目的でのデータセットの再利用を容易に行えるようになる。この実践が適用された場合、研究に伴う困難は改善され、研究論文で説明される研究報告に対する全体的評価は、同業者による簡便な妥当性の検証に対して、より透明性の高いものになるだろう。 (具体例については強化された出版物についての使用例を参照のこと)

2.2 機関にとっての利益

ボトムアップによるデータ提供へのアプローチを促進することにより、Linked Dataは、図書館資料を記述することの価値を向上させる機会をもたらしてくれる。図書館データに対して伝統的にとられてきたトップダウンのアプローチ、つまり、図書館資料に関する独立した記述として書誌レコードを作成するアプローチは、予算の制約により助長されてきた。そのため、図書館は、より上位のレベルの情報を生み出すために必要とされるリソースを持ち合せていない。Linked Dataを用いることで、同一リソースについての異なる種類のデータが、様々なプレイヤーにより、分散して作成され、一つのグラフに集約される。

Linked Dataの技術を用いることで、組織は内部的なデータ収集と作成のプロセスを改善し、電子情報とメタデータ間のリンク関係をより効果的に管理することができるようになる。データが完全にオープンでない場合でも、Linked Dataはデータ提供のプロセスを改善することが可能である。今日の図書館で採用されている技術は、図書館データのフォーマットに特化し、図書館専門の統合図書館システムのベンダーによって提供されたものであるが、Linked Dataを管理するために使用される技術は、ウェブの世界において主流となっているものである。Linked Dataの標準的な技術を採用することで、図書館はベンダーの選択肢を広げることができ、Linked Dataの標準的なデータ形式を使用することで、より多くの開発者の中から職員を採用したり、彼らとコミュニケーションを図ったりする機会を得ることができるようになる。

Linked Dataは、文化関連情報を維持管理するための「クラウドをベースにした」アプローチの第一歩となるだろう。これは、各機関がスタンドアロン型のシステムを持つのに比べて、よりコストが少なく、効率的な方法である。このアプローチをとることで、小規模な機関や個々のプロジェクトは、インフラの維持管理にかかるコストを縮減しつつ、自身をより可視的で、かつ相互連携可能なものにすることができるのである。

Linked Open Dataを用いることにより、図書館は、大多数の情報探索者が集う場所となっているウェブにおいて、自身の存在感を増すことができる。また、識別子を活用することで、美術館、文書館、ギャラリー、視聴覚アーカイブといった特定のコミュニティに適したメタデータ記述が可能になる。データを開放することは、脅威ではなく、機会をもたらす。記述メタデータのライセンスの条件を明確にすることで、メタデータの利用が促進され、その機関の認知度も向上される。このように公開されたデータは、思いもよらない使われ方をすることになる。ある名言が示すように「あなたのデータを使ってできる最もクールなことを考え出すのは、他の誰か」なのである。

2.3 図書館員、アーキビスト、キュレーターにとっての利益

後援者や機関にとっての利益は、図書館専門職に対しても直接影響する。Liked Open Dataを使用することによって、図書館は現行の目録作業のプロセスと比べて、労力の重複を抑えながら、リソースを記述するために利用・再利用できるオープンでグローバルに共有されたデータ集合を作ることができるようになる。

ウェブそしてウェブベースの識別子を使うことで、カタロガーは最新のリソース記述を直接引用することが可能となる。共有された識別子を使用することにより、図書館は、図書館独自の情報環境の外部から、すべての文化遺産関係のデータセット中から、ひいてはウェブ全体から、リソースに対する記述を繋ぎ合せることが可能になる。カタロガーは、すでに他の手で精緻に作成された既存のメタデータ記述の再作成ではなく、自身の分野と専門知識を活かした作業に労力をつぎ込むことができるようになる。

歴史はすべての技術が移り変わるものであることを、情報科学の歴史は特定のデータフォーマットが特に短命であることを示している。Linked Dataは、データの意味(「セマンティクス」)を特定のデータ構造(「シンタックス」または「フォーマット」)から独立させた形で記述し、その結果、Linked Dataは、フォーマットの変化を越えて、同一の意味を保持できる。この意味で、Linked Dataは、特定のデータ構造に依存するメタデータフォーマットよりも、永続的であり、堅牢なものである。

2.4 開発者やベンダーにとっての利益

図書館システムの開発者やベンダーは、図書館に特有のデータフォーマットに束縛されなくなることによって、直接恩恵を受けることになる。Linked Dataの手法は、すべてのメタデータ提供者間で一貫性のある方法でデータの検索と統合を可能にする。Linked Dataでは、図書館特有のプロトコル(例えば、Z39.50の情報検索プロトコル)によってのみアクセス可能なデータを必要とせず、Hypertext Transport Protocol (HTTP)といった良く知られたウェブの標準的なプロトコルを使用する。

開発者は、カスタマイズしたソフトウェアのツールやアプリケーションを必要とする、ISO 2709MAchine-Readable Cataloging(MARC)といった図書館特有のフォーマットを取り扱う必要がなくなる。Linked Dataの手法では、一般に広く理解可能な形式でウェブ上にデータを公開する。そのため、Linked Dataをサポートする図書館システムのベンダーは、図書館以外にも製品のマーケットを広げ、図書館システム以外のベンダーは、自身のより汎用的な製品を図書館特有の要件に適用させることが可能になる。RDFHTTPの利点を活かすことで、図書館システムの開発者は、この分野特有のソフトウェアから解放され、汎用的で、多くがオープンソースである、多様なツールから選択できるようになる。また、図書館データを用いた新しいサービスをより簡便に構築することも可能である。これはまた、図書館における情報技術の専門家が、より広範な開発者コミュニティからの支援を受ける可能性を開くことにもなる。RDFトリプルの成す大海に在る限り、どの開発者も孤島にはならないのである。

3 現状

3.1 伝統的な図書館データに関する問題

3.1.1 図書館データはウェブ上のリソースと結びついていない

図書館データは現在データベース上に存在する。そのデータベースはウェブ上に公開された検索インターフェースを持っているかもしれないが、ウェブ上の他のデータソースと深く結びついていない。ウェブ上にはかなりの量の書誌データやその他の種類のリソースがあり、日付、地理情報、人物、団体などのデータ要素を共有している。将来のLinked Data環境では、これらのすべての要素を結びつけることができる。

3.1.2 図書館の標準規格は図書館コミュニティだけのために設計されている

MARCフォーマットや情報検索プロトコルであるZ39.50のような、多くの図書館の標準規格は、図書館特有の文脈で開発されている(あるいは、今後もされ続ける)。図書館界での標準化は、国際図書館連盟 (IFLA) RDA開発合同運営委員会(JSC)のような、しばしば図書館分野だけに焦点をおいた団体によって行われる。それらの標準規格の対象とする範囲を広げるか、Linked Dataの標準化の取組みとの連携を行うことによって、それらの業界団体は、他のコミュニティによって作成され使用されているデータに対して、自分たちが制定した標準規格の関連性や適合性を高めることができる。

3.1.3 図書館データは主として自然言語で表現されている

図書館データの大部分は、表示を重視して、つまり自然言語のテキストとして符号化されている。MARCレコードのうちいくつかのフィールドは、コード化された値を用いている。例えば、言語を表すフィールドは、固定長の文字列として表現される。しかし、このようなやり方をすべてのレコードに当てはめるための明確な動機はない。多くのコード化されたデータフィールドは、図書館システムの機能では使用されないからである。図書に付与されるISBNといったMARCレコードに存在するいくつかの識別子は、原理上はリンクに使用することができる。しかし、それは識別子が含まれているテキストフィールドから識別子を取り出し、正規化した後にはじめてできることである。

人名典拠や件名典拠のようないくつかのデータフィールドは、関連するレコードを別のファイルに持っており、これらのレコードは、図書館のメタデータにおける実体の表現に使うことのできる識別子を持っている。しかし、現在使用されているデータフォーマットは、レコード中にこれらの識別子を含めることをサポートしているとは限らない。これらの識別子もまた、グローバルというよりはローカルで管理される傾向にあるため、ウェブ上でのリンクを可能にするURIとして表現されていない。図書館システムにおけるレコードのリンクの欠如や不十分なサポートは、重大な問題を提起している。典拠の表示を変更する場合には、文字列を変更するために、すべての紐づく書誌レコードを取得することが必要になる。これは破壊的で高コストなプロセスであり、図書館にとってはしばしば、典拠情報をタイミングよく変更することを妨げることとなる。

3.1.4 図書館コミュニティとセマンティックウェブコミュニティは、同じようなメタデータの概念に対して異なる用語を用いている

図書館のLinked Dataに関する作業は、図書館とセマンティックウェブコミュニティの間の、概念や専門用語の不一致によって妨げられる可能性がある。メタデータの「ステートメント」という用語を口にする図書館員はほとんどおらず、一方でセマンティックウェブのコミュニティには「件名標目」や「典拠コントロール」に一致する概念がない。それぞれのコミュニティは独自の語彙を持っており、これらはそれぞれのコミュニティの観点の違いを反映している。どちらのグループもデータのウェブの構築に重要な専門知識をもたらすため、コミュニティの相互理解を進めなければならない。

3.1.5 図書館の技術の変化は図書館システムベンダーの開発に依存している

図書館コミュニティにおける多くの技術的な専門知識は、資料の受入、利用者データ、貸出・返却のような図書館管理機能と、利用者のディスカバリーサービスの両方をサポートするシステムとソフトウェアを提供する、少数のベンダーに集中している。これは、図書館がLinked Dataを実用レベルで採用しようとする場合、図書館自身の主導ではなく、ベンダーまたはベンダーの技術開発の計画に依存しなければならないということを意味している。

3.2 今日から使える図書館のLinked Data

図書館におけるLinked Dataの成功は、実践者が他のLinked Dataとして利用可能なリソースを識別し、再利用し、それにリンクする能力に左右される。しかし、Linked Dataとして利用できる図書館のデータセットや語彙は、現在、全体を見渡すのが難しいものになっている。Incubator Groupは、図書館に関連するLinked Dataとして利用可能な情報源の一覧を作成し(付録Aを参照)、その結果、以下のような見解を得た。

3.2.1 Linked Dataとして公開されている書誌データのセットは、値語彙や要素セットよりも少ない

過去数年にわたって、米国議会図書館件名標目表(LCSH)デューイ十進分類法(DDC)といった主要な語彙を含め、多くのメタデータ要素セットや値語彙がLinked Dataとして公開されてきた。DCMI Metadata Termsのような主要な要素セット、FRBRのような参照モデルも、Linked DataやLinked Dataと互換性のある形式で公開されている。

それに比べて、Linked Dataとして公開されている書誌データは少なく、また雑誌論文、引用情報、貸出情報といった、分野を越えてデータがシームレスに統合される環境で効果的に利用される情報はさらに少ない。英国全国書誌のLinked Data公開のような先駆的な取組みによって、ライセンス、データモデリング、レガシーデータの扱い、複数の利用者コミュニティとの協力など、様々な課題への対処が必要なことが明らかになっている。しかし、これらはまた、書誌データベースをLinked Dataとして公開することの大きな利点も示している。コミュニティが経験を積むにつれて、Linked Dataとして公開されるデータセットの数は急速に増えている。

3.2.2 利用可能なデータの品質とサポートは大きく変わる可能性がある

利用可能な情報源の成熟度と安定性は、大きく変わる可能性がある。既存のリソースの多くは、進行中のプロジェクトや個人の活動によるものであり、成熟したリソースを提供しているというよりもむしろ、プロトタイプであることをうたっている。実際、そのような取組みが多く存在することは、Linked Dataに関する活動や興味の表れであり、それらはLinked Dataがサポートする、高速なプロトタイピングとアジャイルな開発を体現している。同時に、そのような創造的で動的に進行する取組みへの需要は、安定的で長期にわたって利用可能な、図書館が提供するLinked Dataリソースへの需要とつりあいのとれたものになっている。

スウェーデン、ハンガリー、ドイツ、フランスの各国の国立図書館、米国議会図書館、英国図書館から、国際連合食糧農業機関、OCLCに至るまで、権威ある組織が、次々にLinked Dataプロジェクトにリソースを追加しているのは心強いことである。それらの組織は、図書館のLinked Dataが長い時間をかけて成長していくことのできる、安定した基盤を提供している。

3.2.3 データセットをまたいだリンクは始まったが、さらなる努力と協力が必要である

Linked Dataの大きな利点は、複数のデータセット間で関連付けを行うことによって現実のものになる。この関連付けを実現することが、成功への鍵となるだろう。当グループで作成した現在利用可能なデータの一覧表(付録Aを参照)は、多くの意味的なリンクが公開された値語彙の間に作成されてきたということを示している。これは初期の図書館Linked Dataコミュニティ全体にとって大きな成果である。図書館によって維持されている様々な典拠情報に存在する冗長性の問題を解決するために、より多くのリンクを生成することができるし、またそうするべきである。Linked Dataの記述を構成するのに使用されるデータセットやメタデータ要素セットについても、より多くのリンクが必要である。主なボトルネックとなるのは、語彙の長期的なサポートが比較的低水準であること、語彙の開発者間のコミュニケーションが十分でないこと、またデータプロバイダが、必要とされる大量の意味的なリンクを生成するコストを下げるための成熟したツールが乏しいことである。図書館の分野においては、参加者間での知識共有を促す努力が、関連するリンクの生成や共有(付録Cを参照)とともに始まっている。

3.3 権利問題

3.3.1 所有権が複雑である

いくつかの図書館データは、各図書館の方針、契約、条件によって利用が制限されている。そのため、それらのデータは、Open Dataとしての公開にとって妨げとなる不明確で未検証の権利問題を持つことになる。権利問題はそれぞれの国によって大きく異なっており、それがOpen Dataの提供における協同を難しくしている。

過去の目録レコードの所有権は、50年以上にわたって図書館間でデータ共有が行われてきたために、複雑なものになっている。目録レコードは頻繁にコピーされ、各図書館のカタロガーによって修正や追記が行われている。これらの目録レコードは後に、地域的・国内的・国際的なコンソーシアムによって、再統合される。法的に有効な知的財産権を図書館の職員個人と組織で分担することは困難であり、このような確実性の欠如は、法的事項に対して用心深くならざるを得ないコミュニティにおいて、データの共有を妨げている。

3.3.2 データの権利はビジネスの資産と考えられている

図書館データが他機関と一度も共有されていない場合、データの権利は、メタデータの作成、維持管理、収集に対して、過去・現在・未来にわたって投資を行う機関によって独占的に保持されるだろう。ある機関は書誌レコードを、自身のビジネスプランにおける資産として扱っており、Linked Open Dataとして公開するのを躊躇するかもしれないし、ある機関は、メタデータの有用性に影響を与える詳細な意味情報を削ぎ落としたまたはレベルを下げた形であればデータを公開する気があるかもしれない。

4 勧告

図書館は自身のデータをLinked Dataとして利用可能にすること、図書館のサービスにおいてデータのウェブを利用することの双方を通じて、情報のウェブを受け入れるべきである。理想的には、図書館データはウェブ上の他のリソースと完全に統合されるべきである。それにより図書館は自身の可視性を向上し、情報を探索する人々に図書館サービスを提供することができるようになる。Linked Dataが成すウェブの世界に参画することで、図書館は伝統的な活動に基づいた役割を果たすことが可能になる。つまり、現在の利用や長期保存のためのリソースの管理、合意されたルールに基づくリソースの記述、そして情報を探索する人々の要求への対応である。

4.1 図書館の指導者

4.1.1 Linked Dataとして早期に公開可能なデータセットの候補を特定すること

最初のステップは、優先度が高く、労力がかからないLinked Dataプロジェクトを特定することである。Linked Dataは、その性質上、ウェブ上で利用可能なデータを漸進的に増加させていくアプローチを促進する。図書館データをとりまく環境は複雑であるため、こうした複雑なデータをLinked Dataとして一度にすべて公開しようとすると、限られた成果しか得られないだろう。しかし、いくつかの図書館のリソースは、現在のシステムやサービスに支障をきたすことなく、Linked Dataとして公開することに適している。そのような「低い位置に生っている果実」を特定すれば、図書館は現在のワークフローを変えずに、Linked Dataクラウドにおける存在感を急速に拡大することができる。

4.1.2 Open Dataと権利問題についての議論を進めること

データの権利を規定する際、権利所有者は利用制限の与える影響について考慮しなければならない。利用制限はLinked Data環境におけるデータの再利用を複雑にするからである。 図書館の指導者が、 図書館のコンソーシアムのレベル、または国内や国際的な規模で権利やライセンスについてその所有者と合意を目指すことには意味がある。例えば、イギリスの高等教育図書館向けに作成されたOpen Bibliographic Data GuideRights and Licensingの項目を参照のこと。

4.2 標準化団体とその参加者

4.2.1 セマンティックウェブの標準化作業に、図書館の参加を増やすこと

セマンティックウェブの標準が、図書館データをセマンティックウェブ上に十分な表現力でもって翻訳することをサポートしていない場合には、標準を拡張することが可能である。例えば知識組織化のためのシステムをLinked Dataとして提供するための標準であるSimple Knowledge Organization System (SKOS)は、事前結合方式による件名標目の構成要素を表現するための仕組みを持っていない。そのため、実装者は、OWL Web Ontology Languageを使用するなど、SKOSの基本要素を拡張するための策を考案することになる。これらの新しい構造がLinked Dataの利用者に広く理解されるようにするためには、実装者はセマンティックウェブのコミュニティと協力すべきである。そうすることで、提案された解決策が現在のベストプラクティスと互換性を持ち、図書館環境の外部での適用性が最大化される。図書館界のメンバーは、例えば、 W3Cで進められている来歴の概念を包含するためのRDF拡張作業のように、技術ワーキンググループに加入したり、パブリックレビューの過程に参加したりすることによって、図書館に関連した標準化作業に貢献するべきである。この分野では、W3C Community Groupも重要な役割を果たしている。

4.2.2 Linked Dataと互換性のある図書館データ標準を開発すること

セマンティックウェブ技術は、20世紀のデータフォーマットの根底にある概念とは全く異なる方法で、データを概念化する。伝統的な図書館のデータフォーマットが、データの意味とデータの構造化された符号化方式を一つのパッケージにまとめたものであるのに対して、Linked Dataは主として、オブジェクトの意味やオブジェクト間の意味ある関係に関するものである。データフォーマットにおいて意味と符号化方式が不可分であることは、結果としてデータへの投資から対価を得るために必要な柔軟性を損ねることになる。1960年代のMARCフォーマットの導入時から、図書館のデジタルデータは、大部分が「レコード」の形態で管理されている。「レコード」とは、厳密に規定された構造を持つ、ファイルに保存された情報の有界集合である。対照的に、セマンティックウェブとLinked Dataは、データをグラフ、つまり原則として、境界がない可能性のあるものとして構成する。この二つのアプローチの違いは、図書館の標準規格とデータセットをLinked Dataに変換するのは瑣末な作業ではなく、データ設計の新しい原則に関する知識に基づいて行われなければならないことを意味している。そのためにも、図書館データのためのオントロジーと構造化語彙の構築に参加する人たちが参考にできる、ベストプラクティスを記載した文書や手引きが求められている。

4.2.3 図書館のLinked Dataに適したデザインパターンのベストプラクティスを開発し、普及すること

実装者はデザインパターンによって先達の経験に学ぶことができる。伝統的な目録作業は、膨大なパターンや例示とともに文書化されており、同様にLinked Dataにおいてもベストプラクティスの文書化が始まっている。例としてはLinked Data: Evolving the Web into a Global Data SpaceLinked Data Patternsのような刊行物が挙げられる。アプリケーションプロファイルは、実践コミュニティに、特定の種別に属するリソースを記述するためのパターンと語彙の使用上の制約について、文書化して共有するための方法を提供する。とりわけ必要とされるのは、図書館におけるLinked Dataの要求に適合したデザインパターンである。そのようなデザインパターンは、図書館のLinked Data全体における一貫性を向上させるとともに、パターンと例示を通じて、新しい技術の理解を深める開発者の需要を満たすことができるだろう。

4.3 データとシステムの設計者

4.3.1 Linked Dataの性能に基づいて利用者サービスの設計と検証を行うこと

Linked Dataによって、究極的には利用者が新しくより良いサービスを利用できるようになり、図書館外部の実装者が、図書館データを使ったアプリケーションやサービスを作れるようになるかもしれない。情報の発見や利用のために、今後どのような新しい種類のサービスが開発されるのか予測するのは時期尚早である。図書館のLinked Dataを用いた実験的なサービスは、潜在的なユースケースを発見し、更なる開発に向けて取り組む方向性を伝える目的で行われるべきである。

4.3.2 図書館のデータセット中の各データに対してURIを設定すること

特定のリソースでも、図書館標準における概念でも、URIが設定されていない図書館データは、Linked Data環境では利用できない。リソースと標準の正式な所有者は、今すぐURIを設定すべきである。なぜなら、アプリケーション開発者やそれ以外の図書館データの利用者は、実装や利用に向けた作業を遅らせようとはしないだろうし、むしろ、データを所有する機関が関知しないところで、図書館データに自前のURIを割り当てることもあり得るからである。データの所有者が適切なタイミングでURIを割り当てられないのであれば、同じオブジェクトに対するURIの重複を防ぎ、既存のURIの再利用を推奨するためにも、この作業のための協力者を探すか、URIの割り当てと維持管理を外部に委託すべきである。

全国書誌作成機関のように、目録レコードやその他のメタデータの作成に責任を持つ機関は、記述対象とするリソースのURIを作成する上で主導的な役割を果たすのに相応しい組織といえるだろう。

4.3.3 Linked Dataの語彙とそのURIを維持管理するための方針を開発すること

リソースや標準に対してURIの作成と維持管理を行う組織や個人は、そのURIに使用する名前空間に関する方針を定めておくと役立つ。「名前空間の方針」は、一貫性があって分かりやすく、安定的なアプローチを推奨するものであり、その結果として、効果や効率を改善し、URIとその名前空間の利用者に対しての品質保証を提供することにもなる。方針は以下の事項を扱うことになる。

4.3.4 図書館データを、既存のLinked Dataの語彙の再利用やマッピングによって表現すること

他のデータセットとのリンクの可能性を最大化するためには、図書館のデータセットはLinked Dataの語彙、つまりはプロパティ、クラス、インスタンスを用いて表現されなければならない。これらの語彙は、より広範なLinked Dataの世界で用いられる語彙との間に明確に定義された関係性を持っている必要がある。リンクの可能性の最大化するためには、二つの方法がある。一つ目は、既存の標準に基づくLinked Dataの語彙を用いること、二つ目は、図書館界のLinked Dataの語彙と、他のコミュニティでのLinked Dataの語彙との間に、明示的な関係性を定義する(「対応付けを行う」)ことである(さらなる議論は付録Cを参照)。

4.4 図書館員とアーキビスト

4.4.1 Linked Dataの要素セットと値語彙を保存すること

多くのLinked Dataの語彙は、本質的には文化に関する参考文献となるものであり、地域的、国内的、国際的な文脈における人物、場所、出来事、概念に関して信頼性の高い情報を提供するものである。そのため、Linked Dataの語彙を保存することは、自然かつ不可欠な、記憶保存機関の活動の拡張であるといえる。URIが存続し、意味を記載した文書に到達できるようになっている場合にのみ、Linked Dataは今から20年後にも活用できる。要素セットと値語彙は、現在から未来に至るまでデータを正確に解釈するための鍵となるものであり、保存対象として特に重要である。こうした状況において、図書館は、Linked Dataのエコシステムを支える重要な役割を担う機会を与えられているといえる。

4.4.2 図書館が培ってきた情報の収集整理と長期保存の経験をLinked Dataのデータセットに適用すること

現在のLinked Dataクラウドにあるコンテンツの多くは、一般に利用可能なデータセットを、その都度、一回限りでRDFに変換した結果であり、定期的な品質検査やメンテナンスを受けていない。品質管理の価値観と長期管理の義務感を持つ図書館は、これまでの使命の延長としてLinked Dataを収集整理するという重要な(しかしこれまで疎かにされてきた)役割を引き受ける大きな機会を得ることになる。真にリンク可能な対象として、データセット内で記述されているリソースを収集整理し、維持管理することによって、図書館はデータを公開して、他のコミュニティから付加価値を得るなどの恩恵を受けることができるようになる。例えば、伝記作家や系譜学者から提供されたデータへのリンクを付加することで、図書館におけるリソースの記述は、通常図書館からは提供されることのない種類のデータによって豊かになり、図書館のコレクションの発見とナビゲーションの機能を大幅に向上させることができるだろう。

参考文献

[LINKEDDATA]
Linked Data, Tim Berners-Lee, World Wide Web Consortium, accessed 18 October 2011. http://www.w3.org/DesignIssues/LinkedData.htmlを参照のこと。
[RDF]
Resource Description Framework (RDF), World Wide Web Consortium, accessed 18 October 2011. http://www.w3.org/RDF/を参照のこと。
[URI]
RFC 3986 ? Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, January 2005, accessed 18 October 2011. http://tools.ietf.org/html/rfc3986を参照のこと。
[USECASE]
Library Linked Data Incubator Group: Use Cases, Daniel Vila Suero, Editor, W3C Incubator Group Report, 25 October 2011. http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/を参照のこと。 最新版はhttp://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/で利用可能である。
[VOCABDATASET]
Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, Antoine Isaac, William Waites, Jeff Young, and Marcia Zeng, W3C Incubator Group Report, 25 October 2011. http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/を参照のこと。 最新版はhttp://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/で利用可能である。

献辞

編集者に加えて、図書館Linked Dataインキュベータグループは、以下の参加者から協力を仰いだ。 Alexander Haffner, Alexandru Constantin, Andras Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

コミュニティによるレビューも当報告書を形作る助けとなった。以下のレビューの協力者に感謝の意を表したい。 Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, Rene van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

付録A:図書館に関連する既存のLinked Dataリソースの一覧表

現在利用可能なメタデータ語彙は、対象範囲の重複、派生関係や対応関係のため、複雑かつ多様な様相を呈しており、その結果、図書館におけるLinked Dataの成功にとって不可欠となる、リソースの再利用やリンク付けの取組みに影を落とす状況となっている。図書館関連分野でLinked Dataに使用するデータセットや語彙は、多くの場合、セマンティックウェブの研究コミュニティで開発されるため、図書館専門職を含む多くの人にとって馴染みのないものである。こうしたデータセットや語彙に対して、現時点での信頼に足る俯瞰図があれば、初心者が図書館のLinked Dataを概観し、専門家が図書館におけるLinked Data関連プロジェクトについて簡易な参照や再確認を行う手助けとなることが期待される。

そのため、当グループは、図書館関連分野におけるLinked Dataの作成または利用にとって有益なリソースを一覧表にした[VOCABDATASET]。独立したドキュメントとして作成されたこの一覧表は、セマンティックウェブやLinked Dataの原則や技術の初期における適用が、成熟したデータセットや語彙の発達をもたらしたことを多数の事例で示している。また、この一覧表は、現時点においても、図書館と関連組織が中心となって貢献することのできる領域を示唆している。さらに、この文書は、図書館コミュニティが自身のデータに使用する独自の観点、リソース、専門用語について、Linked Dataコミュニティ側の理解を促す機会を提供すると同時に、図書館情報学の専門家が、伝統に即した形でLinked Dataの考えを理解する一助となることも目的としている。

Linked Dataの技術は、伝統的な図書館データのコンセプトとは異なる点もあるが、この文書では、以下のとおり、図書館の運用を反映した、相互排他的ではない三つのカテゴリーに利用可能なリソースを分類している。

データセットは、多数の値語彙からデータ要素を再利用する場合もあれば、メタデータ要素セットの仕様に沿って構造化される場合もある。例えば、英国全国書誌では、LCSHやDCMI Metadata Termsから用語を再利用している。これらのカテゴリーに関する具体例は、簡単な説明や、オンライン上の掲載場所へのリンク、当グループが図書館コミュニティから集めたユースケースへのリンクと併せて、一覧表の中に列挙して説明している。

この一覧表は、利用可能なリソースに関する広範な情報を提供することを意図している。しかし、新しいリソースが継続的に利用可能になり、既存のリソースが定期的に更新されるというLinked Dataの動的な性質を考慮すると、この報告書が、現在のデータセットの多様性を完全に把握できていないことは自明である。この報告書は、代表的な全体像を得るため、収集したユースケースを基礎資料として使用している。執筆時点で利用可能なリソースのうち、特に重要なものについて見落としがないか確認するために、当グループに参加する専門家から提供された情報も追加している。

将来にわたって、この報告書が有用なものとなるよう、当グループの活動終了後も最新情報を提供していると思われるウェブサイトやツールへのリンクも多く収録している。その一つに、図書館関係のLinked Dataのデータセットに関する情報を集めたウェブサイトとして、当グループが立ち上げたLibrary Linked Data groupがある。このサイトは、The Data Hubによって管理されている。The Data Hubは、オープンデータとして提供されたものに焦点を当てて、データ記述の中心的役割を果たすように設計されたレポジトリーである。当グループの活動終了後も、The Data Hubのグループが、図書館関係のLinked Dataコミュニティによって活発に運営されていくことを期待している。

付録B: 関連技術

Linked Dataは新たな技術であるため、多くのツールが依然として開発中の段階である。Linked Dataの原則はいかなる特定のツールの制約も受けない。むしろ、ウェブ標準に直結している。多くの場合、Linked Dataの生産と消費には、大規模に再開発する必要がない様々な既存のアプリケーションが層を成し、混在している。このツールおよび技術の一覧は網羅的ではないが、数種に大別した分類を例示することを目的としている。非技術的な観点からも、再利用可能な語彙の作成や発見を促進し、この語彙を構文として再利用可能なステートメントに統合する方法を提供するため、これらの技術が適しているといえるだろう。

B.1 ウェブ上に実在しないものを識別するURIの利用

ウェブが普及し始めた頃は、「HTTP URI」(別名「URL」)をウェブ上に「存在」しないものの識別に利用するべきかどうか不明確であった。非実在物の識別に対する関心は、URN"info" URI等の新たなURIスキームを定義する基礎となった。最終的には、W3C統一資源識別子分科会(RFC 3305)の報告書とW3C技術顧問グループのHTTPRange-14」として知られる問題の解決策により、この曖昧さは解消された。Linked Dataのパラダイムでは、HTTP URIもまた「実世界のオブジェクト」を識別するために使用できるだろうと広く期待されている。それにもかかわらず、多くのアプリケーションがその他の識別子スキームを基盤に作られている。owl:sameAsプロパティの使用は、解決できないURIスキームをHTTP URI相当にマッピングする際に有効な手段である。たとえ、このマッピングをしていなくとも、解決できないURIRDFSPARQLで有用である。

B.2 情報への分散型大量アクセス

Linked Dataの原則は2006年頃に紹介され、2008年の正式な「Cool URIの概念に至る。Linked Dataの識別子に特徴的なのは、幅広いユースケースにおいて人間と機械が情報を理解、処理、リンクできることである。例えば、DBpediaにおけるJane Austenのリソースはよい例である。解決可能なURIは通常の利用、データの診断、偶然の発見には最適であるが、大量の個別データから成るデータセットにとってはHTTP GETの分散リクエストは実用的でないだろう。幸い、リンク付けされたデータセットはRDFダンプとして急速に公開され、Vocabulary of Interlinked Datasets (VoID)を使って一貫して記述されている。

B.3 既存データストアをLinked DataとRDFにマッピングするためのフロントエンド

関連ユースケース群: 語彙マッピングの類型

典型的なXML文書で階層的に表現される情報と異なり、Linked Dataとして公開されたリソースは、ユースケース特有の階層構造から自由になり、それによって想定外の再利用も可能になる。これにより、情報だけでなく、ツールやサービスともよりマッシュアップしやすくなる。これはLinked Dataの作成者および利用者双方に当てはまる。例えば、D2R Serverを使用することで、既存のリレーショナルデータベースにLinked Data とSPARQLを実装することもできる。W3C RDB2RDF ワーキンググループは、現在こうしたマッピングの標準を検討している。同様に、わずかなURL書き換え規則を使ってLinked Dataを既存のSRUデータベースから生成することができる。リソースが既にSPARQL エンドポイントで記述されている場合、PubbyのようなLinked Dataのフロントエンドは、個別のデータに対するコンテント・ネゴシエーション可能なCool URIの挙動にを自動化するために使うことができる。Extensible Stylesheet Language Transformations (XSLT)は、一般的なXMLRDF/XMLに変換する際に有用である。

B.4 データ設計用ツール

関連ユースケース群:語彙マッピングの類型

アプリケーションプロファイルは、実践コミュニティが特定種別のリソースを記述する際に特定の制約をつけて語彙を再利用するためのドメインモデルやパターンを文書化する包括的な方法を提供している。 OWLウェブオントロジー言語の最新版では、語彙間の対応付けを表現するプロパティ(オントロジーマッピング)を提供しているが、これにより、専門家が関連または共通するイディオムとの相互運用性を維持しながら、コミュニティのイディオムを用いて自分たちの分野を記述することができる。OWL関連の様々なツールがW3CのRDF wikiOWL wiki上にある。統一モデリング言語(UML)用のツールにより、設計者はドメインモデルを視覚的に表現、操作することができる。オントロジー定義メタモデル(ODM)の仕様は、UMLOWL間のギャップを埋める一助となるはずである。

B.5 SKOSおよび関連ツール

関連ユースケース群:語彙マッピングの類型

さらにもう一つの主要な技術要件がSimple Knowledge Organization System (SKOS)により満たされている。SKOSは広範囲にわたる概念スキームやシソーラスを表現するOWLオントロジーであり、上位下位関係や優先ラベル、代替ラベルを定義している。多くのSKOS関連ツールの一覧がW3CのSKOSコミュニティwiki上に載っている。

B.6 マイクロフォーマット、マイクロデータおよびRDFa

関連ユースケース群:ソーシャルな新しい使用法の類型

MicroformatマイクロデータおよびRDFaはいずれも構造化データをウェブページに埋め込む方法を提供している。歴史的にウェブ上への情報公開がまさにウェブページの公開を意味してきたように、これらの技術は、必然的にインフラを拡張するというよりはむしろ既存のインフラを強化する方法を提供している。RDFaRDFデータをウェブページに直接埋め込む表現方法をサポートしており、3つの中で他のLinked Data基盤との相互運用性が最も高い。

マイクロデータは、開発中の新たなHTML5仕様で定義されているが、ウェブページにデータを埋め込むためのもう一つの方法を提供している。マイクロデータは、Google、Microsoft、Yahoo!が発表したSchema.orgによる検索エンジン最適化のために特に注目を集めている。この特定の型のマイクロデータは複雑なデータを個々の裁量で自由に表現することを目的としたものではなく、公開されている語彙は商工観光に特に重点が置かれている。原則として、マイクロデータのスキームは拡張可能であるが、図書館情報を表現するには多くの必要な語彙が足りないため、かなり拡張する必要があるだろう。Schema.RDFS.orgの努力のおかげで、Linked Dataとはある程度相互運用可能であるが、現時点では、この方法を用いて、図書館と他のデータセット間の高度な相互連携を実現することは難しいように思われる。

注目すべきはSchema.org提案者達がRDFaデータの収集もサポートし、継続する姿勢を示していることである。そのため、RDFaでマークアップされたHTMLページを公開したとしても、マイクロデータによる利点を「取り逃す」ことにはならないだろう。検索エンジンパーサーのバグを回避するためにも、同一ウェブページ内で両方のメタデータ技術を使えるようにするべきである。最終的な結論と言えるのは、どのような構造化データであっても全くないよりはまし、ということである。

B.7 ウェブアプリケーションフレームワーク

関連ユースケース群:アーカイブおよび異種データの類型

ウェブが普及するにつれ、ソフトウェア開発コミュニティが、ウェブアプリケーションの開発・管理・再利用を容易にする多様なソフトウェアライブラリを開発している。これらのライブラリはウェブアプリケーションフレームワークと称されることが多く、一般的に何らかの方法でモデル・ビュー・コントローラ(MVC)方式を実装している。さらに、ウェブアプリケーションフレームワークは、ウェブ技術の標準化に関するRESTアーキテクチャルスタイルおよびリソース指向アーキテクチャに対するベストプラクティスを符号化し、促進している。

ウェブアプリケーションフレームワークに共通する要素はURIルーティングである。このメカニズムにより、ソフトウェア開発者はHTTP URI方式を定義し、適切なビューとモデルを用いてHTTPレスポンスを生成するコントローラへマッピングすることができる。 この活動がCool URIに関するベストプラクティスを促進することで、開発者はウェブ上で利用できるリソースについて考慮しなければならなくなる。HTTP URIを用いてリソースに名前をつけること、人間のためのHTMLと機械のためのRDF形式でリソース表現を返すことに重点を置いたLinked Dataは、ウェブアプリケーションフレームワークに適しており、ウェブアプリケーションフレームワークは既にLinked Dataに活動のための足場を提供している。ウェブアプリケーションフレームワークが多様なプログラミング言語やオペレーティングシステム環境で広く利用可能になることで、文化遺産機関で幅広くLinked Dataの利用が進むことにつながる。

ウェブ開発者はセマンティックウェブ(Linked Data)技術に時にうんざりさせられる。それは最新のアプリケーションを捨て、データベースをトリプルストアに、データベースクエリ言語をSPARQLに置き換えることを強制されるように感じるからである。これは単純に事実とは異なっている。というのも、ウェブアプリケーションフレームワークでHTML、XMLJSONの表現形式を出力する場合と同様に、RDFシリアライゼーションをその都度生成することができる。RDFデータモデルを用いたリソースの識別やリソース間のリンクのためにHTTP URIを利用することは、データベースに依存しない方法で実体情報を直列化し、共有するための自然な選択となる。これは文化遺産機関やデジタル保存コミュニティが伝統的に大きな関心を寄せてきた目標の一つである。

B.8 コンテンツマネジメントシステム

関連ユースケース群:ソーシャルな新しい使用法の類型, デジタルオブジェクトの類型, アーカイブおよび異種データの類型

ウェブアプリケーションフレームワークがウェブの普及とともに進展したのと同様に、コンテンツマネジメントシステム(CMS)で知られるウェブアプリケーション群も発展してきた。CMSはウェブアプリケーションフレームワークを用いて構築されることが多いが、ウェブ上のテキスト、画像、映像等のコンテンツを容易に作成、編集、表示したりするためやコンテンツに関連したワークフローを管理するためにそのまま使える機能を提供している。CMSは一般的に複数のウェブフレームワークを使って構築されているため、HTTP URIを用いてリソースに名前付けするためのベストプラクティスと同じ方法が自然に用いられることになる。CMSは幅広く普及し、文化遺産機関で多用されている。Drupal等のCMSは、RDFaを使ってシームレスにHTML化することで、構造化されたデータベース情報をマシンクライアントに公開し始めている。Google ScholarやGoogle Maps、Facebook等のデータ利用者は、この構造化したメタデータを独自のサービス提供に利用し始めている。逆に、DrupalもまたVARQLSPARQL Views等のRDFを利用するためのプラグインの提供を開始している。

B.9 図書館のLinked Data用ウェブサービス

関連ユースケース群:書誌データの類型, 典拠データの類型

理論上、多くのドメイン固有のウェブサービスAPIの機能は、Linked Data URIOWLSPARQL、SPARQL/Updateとしてリファクタリングができる。しかし、既存のバックエンドのデータストアに、Linked Data URI フロントエンドを重ねられるべきだとしても、バックエンドがSPARQLやSPARQL/Updateのアクセスをサポートするのは容易なことではないだろう。安全性、堅牢性、性能について考慮が必要になることも、実運用環境でSPARQLをサポートすることの妨げとなる。 SPARQL エンドポイントやRDF一括ダウンロードにより、公開されているLinked Data の発見、再利用を大いに促進することができる。しかし、多くのウェブ開発者がこれを活用できる以前に、これらの技術を習得する困難に直面する。そして、多くのアプリケーション要件にとってこのことが非常に大きな負担となる。

ウェブサービスは、最も一般的な利用を想定して、利用方法の選択肢を提供するべきである。しかし、多くのウェブサービスAPIがドメイン固有になる傾向にあり、独自にコード化したエージェントを要する。これは十分なドキュメント化が必要なことを意味する。ウェブサービスインターフェイスに対するより一般的なアプローチには、OpenSearch(Description Documentによりドキュメント化されている)やLinked Data API、W3CのRDF Web Applications Working Groupで作業中であるRDFRDFa API等が挙げられる。Linkned DataのセットでもAtom Syndication FormatまたはRSSを用いた配信から恩恵も受けることができる。

Linked Dataを実現するサービスには、リソースの発見と利用を強化するためにウェブサービスを実装しようとしているものもある。多くは、APIの形式をとり、例えば、AGROVOCSTW Thesurus for Economicsではデータの関係性をベースとしたリソースの発見のためのAPIを提供している。VIAF米国議会図書館のID.LOC.GOVサービスSTWでは、リソースの検索のために自動入力補助サービスを提供し、AJAXのブラウザーアプリケーションで利用できるJSON形式のレスポンスを返している。(ただし原則として、JSON形式のレスポンスはLinked Data URI経由でコンテント・ネゴシエーション可能であり、HTMLやRDF形式のレスポンスも用意されている。) AGROVOC とSTITCH/CATCHRDF形式のレスポンスもサポートしている。本格的なSOAP APIを提供するサービスもあるが、REST方式をサポートするものもある。

検索を強化するために要求パラメーターとレスポンス様式に重点を置くことで、Linked Dataウェブサービスは、トリプル形式でのデータの保存やSPARQL経由での検索といった要件を除外するまではいかずとも、縮小させる。そして、一般的なウェブサービスAPIを用いることにより、ウェブサービスはLinked Data方式を採用するためのハードルを低くすることができる。

付録C:意味上の対応付け

異なる値語彙、メタデータ要素セット、またはデータセット間で、意味的に等価・同等・関連関係にある実体同士を「対応付け」することが可能である。値語彙間の意味上のリンクは、すでに多くが利用可能となっており、例えば、MACSCRISSCROSSといったプロジェクトで、手動で作成された高品質のリンク情報を取得することができる。値語彙の提供者の多くは、彼ら自身のリソースと意味的に近似関係にあるリソースとのリンクを生成し、維持管理することに力を入れている。例えば、VIAFは、10数以上におよぶ国や地域の書誌作成機関から収集した典拠レコードを統合する作業を行っている。AGROVOCは、6つの他の主要なシソーラスと件名標目表へのリンクを作成している。今回は定量的な評価を行っていないが、さらに多くのリンクが今後作成されるべきだろう。「図書館データのクラウド」において、値語彙間でのリンク付けを増やすためには、まだ成すべきことが多く残されている。

メタデータ要素セット間の対応付けについても同様である。Linked Open Vocabulariesのリストが示すように、実践者は一般的に、既存の要素セットを再利用する、つまりは多数の要素セットから要素を選択して再利用するアプリケーションプロファイルを策定するという優れた実践に従っている。Vocabulary Mapping Frameworkのようなプロジェクトは、こうした対応付けの支援を企図したものである。

要素セットが機関の支援のもとに維持管理されない場合には、その要素セットで共有された意味は、長期的な持続が脅かされることになる。加えて、書誌レコードの機能要件(Functional Requirements for Bibliographic Records : FRBR)を代表とする参照モデルは、多数の異なるオントロジーによって表現されており、これらの異なる表現がすべて明示的に対応付けされているわけではない。このような状況下では、RDF語彙が使用されるデータセット間の意味上の相互運用性は制約されることになる。図書館関連のLinked Dataコミュニティは、一から新しい要素セットを作るのではなく、既存の要素セットを協調して再利用または拡張するように推進すべきである。また、既存の要素セットの意味が重複している場合には、RDF Vocabulary Description Language (RDF Schema)OWLウェブオントロジー言語による意味関係を用いて、対応付けを行うことが推奨される。LOD-LAM initiativeDublin Core Metadata InitiativeとFOAFによる共同プロジェクト、そして当グループが提唱するように、これらのリソースの作成者と維持管理者の間でより適切なコミュニケーションが行われることで、要素セット間の概念上の関係性がより明示的に示されるようになることが望まれる。

データセットもまた対応付けされ得るものである。例えば、Open Libraryは、各所蔵情報にOCLC管理番号を付与している。個々の図書やその他の図書館資料のメタデータ記述では、メタデータ要素セットや値語彙に比べると、再利用が中心的な問題にはならないと言って良いだろう。というのも、例えば総合目録では、現時点ですでに、図書レベルのデータの集約をかなり高いレベルで実現しているからである。 とはいえ、図書館に関連するデータセットが、それぞれサイロとして存在し続けるよりは、公開され、相互リンクされることが極めて重要である。実際のところ、この分野においてLinked Dataが提供されることで期待される利点は、まさにこうしたことでもある。図書館コミュニティは、過去の経験から、すでに「重複を削減する」課題に対して十分意識的だといえるだろう。

図書館のリソースとその他の機関や分野で組織化されたリソースとの間でもリンク付けができるということは、留意すべき点である。例えば、VIAFは、多数の図書館関連機関から典拠レコードを集約し、主たる関連実体を識別した後、可能な場合には、Wikipediaから抽出したLinked DataであるDBpediaへのリンク付けを行っている。例えば、Jane Austenに対するVIAFWikipediaDBpediaにおける意味上の対応付けは、出自に拠らず、容易にデータが連携されるという、Linked Dataに期待される利点の一つを示している。このように図書館データは、他分野から再利用したデータによって恩恵を受けることができる一方、図書館コミュニティ以外から生まれた新しい取組みに貢献することもできる。

対応付けの作業は、リンク作成のためのツールを使うことによって、効率化を図ることができる。Ontology Matchingのようにコンピュータサイエンスの研究分野には多くの努力が注がれている。こうした研究は、文字列によるマッチングや統計による分析に基づく実装につながるものである。こうした取組みは、メタデータ要素セットに焦点を当てる傾向があり、図書館関連分野の(大抵の場合には巨大な)データセットや値語彙に対しては、概して適用可能な段階にはない。最近のデータをリンク付けするための汎用的なツールとしては、Silk - Link Discovery FrameworkGoogle RefineGoogle Refine Reconciliation Service APIが挙げられる。このようなツールはあるものの、図書館コミュニティは、依然、これらを使用するための経験をし、その結果を共有し、場合によっては、図書館のLinked Dataにより適したツールを開発する必要があるだろう。

最後に一つ警句として。データの利用者は、伝統的な、閉じたITシステムとは違い、Linked Dataが、オープンな世界という前提のもとに成り立つものであることを心に留めておくべきである。この前提下では、データは一般的にそれ自体で完全とは見なせないものであり、いかなる所与の実体についても、原則として、より多くのデータが利用できるようになる可能性を持つということである。ここに挙げたプロジェクトとともに、図書館関連分野で、より多くの「データのリンク付け」がなされることを期待したい。