• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

トップ > 国会図書館について > 書誌データの作成および提供 > 講演会 > 「セマンティック・ウェブと図書館:機械が情報を読む時代へ」概要

書誌データの基本方針と書誌調整:講演会

「セマンティック・ウェブと図書館:機械が情報を読む時代へ」概要

 近年、図書館をはじめとする情報流通の世界では、「セマンティック・ウェブ」が注目を集めています。セマンティック・ウェブとは、ウェブサイトなどの情報資源に、コンピュータが自動処理を行える形のメタデータを付与することでより高度な情報探索を行う、次世代ウェブの考え方です。
 国立国会図書館でも、「国立国会図書館件名標目表」(NDLSH)の流通性、相互運用性を高めるよう、セマンティック・ウェブでの新たな提供形式を構築するなどの取組を行っています。
 この講演会では、セマンティック・ウェブの概念について、国立情報学研究所と国立国会図書館の事例を踏まえながら、ご紹介いたしました。

日時・場所

日時:平成22年 7月27日(火) 14:00 〜 16:30

場所:国立国会図書館 東京本館 新館 講堂
国立国会図書館 関西館 1階 第一研修室(テレビ中継)

このページの先頭へ

知のリンク:セマンティック・ウェブとは何か

永森光晴(筑波大学大学院図書館情報メディア研究科講師)

講演会での永森氏の写真を表示しています

 メタデータは、教科書的にはデータに関する構造化されたデータと定義され、一見、難しく感じられるが、テレビ番組案内、商品ラベルなど身近にもメタデータは利用されている。このメタデータは、特にネットワーク上での情報探索に不可欠である。
 しかし、メタデータの記述の仕方がバラバラであれば、各種のデータを連携させ、検索するといったことはできない。そこで、一定の規則に基づいて記述されたメタデータを組織化し、連動させることで、より効率的な情報アクセスを可能とする情報空間を構築しようという試みがセマンティック・ウェブである。セマンティック・ウェブは、情報資源の高度な検索や連携を通じ、データが互いに連動する知のリンクを実現することを目指している。

 セマンティック・ウェブは現在でもRSSなどに応用されている。RSSは機械が解釈可能なRDF(Resource Description Framework)で記述されていることが多い。RDFは、主語(サブジェクト)、述語(プレディケイト)、目的語(オブジェクト)の三つの組み合わせ(トリプル)を、同じ識別子を持つ主語や目的語をまとめ、それぞれをURIで表現することで、データの参照や交換が容易に行なえるようになっている。

セマンティック・ウェブの世界では、言葉のつながりを記述するために、どのような語彙を、どのように使うか等の規格がいくつか準備されている。例えば、RDFスキーマでは、プロパティ間の関連を定義することができ、OWLでは、RDFよりも詳細に語彙間の関係を定義して、推論を行うことが可能になっている。また、SKOS(Simple Knowledge Organization System)ではシソーラスや件名標目、分類といった知識組織化体系を定義しており、ウェブ版の国立国会図書館件名標目表であるWeb NDLSHにも使われている。

 2007年頃からソフトウェアがデータを識別してアクセスし、利用できるようにするリンクト・データが登場した。これを応用し、ウェブ上に公開されているさまざまなデータをRDFで記述してリンクすることで検索を容易にする、リンキング・オープン・データという取組が行われている。

 メタデータの作成方法には、HTML文書の中にRDFを埋め込みタグの属性を使ってRDFを記述するRDFa、HTMLのclass属性を使って、文書中にメタデータを埋め込むマイクロフォーマットなどがある。また取り出し方にも、メタデータをRDFとして抽出するGRDDLなどがある。

 ダブリンコアはインターネット上で最も知られ、使われているメタデータ規則の一つである。最近では55のプロパティを定義している。ダブリンコアには、アプリケーションプロファイルという概念がある。複数のエレメントセットからエレメントだけを借りてきて、自分たちが応用の制約を与えるという考え方で、いくつかのエレメントセットから、応用ごとの適用規則を作るというものだ。

 セマンティック・ウェブが目指す知のリンクを実現するには、ウェブサイトなどの情報資源にメタデータが付与されていることが必須である。各種のサービスを提供する管理者が、自らのコンテンツにメタデータを与え、そのようなデータが増えることによって、セマンティック・ウェブが目指す世界は一歩ずつ近づいていくのではないか。

このページの先頭へ

セマンティック・ウェブと学術情報サービス

大向一輝(国立情報学研究所准教授)

講演会での大向氏の写真を表示しています

 CiNiiは、国内最大規模の論文検索・提供サービスである。学会や大学等から国立情報学研究所(NII)が受け取り電子化した論文情報約350万件と、国立国会図書館の雑誌記事索引といった他機関が所有するデータベースの書誌を合わせて、約1300万件のデータから成り立っている。

 学術情報サービスの点からセマンティック・ウェブを考えると、ウェブ情報の構造化によってコンピュータの自動処理機能が向上したということが、大きな意義である。セマンティック・ウェブの究極の理想である、自動的な推論や人工知能的な情報探索を可能にするためには、一つ一つの物事や概念に適切なIDを与え、情報を高度化する必要がある。

 学術情報分野では、研究者の論文や図書館資料の整理などの際に、メタデータを付与することが日常的に行われてきた。このように仕事として情報の構造化に携わる人が多いというのが、学術情報分野の特徴である。そのため、この分野においては、情報の構造化がルールに沿って進められ、XMLの規格化やRDFの標準化など有用なツールも整備されており、セマンティック・ウェブに対応しやすい状況にあると言えよう。今後は、たくさんの語彙がある中で、どのように情報を組み立てていくかがポイントとなる。メタデータを厳密かつ詳細に記述するほど、コンピュータは読みやすくなる一方、人間は読みにくくなるという、人間とコンピュータのトレードオフの関係の中で、悩みながら進めている。

 あるウェブサービスについて外部の情報システム開発者がその機能を用いてあらたなアプリケーションを開発できるようにする技術をウェブAPIというが、CiNiiでは、外部の情報システム開発者の視点に立ち、より汎用的に機能を活用できるよう、できるだけデータ構造をシンプルにしてウェブAPIを設計している。また、CiNiiは、検索と書誌表示を中心とするシステムであるが、その両方の機能について、XMLやRDF形式でデータを入手できるようにしている。検索機能は基本的にオープンサーチに準拠している。一方、書誌表示については、メタデータ基準としては古いものの世間に普及している旧来のダブリンコアやRDF時代に開発されているFOAFといった語彙を使い分け、さらにCiNiiでしか表現できないデータがあれば今後独自語彙で表現することを検討している。

 ただ、書誌の中で構造化されてこなかった情報というものがある。例えば、CiNiiの1200万書誌の中に800万もの名前のバリエーションがあるように、論文を整理する際に、必ずしも著者に対して的確なIDが振られてきたわけではない。そこで、CiNiiでは、さまざまなアルゴリズムを用いて著者IDを数百万にまとめた。さらに2010年4月1日からは著者検索をオープンし、利用者のフィードバックを受けている。利用者の協力を得ることで、徐々に情報の精度を上げ、的確な著者IDを付与することで、外部機関が運営するサービスにも連携させて行きたい。例えば、組織名や研究者が論文に付けるキーワード等が適切に構造化できれば、ウェブ版の国立国会図書館件名標目表であるWeb NDLSHやWikipediaから構造化されたデータを抽出するDBpedia等と連携することも可能になる。

 これまで行ってきた情報資源のアーカイブと構造化、組織化を、さらに高いレベルで実現していくことが、これらからの図書館の役割である。セマンティック・ウェブを社会に広めるためには、図書館や各分野の研究者等が連携・協力して、利便性の高い構造化されたデータの整備に取り組むことが必要であろう。

このページの先頭へ

国立国会図書館 書誌サービスの新展開:Web NDLSHとDC-NDL

大柴忠彦(国立国会図書館収集書誌部)

講演会での大柴の写真を表示しています

国立国会図書館では、「国会図書館の書誌サービスの新展開」において、インターネット環境に対応した当館ならではの書誌サービスを目指していくことを示している。今回の講演では、国立国会図書館ダブリンコアメタデータ記述(DC-NDL)の改訂とウェブ版の国立国会図書館件名標目表であるWeb NDLSHの公開という当館の2つの試みを紹介する。

 2007年に当館では、ダブリンコアをベースに当館が定めた語彙を加えた「国立国会図書館ダブリンコアメタデータ記述要素(DC-NDL2007年版)」を策定した。それから約3年が経過したことからダブリンコアの最新動向を踏まえ、2010年6月に「国立国会図書館ダブリンコアメタデータ記述(DC-NDL)」と若干名称を変えて当館ホームページ上に公開した。

 改訂のポイントは、タイトル、作者、主題、日付などメタデータの各要素であるセマンティックスに関する部分と、要素の記述方法であるシンタックスに関する部分を分けたことである。さらに、メタデータの各要素や語彙を拡充、明確化している。

 現在、DC-NDLは、国立国会図書館サーチ(開発版)インターネット情報保存事業などで利用されているが、メタデータ規則の国内標準として幅広く利用されることを目指している。また、今後もメタデータの国際的な動向を注視し、連動を図っていきたい。

 次に、2010年6月に公開したWeb NDLSHは、件名標目という統制語彙をウェブ上で利用しやすい形で提供することを目的としている。主な特長としては、(1)個々の件名標目にURIを与えていること、(2)SKOSのモデルを用いていること、(3)シソーラス構造のグラフィカルな表示を提供していること、(4)多様な形式でのダウンロードやSPARQLによる検索など外部システムとの機械的連携を容易にしていること、(5)参照形やNDCなどから検索できることなどがある。

 今後は、ウェブ上での流通性、相互運用性をさらに向上させ、NDLSHを件名標目・主題語彙における国内標準となるように取り組んでいく。また、新設件名のRSS配信、個人名や団体名といった名称典拠の提供等により利便性を高めることを検討している。

 この講演会のタイトルは「機械が情報を読む時代へ」とあるが、ウェブ情報が意味論的に正確に結び付くためには、最初に機械としての意味、枠組みを人間が与える必要がある。図書館は信頼性の高いリソースをたくさん持っているが、ウェブの世界においては、情報を正確かつ高度に読み取れてこそ生きてくるものである。当館は、今回のDC-NDLの改訂とWeb NDLSHの公開のように、セマンティック・ウェブの世界へ積極的に関わり、豊富な資料を背景とした信頼性のある書誌データを利用しやすい多様な形で提供できるよう、新しい書誌サービスを今後も展開していく。

このページの先頭へ

質疑応答

 各講演の後に行われた質疑応答の概要をご紹介します。

質疑応答時の写真を表示しています

Q.Web NDLSHは、文字列と数字番号によるURIをどのように使い分けられているのか。

A.数字番号によるURIがメインであるが、目視的にも識別しやすい文字列のURIも付与しており、 双方のURIから同じ件名にアクセスできる。(国立国会図書館)

Q.Web NDLSHは、どのようなURIでLCSH(米国議会図書館件名標目表)へリンクしているのか。

A.以前は文字列を入力していたが、2009年8月からLCのコントロール番号を入力している。(大柴)

Q.セマンティック・ウェブがアカデミックな世界を飛び出し、一般社会でより広く活用されていくためには、どのような活動が求められるか。

A.情報を発信する人たちがコンテンツにメタデータを付与することで、Linked Dataの世界が広がっていく。(永森氏)
A.データをもつ人が積極的にメタデータを付与し、情報をスムーズにやり取りできる社会にしていきたい。(大向氏)

Q.Web NDLSHはWikipediaにリンクしているが、Wikipediaは情報の信頼性に疑問があるとも言われている。今後、国立国会図書館においても様々なシソーラスや語彙とリンクすることになると思うが、情報の信頼性はメタデータを付与するに当たって、どのように考慮していくのか。

A.W3Cが提示しているセマンティック・ウェブの概念を示したレイヤーケーキの上位には、「Trust」というレイヤーがあるが、現在のところ、そこまでは考慮できていない。Wikipediaにリンクすることに当館内部で議論がなかったわけではない。リンクするデータの信頼性については、今後検討する余地がある。(大柴)
A.完全な信頼性を保証することは困難であるが、公的機関の発言である旨の電子証明や読者の指摘や多数決等を通じて、信頼性を高めていくことは可能だと思う。(大向氏)

Q.機械が情報を読むといっても、入力されたタグを処理しているにすぎない。機械が自動的に情報を組織化できるような将来像はないか。

A.既に何十億とあるウェブページをどのようにリンクさせていくかも大きな課題である。ウェブマイニングと呼ばれることが多いが、言語処理や統計を駆使してウェブサイトから有益な情報を抽出する研究が進められている。ヴァネヴァー・ブッシュ氏が提唱したメメックスを超えるような構想は見当たらないが、当時は夢物語だった技術が実現してきており、今後も発展していくだろう。(大向氏)

このページの先頭へ