• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

OCLCの多言語書誌構造化の取組み ―利用者にとって最適な表示を目指して

NDL書誌情報ニュースレター

NDL書誌情報ニュースレター2014年4号(通号31号)

本誌前号で予告しました、世界最大の図書館サービス組織OCLC(OCLC Online Computer Library Center, Inc.)による多言語書誌レコードの構造化の取組みについてご紹介します[1]

OCLCの研究部門であるOCLC Researchでは、WorldCatのデータの品質向上や、OCLC各種サービスにおける表示画面の改善を目指し、多言語書誌レコードを活用した取組みを行っています。WorldCatには、世界中の参加館から提供された3億件以上の書誌レコードが収録されています。そのうち、英語以外の言語で作成された書誌レコードが半数以上を占めています(図1)。


図1 WorldCat収録レコードの言語の割合[2]

書誌レコードを作成する際のルールとして、「資料にあるがままに記録する」(転記の原則)というものがあります。たとえば、タイトルは原則として資料にあるがままに記録されるため、同じ資料であれば、どの機関が作成した書誌レコードでも、同じ言語で記録されます。一方で、資料に表示されていない概要や件名(主題)、注記等の場合、書誌レコードの作成に使われる言語(目録用言語)はさまざまです。

また、一つの著作に対してさまざまな言語による翻訳書があります。たとえば、夏目漱石の『吾輩は猫である』の場合、原作と翻訳書では本文の言語が異なるだけでなく、タイトル(『I am a cat』『Je suis un chat』等)の言語も異なります。

このように、ひとことで多言語書誌といっても、目録用言語がさまざまな場合や、資料本文の言語がさまざまな場合があります。WorldCatに収録されているそれらの多言語書誌は、同じ資料に対する書誌レコードであったり、同じ原作の翻訳書の書誌レコードであったりと、データ間に何らかの関連性をもっています。

そこで、OCLC Researchでは、この大量の多言語の書誌レコードを解析し、FRBRでいう同じ「著作」ごとにグルーピング[3]したレコードの中から、利用者にとって最適な言語や文字の書誌情報をWorldCatの画面[4]で表示できるような「多言語書誌構造化」プロジェクトに取り組んでいます。

【利用者にとって最適な表示を目指して】

WorldCatには各国語版の画面があり、各項目の見出しの表示言語が選べます。たとえば、日本語の表示を選ぶと、イギリスの物理学者スティーヴン・ホーキング博士の著書“The Grand Design”の書誌情報は、図2のように表示されます。


図2 現在のWorldCatの書誌情報詳細表示画面(日本語)[5]

多言語書誌構造化の取組みが進むと、WorldCat内のある「著作」に関する多言語書誌レコードのかたまりの中から、選択した表示言語と同じ目録用言語で作成されたデータを集めて、表示できるようになります。図3は、OCLCが考える利用者にとっての最適な表示を実現したイメージ画面例です。たとえば、日本語の画面では目録用言語の英語で表示されていた概要(図2赤枠参照)が、図3では、選択した表示言語と同じイタリア語で表示されるようになります。件名(主題)も同様です(図3赤枠①②参照)。これは、さまざまな目録用言語による“The Grand Design”の書誌レコードや、各言語による翻訳書の書誌レコードから、それぞれの言語に関するデータ等をもとに、イタリア語の画面を見ている利用者にとって最適な表示を構成するデータが自動的に選択されています。実験段階のため詳細な情報が公開されていませんが、今後の動向を注目していきたい取組みです。


図3 WorldCatの書誌情報表示画面イメージ(イタリア語)[6]

【翻訳書のグループ化[7]

多言語書誌構造化プロジェクトでは、さまざまな言語で翻訳された「著作」に重点が置かれています。その一環として、WorldCatの多言語書誌レコードの解析・グルーピングの成果を活用し、バーチャル国際典拠ファイル(VIAF)で翻訳書のグルーピングの精度を向上させる取組みが行われています。

VIAFには、原作のタイトルとその著者から成る「著作の統一タイトル」レコードと、その翻訳書のタイトルと翻訳者からなる「表現形」レコード(それぞれFRBRでいう「著作」と「表現形」)が登録されています。これは、WorldCatの各参加館から提供された書誌レコードをもとに生成されたものです。これらのレコードには“xR”という目印(フラグ)が付けられており、VIAFの参加館が提供している典拠レコードと識別することができます。

この“xR”付きの典拠レコードがVIAFでどのように用いられているか、村上春樹の『色彩を持たない多崎つくると、彼の巡礼の年』を例に見てみましょう[8]。まず、VIAFの村上春樹の典拠レコードを確認します(図4)。「Works」欄に表示されている村上春樹の著作の一覧から、『色彩を持たない多崎つくると、彼の巡礼の年』のリンクをクリックすると、「著作の統一タイトル」レコードが表示されます(図5)。画面の「表現形」欄を見ると、オランダ語、ドイツ語、イタリア語…と、この作品がさまざまな言語で翻訳されていることがわかります。さらに、たとえば、イタリア語のタイトル『L'incolore Tazaki Tsukuru e i suoi anni di pellegrinaggio』をクリックすると、翻訳言語、原作のタイトルと著者、そして翻訳者等がひとまとまりになった表現形のレコード「村上, 春樹, (1949- ). | 色彩を持たない多崎つくると、彼の巡礼の年 Italian | (Pastore : 2014)」を確認することもできます。


図4 VIAFの詳細表示画面(個人の典拠レコード)


図5 VIAFの詳細表示画面(著作の統一タイトルから表現形のレコードへ)

また、海外の著作について、日本語の翻訳書があるかどうか確認することもできます。2014年5月までに、原作と翻訳書をあわせて約100万件の“xR”付きの典拠レコードがVIAFに追加されています。この“xR”付き典拠レコードが追加されることで、原作とリンクされた翻訳書のレコードの数が増え、より多くの「著作」について、さまざまな言語で書かれた翻訳書が一覧できるようになります。また、WorldCatに収録されている3億件以上のレコードのうち、たとえば、英語以外の作品が英語に翻訳されている割合はどのくらいか?最も多くの言語に翻訳されている作品は何か?著者は誰か?といったことが調べられるようなサービスの実現に向けた開発も進められています。現在、「著作」に関する情報(「著作の統一タイトル」レコード)がさらに見やすくなるように、表示画面を改善中です。

【多言語書誌構造化を支える取組み】

多言語書誌構造化の取組みは、OCLC Researchによる他のプロジェクト「著作レコード」や“GLIMIR”(Global Library Manifestation Identifier)の成果を反映しながら進められています。そこで、最後にこの二つのプロジェクトを簡単にご紹介します。

著作レコード:「著作」レベルのリッチなレコードの作成

OCLCが考える利用者に最適な表示の実現に向け、FRBRでいう「著作」に関する情報を充実させるためには、より網羅的かつ正確なグルーピングを「著作」のレコードごとに行う必要があります。鍵となるグルーピングは、OCLC Researchが開発したFRBR Work-Set アルゴリズムに基づいています[9]。このアルゴリズムは、WorldCatの書誌レコードのタイトルと著者の情報を基に、同一の「著作」に関連付けられる書誌レコード(FRBRの「体現形」)を機械的に判断するものです。この結果、workset[10]と呼ばれる「著作」ごとのグループができます。workset内のすべてのデータを解析し、ある「著作」に関するデータを集約することで、個々の書誌レコードよりもさらにリッチなレコードとして利用者に提供することができるようになります。このアルゴリズムを使ったWorldCatにおける「著作」のレコードの充実化を図る実験プロジェクト[11]の成果が、2011年にプロトタイプシステムとして公開されました。これらを基に、さらに精度の向上を目指しながら、WorldCatの表示画面の改善等に活用される予定です。

GLIMIR:体現形レベルの表示の改善

GLIMIRは、WorldCatのデータの品質改善に向けた試みの一つで、グルーピングした書誌レコード(FRBRの「体現形」)のかたまりごとに識別子を与えるものです[12]。同じ資料に対して異なる言語で作成されたレコードだけでなく、同じ内容でも冊子体やオーディオブック、電子書籍のように形態が異なる資料のレコードについてもグループ化しています。プロジェクトは2009年に開始され、その成果は、重複している書誌レコードの検出・解消や、FRBR Work-Set アルゴリズムの改善に活用されています。また、WorldCatや、WorldCat参加館の目録作成サービス“Connexion”に順次取り入れられており、一件の書誌レコードから、さまざまな言語や形態の資料にたどりつける表示画面が実現されています。今後は、VIAFの表示画面の改善にもその成果が活用される予定です。

OCLCでは、これらのさまざまな取組みを通し、多言語書誌レコードの活用可能性を模索しています。取組みの効果をあげるには、活用する書誌レコードの量的な拡充も必要ですが、レコードそのものの品質の向上も重要です。レコードの品質は世界中に存在する各提供機関に拠るところが大きいため、この多言語書誌構造化の取組みは、国際的な連携プロジェクトといえるかもしれません。現在のWorldCatでは、書誌レコードを中心に構造化されたデータが表示されていますが、今後は、目録用言語や本文の言語の情報によって関連付けられる「著作」中心のデータの構造化が目指されています。一機関が作成する書誌レコード、典拠レコードの利用だけでは限界がありますが、OCLCを通じて各機関のレコードが共有され、言語の情報によってデータ間に新たな関連性が生まれることで、さらなるサービスの可能性が期待できます。

柴田 洋子
(しばた ようこ 収集・書誌調整課)

[1] 下記のページと講演スライドを参考にしています。
OCLC Research. Multilingual Bibliographic Structure,
http://oclc.org/research/activities/multilingual-bib-structure.html,(参照2014-11-10).
Janifer Gatenby. Multilingual WorldCat,
http://www.slideshare.net/JaniferGatenby/multilingual-presentation-ifla-2013-0819,(参照2014-11-10).
Janifer Gatenby. Multilingualism in WorldCat and VIAF,
http://www.slideshare.net/JaniferGatenby/multilingualism-ifla-2014-08,(参照2014-11-10).

[2] 下記スライド2枚目から筆者が和訳しました。
Janifer Gatenby. Multilingualism in WorldCat and VIAF,
http://www.slideshare.net/JaniferGatenby/multilingualism-ifla-2014-08,(参照2014-11-10).

[3] この記事では「クラスタリング」と同様の意味で使っています。クラスタリングとは、簡単にいえば、類似しているデータごとにかたまり(クラスタ)に分けること、つまりグループ化することです。

[4] この記事でご紹介するWorldCatの画面は、厳密には、データベースであるWorldCatをウェブ上で公開しているWorldCat.orgですが、区別せずに表記しています。

[5] 出典は下記の資料ですが、赤枠を追記するなど筆者が加工しています。
Janifer Gatenby. Multilingualism in WorldCat and VIAF,
http://www.slideshare.net/JaniferGatenby/multilingualism-ifla-2014-08,(参照2014-11-10).

[6] [5]と同じ。

[7] VIAFにおけるグルーピングの詳細については、下記をご覧ください。
Thomas B. Hickey and Jenny A. Toves, Managing Ambiguity In VIAF. D-Lib Magazine. 2014, 20(7/8),
http://www.dlib.org/dlib/july14/hickey/07hickey.html,(参照2014-11-10).

[8] VIAFの画面や検索方法の詳細な説明は、本誌の連載記事「典拠の国際流通―バーチャル国際典拠ファイル(VIAF)への参加」の1回目(2012年4号(通号23号))および第2回目(2013年1号(通号24号))をご覧ください。また、この記事では日本語版の画面をもとに説明していますが、各言語版についてはブラウザの設定で変更することができます。
http://www.ndl.go.jp/jp/data/bib_newsletter/2012_4/article_02.html,(参照2014-11-10).
http://www.ndl.go.jp/jp/data/bib_newsletter/2013_1/article_05.html,(参照2014-11-10).

[9] アルゴリズムとは、簡単にいえば、コンピュータの処理方法のことです。このアルゴリズムは2002年に開発され、現在はver.2.0(2009年)の使用が推奨されています。詳細は下記のページをご覧ください。
OCLC Research. FRBR Work-Set Algorithm,
http://www.oclc.org/research/activities/frbralgorithm.html?urlm=159780,(参照2014-11-10).
また、このアルゴリズムの研究開発については、下記の中で日本語でわかりやすく解説されています。
橋詰秋子. OCLCのFRBR化の取組み:xISBNサービスを中心に. カレントアウェアネス. 2008, (296), p.10-11,
http://current.ndl.go.jp/ca1665,(参照2014-11-10).

[10] Work-Set、work set等さまざまな表記がありますが、この記事では、下記のページにあわせて「workset」と表記しています。
OCLC Research. Multilingual Bibliographic Structure,
http://oclc.org/research/activities/multilingual-bib-structure.html,(参照2014-11-10).

[11] OCLC Research. Work Records in WorldCat,
http://www.oclc.org/research/activities/workrecs.html,(参照2014-11-10).

[12] Janifer Gatenby et al. GLIMIR: Manifestation and Content Clustering within WorldCat. Code4Lib Journal. 2012. 17,
http://journal.code4lib.org/articles/6812,(参照2014-11-10).


このページの先頭へ

NDL書誌情報ニュースレター(年4回刊)

ISSN 1882-0468/ISSN-L 1882-0468
2014年4号(通号31号) 2014年12月25日発行

編集・発行 国立国会図書館収集書誌部

〒100-8924 東京都千代田区永田町1-10-1

メールアドレス:bib-newsアットマークエヌディーエルピリオドジーオーピリオドジェーピー(ニュースレター編集担当)