• 利用案内
  • サービス概要
  • 東京本館
  • 関西館
  • 国際子ども図書館
  • アクセス
  • 複写サービス
  • 登録利用者制度
  • オンラインサービス
  • オンラインサービス一覧
  • 国会関連情報
  • 蔵書検索
  • 電子図書館
  • 調べ方案内
  • 電子展示会

トップ > 国会図書館について > 書誌データの作成および提供 > NDL書誌情報ニュースレター > 2010年3号(通号14号) > これからの情報組織化のあり方とは?-TP&Dフォーラム2010参加報告

これからの情報組織化のあり方とは?-TP&Dフォーラム2010参加報告

NDL書誌情報ニュースレター

NDL書誌情報ニュースレター2010年3号(通号14号)

 2010年8月20〜21日、京都で「TP&Dフォーラム(Technical Processing & Documentation Forum)2010 」が開催されました。本フォーラムは、全国各地の整理技術・情報管理等に問題意識を持つ研究者・実務者が集い、研究発表および討論を行うとともに、交流を深めることを目的として毎年夏に開催されるフォーラムで、今回で20回目を迎えます。今年は計36名の参加があり、その一人として本フォーラムに参加したので報告します。

 今回のフォーラムでは、三本の研究発表がありました。

【1】「情報検索におけるシソーラスを利用した多義性の解消」

崔錫斗(韓国・漢城大学)、金貳謙(韓国・光州大学)、韓相吉(韓国・大林大学)、金文昊(韓国・Argonet)

 まずは、崔氏から、韓国語の用語の多義性を解消するために作成しているシソーラスについて発表がありました。韓国では、1949年から公文書における漢字の使用をやめ、ハングルでの表記に一本化したこともあり、同形異義語(多義語)が多く存在します。たとえば、「」と言葉には、「調査」、「釣師」、「曹司」、「助詞」など、約30もの意味があり、これに加えて、用語の標準化があまり進んでいない、分野別に原語・訳語・略語等の使用について共通基準がない等の問題もあるといいます。

 こうした多義性の問題を解決すべく、崔氏らが取り組んでいるのが、韓国語の大規模シソーラスの構築です。このシソーラスは、あらゆる分野の名詞を中心とする用語に対してメタデータを作成し、用語自体の説明のほか、各用語間の関係性を、BT(Broader Terms)やNT(Narrower Terms)などの階層関係や、ファセット指示子[1] を用いた対応関係・複合関係等により記述したもので、現時点で約80万語の収録数があります。

 情報探索システムにこのシソーラスを用いることで、検索語が多義性を持つ用語であった場合に、ヒットした情報資源に使用される用語がどの意味であるかを特定し、利用者が期待する情報資源に効率的にナビゲートできるようになります。実際、このシソーラスを検索システムに組み込み、大学図書館の書誌データに対して検索を行ったところ、約50パーセント程度の多義性を解消することができたそうです。シソーラスの使用法としては、情報資源の主題分析を行い、シソーラスの語彙を索引として付与するということがまずは考えられますが、それとは別の方向性として、情報探索時に用語の多義性を吸収するためのツールとして活用する方法もあることを示唆してくれる研究発表でした。

【2】「著者名典拠作成の自動化を目指して」

上田洋(ATR-Promotions)、村上晴美(大阪市立大学)、辰巳昭治(大阪市立大学)

 続く発表は、上田氏による「著者名典拠作成の自動化を目指して」でした。本発表では、同姓同名の自動識別に使用されるテキストマイニング[2] を支える基本的な技術について解説があり、その後にウェブ上の情報を対象とした人物の自動識別に関する研究について紹介がありました。

 上田氏によると、ウェブ上の情報を対象とする研究には、「Webページを出現する人物毎に分離する研究」、「各人物を識別するための人物に関連する情報をWeb ページ上から抽出する研究」の二つに分けられます。後者の研究の一つが、上田氏自身による研究「Web 上の同姓同名人物識別のための職業関連情報の抽出」[3] です。当研究では、人物の職業に関連する情報に着目し、ヒューリスティック[4]を用いてそうした言葉を抽出して、クラスタを作成し[5] 、出現頻度とWeb 検索エンジンを用いた関連度計算を行った上で、最終的な職業関連語の候補を得て、人物の自動識別を行ったということです。

 続いて、SPYSEECiNiiといった機械処理により、人物の自動識別を行うサービスの紹介がありました。CiNiiは、2010年4月1日から「CiNii著者検索(ベータ)」を公開し、CiNiiデータベース中の全論文の全著者に対して機械処理によりIDを発行し、IDごとに論文リストを表示する機能を提供しています。現時点では、機械処理によって100%の精度で著者を同定し、IDを振ることは不可能であるため、CiNiiではユーザからのフィードバックを求めています。ユーザが指摘をしやすいように、著者同定が過統合であるよりは未統合であるように、アルゴリズムの適合率のチューニングを行うなど、フィードバックをあらかじめ織り込んだシステムの設計にしてあるといいます。

 こうしたCiNiiでの実践を踏まえて、図書館で維持管理している著者名典拠に関しても、作成のプロセスの中に機械処理を組み込み、得られた結果の確認を図書館員や著者自身が行うようにすれば、精度を落とすことなく、従来よりもコストの少ない運用ができるのではないか、という提言がありました。

 当館では、現状として、マンパワーの制約もあり、すべての資料群に対しての典拠コントロールを行っていませんが、機械処理による半自動化をうまく業務に組み込むことによって、今後コントロールの範囲を広げられる可能性が出てくるかもしれないと感じました。

【3】「FRBR からみた日本の図書館目録:「著作」を中心に」

橋詰秋子(国立国会図書館)

 二日目には、当館職員の橋詰から「FRBR からみた日本の図書館目録:「著作」を中心に」について発表がありました。

 まずは、「書誌レコードの機能要件(Functional Requirements for Bibliographic Records: FRBR)」[6] の概要についての説明の後、自身の研究2本「FRBR からみた日本の図書館目録における「著作」の傾向:慶應義塾大学OPAC を例として」[7] 、「FRBR からみたJapan/MARC の特徴:著作を中心に」[8] について解説がありました。

 一つ目の研究は、慶應義塾大学図書館のKOSMOSIIの書誌レコードから無作為に抽出した計1000件(NDCの類ごとに100件ずつ)に対して、FRBRを適用し、日本の大学図書館目録のFRBR化について考察したものです。FRBRを適用した結果、「複数の体現形を持つ著作は全体の約2割を占めている」こと、ただし、「複数の体現形があることは、潜在的な利用度が高いことを示唆しており、この2 割の著作が目録の中でもよく使われるコアな部分であると考えられる」こと、「複数の表現形から構成される「複雑著作」は類別に見れば4 類(自然科学)、7 類(芸術)、9 類(文学)に多く含まれていた」こと等の結果が得られたといいます。

 続く二つ目の研究は、欧米ですでに実践されているMARC レコードを用いた機械的なFRBR 化がJAPAN/MARC(J/M)でも可能であるかを探るために、J/Mのフォーマットを分析したものです。それによると、J/Mには基本記入のフィールドがないため、著作の著者を特定することができず、タイトル標目も適用が任意であるため、日本の目録のFRBR化を欧米と同じ精度で実現するのは難しい。日本の目録は、基本記入を捨て、ある意味で「ガラパゴス化」しており、FRBR化を自動化するにも非常に労力がかかる。日本の目録は今後どのような道を進むべきか、独自の道があるのか、という疑問の提示をもって発表が締めくくられました。

 今回のフォーラムでは、今後の図書館目録、情報組織化がどうあるべきかを巡って、「多義性の解消という点でのシソーラスの応用」、「著者名典拠作成の自動化」、「日本の図書館目録へのFRBRの適用」という三つの観点からの研究発表と、闊達な意見交換があり、大変有意義なフォーラムでした。フォーラム中に参加者からも発言のあった「知的成果物をすべて記録する」という情報組織化の究極的な目標に対して、知的成果物の媒体が図書からインターネット資料へと拡大した現在に、どのようなアプローチをすべきであり、またどのようなアプローチが可能であるのか、今回のフォーラムで得た知見をもとに、考えていく必要があることを感じました。

 発表資料は、2011年春に論集としてまとめられます。来年のフォーラムは、東京を会場として開催される予定です。

佐藤 良
(さとう りょう 収集書誌部収集・書誌調整課)

[1]ファセット合成された分類記号の、各要素を分離する符号で、続く記号のファセットの意味を指示する。(日本図書館情報学会用語辞典編集委員会編. 図書館情報学用語辞典.第3版, 丸善, 2007, 211p.)

[2]大量の文章を自然言語解析の手法を使って単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する手法やシステムのこと。

[3] 上田洋, 村上晴美, 辰巳昭治: Web 上の同姓同名人物識別のための職業関連情報の抽出, システム制御情報学会論文誌, Vol.22, No.6, pp.229-240, 2009.
http://murakami.media.osaka-cu.ac.jp/papers/ISCIE09.pdf , (参照 2010-8-27)

この他、以下二つの論文についても紹介があった。
・白砂健一, 小山聡, 田島敬史, 田中克己:Web の構造情報とプロファイル抽出を用いたオブジェクト識別, 第17 回データ工学ワークショップ論文集(DEWS2006), 2C-i7, 2006.
http://www.ieice.org/~de/DEWS/DEWS2006/doc/2C-i7.pdf , (参照 2010-8-27)
・上田洋, 村上晴美, 辰巳昭治: Web 上の人物理解のための履歴書作成, 人工知能学会論文誌,Vol.25,No.1, pp.144-156, 2010.
http://murakami.media.osaka-cu.ac.jp/papers/JSAI10.pdf, (参照 2010-8-27)

[4]過去の事例の蓄積などから未知のものに対して予測を行い、ある程度以上の精度で正解に近い結果を得る方法のこと。アルゴリズムによる処理を行うと計算時間が爆発的に増加してしまうような場合に、よく用いられる。

[5] いわゆる「クラスタリング」のこと。複数のデータを、その類似度に基づいて分類すること、またそのための統計学的手法のことを言う。

[6] IFLA.『書誌レコードの機能要件 : IFLA 書誌レコード機能要件研究グループ最終報告』. 日本図書館協会, 2004.
http://www.jla.or.jp/mokuroku/link.html , (参照 2010-8-27)

[7] 橋詰秋子「FRBR からみた日本の図書館目録における「著作」の傾向:慶應義塾大学OPAC を例として」『Library and information science』No.58,2007,p.33-48.

[8] 橋詰秋子「FRBR からみたJapan/MARC の特徴:「著作」を中心に」『日本図書館情報学会誌』Vol.55, No.4, 2009,p.214-228.

このページの先頭へ

NDL書誌情報ニュースレター(年4回刊)

ISSN 1882-0468/ISSN-L 1882-0468
2010年3号(通号14号) 2010年10月29日発行
編集・発行 国立国会図書館収集書誌部収集・書誌調整課
〒100-8924 東京都千代田区永田町1-10-1
E-mail: bib-news@ndl.go.jp (ニュースレター編集担当)