ホーム > 書誌データの作成および提供 > NDL書誌情報ニュースレター > 2015年4号(通号35号)

NACSIS-CATとJAPAN/MARC(A)の典拠データ同定のための予備調査について

NDL書誌情報ニュースレター

NDL書誌情報ニュースレター2015年4号(通号35号)

国立情報学研究所と国立国会図書館との共同研究として行った、NACSIS-CATの著者名典拠ファイルとJAPAN/MARC(A)の同定に関する調査について報告します。

今回の調査では、両者の個人名典拠データを名称部分(氏名にあたる部分)のみで同定(マッチング)し、結果を分析しました。

【調査の背景】

著者名典拠データを用いることで、たとえば、ある著者の本を網羅的に探すことや、2冊の本の著者名が同じ場合に本当に同じ人なのか、あるいは同姓同名の別人なのかの区別を行うことができます[1]。国立国会図書館では、納本された図書を中心に著者名典拠ファイルを作成しており、JAPAN/MARC(A)として提供しています。

典拠データの品質・信頼性の向上やデータ作成の省力化を行うために、複数の機関・システムで典拠データを相互運用する動きが進んでいます。相互運用の形式はさまざまですが、その一つとして、バーチャル国際典拠ファイル(VIAF)があります。国立国会図書館もVIAFへ参加し、作成した典拠データを提供しています[2]。VIAFのほかにも、複数機関による典拠データの共同作成プロジェクト(NACO:National Authority Cooperative ProgramやProject AUTHORなど)や米国議会図書館と英国図書館間での典拠データを共有する試みなど[3]、国際的な規模で動きは加速しています。

一方で、日本国内の機関が管理している典拠データには、国立国会図書館の著者名典拠ファイルのほかにも、国立情報学研究所目録所在情報サービス(NACSIS-CAT)の著者名典拠ファイルがあります。NACSIS-CATは、国立情報学研究所が運営する、大学図書館等を中心とした全国規模の総合目録データベースで、検索用WebサービスはCiNii Booksとしてもよく知られています。NACSIS-CATでは、典拠コントロールのために著者名典拠データを作成し管理しています。もちろん日本国内においても典拠データが相互に活用されることが望ましいのですが、現時点では十分とはいえません[4]

【調査の目的】

NACSIS-CATの著者名典拠ファイルとJAPAN/MARC(A)の相互運用性を向上させることを見据え、今回の調査を行いました。典拠データを共有するための第一歩として、既存の各データを同定する必要があります。両者合わせて何百万もの著者名典拠データの同定作業を人手で行うことは現実的でないため、可能な部分はコンピュータで同定処理を行うこととなります。今回の調査では、コンピュータでの同定処理がどの程度行えるか、その見通しを立てるために個人名典拠データの名称部分(氏名にあたる部分)のみをもとに同定を行い、結果を見てみました。

【調査の方法と対象】

JAPAN/MARC(A)は、国内刊行物や日本語の資料に関連する著者の典拠データが中心ですが、NACSIS-CATは、海外の論文や報告書が充実しており、日本名以外の著者名典拠データの割合がJAPAN/MARC(A)に比べて多いといったような収録対象データの違いがあります。また、団体名(組織名、会議名等)の著者標目をどのように取り扱うかの違いなどもあるため、今回は、日本名(仮名あるいは漢字で名称が始まるもの)で、かつ個人名であるものを、おもな比較対象としました。標目形生成のルール等が微妙に異なるため、データ変換処理を行い、それぞれの典拠ファイルで同姓同名の人を識別するために記録している付記事項(生没年など)を標目形から除くことで、名称部分(氏名にあたる部分)のみを機械抽出し、名称が一致するか比較しました。

対象とするデータは2014年11月時点のNACSIS-CATの著者名典拠ファイルのデータ(日本名の個人名は399,247レコード)と、2014年3月時点のJAPAN/MARC(A)のデータ(日本名の個人名は678,183レコード)、合計1,077,430レコードとしました。

【結果の分析方法】

同定結果について述べる前に、同定がどれくらいできているかの指標についてご紹介します。同定結果の正しさに関する指標として、Precision(適合率)とRecall(再現率)という考え方があります。これは、情報検索理論の分野でのPrecision, Recallを一般化したものです。模式図を図1に示します。


図1 評価指標 PrecisionとRecallの模式図

Precisionは同定した結果のうち正しく同定された(正解データと一致する)のはいくつか、Recallは正しい結果(正解データ)から見て同定した結果がどれくらいあっているか、という指標です。つまり、過剰に同定されている場合はPrecisionが下がり、同定が不足しているときはRecallが下がります。言い換えると、Precisionは「同定結果のうち、誤って多く同定されているものはどれくらいあるか」という考え方、Recallは「同定結果のうち、同定しきれていないものがどれくらいあるか」という考え方だと言えます。

今回、正解データとなる「正しい同定結果データ」が無いため、Recallの観点からは検討できないことから、Precisionと同様の観点(名称での同定結果のうち、本来同定されるべきでないレコードがどれくらいあるか)で同定結果を分析しました。

【調査の結果】

調査の結果は以下の表1の通りです。

表1 調査結果(太字は複数のレコードに同定され、過剰な同定結果となっている部分)
  JPで0レコード JPで1レコード JPで重複
NCで0レコード - 340,428 7,832
NCで1レコード 103,516 240,317 15,616
NCで重複 793 3,634 12,034
名称数合計 724,170

NC:NACSIS-CATの著者名典拠ファイル、JP:JAPAN/MARC(A)

調査対象の中に名称は全部で724,170通りあり、たとえばNACSIS-CATの著者名典拠ファイルとJAPAN/MARC(A)の両方に重複する名称(同姓同名のAさんとBさんがいて、NACSIS-CATとJAPAN/MARC(A)の両方に両者が登録されているような場合がこれに該当します)は12,034通りでした。

同姓同名がいる人物の典拠データなどは、名称だけでの同定では1対多や多対多で結びついてしまい、過剰に同定されてしまいます。表のうち太字部分にあたり、あわせて31,284通りの名称があることが分かります。

また、1対1で同定された240,317通りの名称についても、同姓同名の異人など本来は同定されるべきでないレコードが、同定されている可能性があります。1対1で同定された結果がどれくらい正しいか確かめるために、ランダムに100通りの名称(200レコード)を抽出して本当に同じ人物を指しているか人の目で調査し確かめました。その結果、100通りの名称のうち99組が正しく同定されていることがわかりました。サンプル数が少ないため、統計学的な精度は高くありませんが、240,317組の名称の1%だと2,400組程度となるため、1対1で同定された名称のうち誤っている名称の数は1対多や多対多で結びついてしまっている約3万通りの名称と比べると数は少なそうです。

【まとめ】

この調査で、NACSIS-CATの著者名典拠ファイルとJAPAN/MARC(A)の個人名典拠データの名称部分でどれくらい重複するかがわかりました。この調査結果によって、今後どのように相互運用を実現するかの基礎検討が進むことを期待しています。

また、名称で同定した結果、本来同定されるべきでないのに誤って同定されてしまうレコードがどれくらいあるかを調べることができました。この結果から、1対多や多対多で同定されてしまう約3万通りの名称にフォーカスを当てて、同一人物を指しているレコードを人手で特定するなどによりデータを整理すれば、誤って同定されてしまうレコード件数はかなり改善できそうです。

今回は日本名の個人名に絞ったため、団体名や日本名以外の典拠データをどのように扱うかは検討出来ていません。またPrecisionの観点(同定結果に誤って同定されたものがどれくらい含まれるか)では、名称のみで同定した場合に含まれる誤りの規模感をつかむことができましたが、Recallの観点(同定しきれなかったものがどれくらいあるか)からは調査できていないため、今後さらに調査する必要があります。

今回の調査の方法や結果に関する詳しい内容は、『現代の図書館』 Vol.53 No.2「NACSIS-CATとJAPAN/MARC(A)の著者名典拠データ同定についての予備調査と検討」[5]をご覧ください。

安藤 大輝
(あんどう だいき 電子情報部 電子情報サービス課)

[1]著者名典拠や著者標目といった用語の説明は、以下で詳しくご紹介しています。
国立国会図書館. “書誌データの基本方針と書誌調整. What’s 書誌調整”.
http://warp.da.ndl.go.jp/info:ndljp/pid/8703998/www.ndl.go.jp/jp/library/data/whats/3rd.html, (参照2015-10-13).

[2] 国立国会図書館とVIAFのかかわりについては、連載記事「典拠の国際流通―バーチャル国際典拠ファイル(VIAF)への参加」として本誌2012年4号(通号23号)から2013年2号(通号25号)までの3号に掲載されています。
http://www.ndl.go.jp/jp/data/bib_newsletter/2012_4/article_02.html, (参照2015-10-13).
http://www.ndl.go.jp/jp/data/bib_newsletter/2013_1/article_05.html, (参照2015-10-13).
http://www.ndl.go.jp/jp/data/bib_newsletter/2013_2/article_04.html, (参照2015-10-13).

[3]三浦敬子, 松井幸子. 欧米における著者名典拠ファイルの共同作成の動向. 日本図書館情報学会誌. 日本図書館情報学会. Vol.47, No.1, 2001, p.29-41.

[4]NACSIS-CATのシステム内では、JAPAN/MARC(A)のデータを検索し、そのデータを流用入力することができますが、担当者がデータを検索し、どのデータを元データとするか妥当性を見極めて行う必要があり、作業の省力化という意味においては十分に活用されていません。

[5]安藤大輝ほか. NACSIS-CATとJAPAN/MARC(A)の著者名典拠データ同定についての予備調査と検討. 現代の図書館. 2015, 53(2), p.82-89.


このページの先頭へ

NDL書誌情報ニュースレター(年4回刊)

ISSN 1882-0468/ISSN-L 1882-0468
2015年4号(通号35号) 2015年12月24日発行

編集・発行 国立国会図書館収集書誌部

〒100-8924 東京都千代田区永田町1-10-1

メールアドレス:bib-newsアットマークエヌディーエルピリオドジーオーピリオドジェーピー(ニュースレター編集担当)