*2015.04 修士論文、発表論文5,6を追加。進学して博士後期課程所属となりました。オントロジーを使った書誌記述を実践するための文化財データ提供先を探しています。

*2014.06 発表論文3,4を追加。研究も今年で3年目。貴重書書誌オントロジーのモデリングと実際のデータ変換手法まで少しまとまりました。2014JSAIでFRBRooを基にしたオントロジー構築の部分を重点的にまとめました。オントロジー構築はデータ設計の一般化とWebでの共有に必須だと伝えたいところなんですが...JSAI開催地の松山市は本当に良いところでした。市電と温泉と城と正岡子規と秋山兄弟で私の心をわしづかみでした。愛媛大学に行けばよかったなどと思ったりしました笑

*2013.06 富山市の第27回人工知能学会全国大会のオーガナイズドセッションおよびインタラクティブセッションに参加しました。

*2013.01 Linked Open Data Challenge Japan 2012に出品します。

「国立国会図書館の典拠データを利用した著者と書誌情報の検索およびタイムラインを使った可視化」

佐賀大学は「市場直次郎コレクション」と呼ばれる、江戸時代の古文書や扇面を集めた資料群を所蔵しています。
この資料群はデジタル化され、「佐賀大学電子図書館 貴重書コレクション」上で、公開を許可している画像の閲覧ができます。
本アーカイブの書誌情報も既にネット上に公開されています。
(例:大津絵節の書誌データ

もしこのような書誌情報をLinked Data化し、同じくLinked Dataになっている国立国会図書館の典拠データとマッシュアップすると、どんなことができるのか考えました。

このサイトに出てくる略語

市場直次郎コレクション書誌データ: ichiba: 変換済みLinked Data
国立国会図書館サーチ(または書誌データ): NDL (National Diet Library)
国立国会図書館典拠データ: NDLA (National Diet Library Web Authority) : Linked Data

典拠データとは

*詳細を表示*

個人名を例に説明します。人は一つの名前をもっているとは限りません。その人がいる場所や年齢で呼び名が変わることがあります。生まれた直後に役所に届けた名前の他に、家の中での呼び名、友達が決めたニックネーム、何か作品を作ったときの別名(号)等です。結婚や養子縁組で名字も変わります。昔の人なら幼名や元服時に名前を新しくしました。

しかし様々な呼び名を持っていても、その呼び名を持つ人間はひとりです。

人間以外にも、ある事物を指す呼び名は複数存在することがよくあります。

ある事物や人名を表す代表的な呼び名を一つ決めて、ユニークなIDを付与し、それに加えて生没年とその理由となる情報や、別名などもセットにしたデータを「典拠データ」と呼びます。

国立国会図書館では、ある呼び名を手がかりに典拠データ(NDLA)を検索することができます。
さらに、NDLAのデータはLinked Dataであり、SPARQLエンドポイントを介して直接検索ができます。

この作品で伝えたいこと

NDLAがLinked Dataであるということは、ある事物人名に関する情報の断片から、それを表す唯一のIDが取得できるということになります(図1)。

そのIDが分かれば、普通に国立国会図書館サーチのフォームに文字列を入力して検索するよりも、確度の高い結果が得られるはずです。また、典拠データに含まれる属性は多岐にわたり、ある属性を基準にした検索も行いやすくなります。
例えば、「1780年から1810年」に活躍した「浮世絵師」で共著者に「式亭三馬」がいる「著者」の「作品一覧」を探して年表に表示するということが可能になります。

拡大
図1: NDLAから抽出した「烏亭, 焉馬 2世, 1792-1862」の典拠データ概要

検索例

ichibaの作品「青楼心得艸(せいろうこころえぐさ)」の作者「蓬莱山人二世(ほうらいさんじんにせい)」の著作について国立国会図書館サーチで調べたい。

検索の流れ

  1. あらかじめichibaの書誌情報を取り出してLinked Dataにしました。
  2. Linked Data化したichibaの情報をSPARQLサーバに登録し、そのデータを表示するファセット型の検索サイトをExhibit 3.0で作りました。
  3. 加えて各サムネイルについて、情報を参照しながらNDLAを検索できるリンクを設置しました。
  4. そのリンクをクリックすると、簡単な検索フォームが現れて、直接NDLAを検索したり結果を参照できます。
  5. 検索フォームにキーワードとして名前の断片を入力し、NDLAに対して「人名として」検索を開始します。その名前の断片が典拠データにあれば、候補者をリストします。

    ☆検索を行う際、「作成年を考慮する」にチェックを入れて検索すると、作品の作成年が、候補者の生没年の間であるときに、結果としてリストします。

  6. 例)蓬莱山人二世の典拠名を上記の検索ツールで調べたところ、候補者として3人リストされました。

    • 蓬莱山人帰橋, 江戸時代
    • 蓬莱山人亀遊, 1776-1832
    • 烏亭, 焉馬 2世, 1792-1862

    この時点で、任意の候補者名の左にあるチェックボックスを入れるか、各人の典拠ページにあるリンクから著作を調べることができます。

    また、候補者に対して「作成年を考慮」してみます。「烏亭焉馬二世」のときは、

    生年(1792)<「青楼心得艸」制作年(1857(ichiba))<=没年(1862)になるか?

    というクエリに該当すればリストに表示します。このようなクエリを各候補者に対して行います。

    このときは、烏亭焉馬二世だけが候補者にリストされます。

  7. お好みの候補者をチェックボックスで選びます。候補者のIDをNDLAで探し、そのIDに紐付いた書誌データをNDLからRSS経由で見つけます。
  8. 結果はExhibitに読み込み可能なフォーマットで読み出します。このとき、NDLとichibaのデータが同じタイムラインに同時に表示されます。
  9. ファセット検索でお好みの表示にします。

主に使用したツール

  1. Google Refine + RDF Refine: データを別形式に再構成、変換するツール + RDFに変換できる機能拡張
  2. PHP5.2 + QueryPath: ウェブアプリ作成用インタープリタ + SPARQLをクエリに変換するツール
  3. Sesame 2.6.9: SPARQLサーバ
  4. Exhibit 3.0:MIT SIMILE Project開発のデータ可視化フレームワーク

研究

1. Natsuko Yoshiga, Kenzi Watanabe, Shin-ichi Tadaki: "A Visual Search System with Semantic Web Technologies on Digital Archives for Historical Documents", International Conference on Convergence Content (ICCC 2012), pp.23-24 (2012.12).

2012-12-14 ICCC2012 (Saga, Japan)にて発表。

2. 吉賀夏子, 渡辺健次, 只木進一: "貴重書デジタルアーカイブの書誌オントロジーおよびSemantic Web技術を活用した検索システムの構築", 第27回人工知能学会全国大会 (JSAI2013), 富山県富山市, (2013.6).

2013-06-06 インタラクティブセッションで学生奨励賞を受賞。

3. 吉賀 夏子, 渡辺 健次, 只木 進一: 貴重書書誌の注記から抽出したメタデータによるオントロジー構築および書誌・美術関連Linked Dataと連携した検索システム構築, ディジタル図書館, No. 45, pp.3-9, (2013).

4. 吉賀夏子, 渡辺健次, 只木進一: "書誌学的情報およびデータ入力を考慮した貴重書書誌オントロジーの構築", 第28回人工知能学会全国大会 (JSAI2014), 1G5-OS-19b-1, 愛媛県松山市, (2014.5).

5. 吉賀夏子: "文化財の分析を支援する書誌オントロジーの構築 ―実在する貴重書メタデータへの適用とその評価―", 佐賀大学大学院工学系研究科知能情報システム学専攻修士論文, (2015.2).

6. 吉賀夏子, 渡辺健次, 只木進一: "貴重書メタデータの設計図としての書誌オントロジーを適用したLinked Data", 第35回セマンティックウェブとオントロジー研究会, SIG-SWO-035-08, 福岡県北九州市, (2015.3).

7. 吉賀夏子, 渡辺健次, 只木進一: "貴重書中の部品を記述できるオントロジーに基づきLinked Data化したメタデータを用いた人名ネットワーク構築の試み", 第29回人工知能学会全国大会 (JSAI2015), 1G4-1in, 北海道函館市, (2015.5). [ポスター]