佐賀大学は「市場直次郎コレクション」と呼ばれる、江戸時代の古文書や扇面を集めた資料群を所蔵しています。
この資料群はデジタル化され、「佐賀大学電子図書館 貴重書コレクション」上で、公開を許可している画像の閲覧ができます。
本アーカイブの書誌情報も既にネット上に公開されています。
(例:大津絵節の書誌データ)
もしこのような書誌情報をLinked Data化し、同じくLinked Dataになっている国立国会図書館の典拠データとマッシュアップすると、どんなことができるのか考えました。
このサイトに出てくる略語
市場直次郎コレクション書誌データ: ichiba: 変換済みLinked Data
国立国会図書館サーチ(または書誌データ): NDL (National Diet Library)
国立国会図書館典拠データ: NDLA (National Diet Library Web Authority) : Linked Data
典拠データとは
個人名を例に説明します。人は一つの名前をもっているとは限りません。その人がいる場所や年齢で呼び名が変わることがあります。生まれた直後に役所に届けた名前の他に、家の中での呼び名、友達が決めたニックネーム、何か作品を作ったときの別名(号)等です。結婚や養子縁組で名字も変わります。昔の人なら幼名や元服時に名前を新しくしました。
しかし様々な呼び名を持っていても、その呼び名を持つ人間はひとりです。
人間以外にも、ある事物を指す呼び名は複数存在することがよくあります。
ある事物や人名を表す代表的な呼び名を一つ決めて、ユニークなIDを付与し、それに加えて生没年とその理由となる情報や、別名などもセットにしたデータを「典拠データ」と呼びます。
国立国会図書館では、ある呼び名を手がかりに典拠データ(NDLA)を検索することができます。
さらに、NDLAのデータはLinked Dataであり、SPARQLエンドポイントを介して直接検索ができます。
この作品で伝えたいこと
NDLAがLinked Dataであるということは、ある事物人名に関する情報の断片から、それを表す唯一のIDが取得できるということになります(図1)。
そのIDが分かれば、普通に国立国会図書館サーチのフォームに文字列を入力して検索するよりも、確度の高い結果が得られるはずです。また、典拠データに含まれる属性は多岐にわたり、ある属性を基準にした検索も行いやすくなります。
例えば、「1780年から1810年」に活躍した「浮世絵師」で共著者に「式亭三馬」がいる「著者」の「作品一覧」を探して年表に表示するということが可能になります。

検索例
ichibaの作品「青楼心得艸(せいろうこころえぐさ)」の作者「蓬莱山人二世(ほうらいさんじんにせい)」の著作について国立国会図書館サーチで調べたい。
検索の流れ
- あらかじめichibaの書誌情報を取り出してLinked Dataにしました。
- Linked Data化したichibaの情報をSPARQLサーバに登録し、そのデータを表示するファセット型の検索サイトをExhibit 3.0で作りました。
- 加えて各サムネイルについて、情報を参照しながらNDLAを検索できるリンクを設置しました。
- そのリンクをクリックすると、簡単な検索フォームが現れて、直接NDLAを検索したり結果を参照できます。
- 検索フォームにキーワードとして名前の断片を入力し、NDLAに対して「人名として」検索を開始します。その名前の断片が典拠データにあれば、候補者をリストします。
☆検索を行う際、「作成年を考慮する」にチェックを入れて検索すると、作品の作成年が、候補者の生没年の間であるときに、結果としてリストします。
- 蓬莱山人帰橋, 江戸時代
- 蓬莱山人亀遊, 1776-1832
- 烏亭, 焉馬 2世, 1792-1862
- お好みの候補者をチェックボックスで選びます。候補者のIDをNDLAで探し、そのIDに紐付いた書誌データをNDLからRSS経由で見つけます。
- 結果はExhibitに読み込み可能なフォーマットで読み出します。このとき、NDLとichibaのデータが同じタイムラインに同時に表示されます。
- ファセット検索でお好みの表示にします。
例)蓬莱山人二世の典拠名を上記の検索ツールで調べたところ、候補者として3人リストされました。
この時点で、任意の候補者名の左にあるチェックボックスを入れるか、各人の典拠ページにあるリンクから著作を調べることができます。
また、候補者に対して「作成年を考慮」してみます。「烏亭焉馬二世」のときは、
生年(1792)<「青楼心得艸」制作年(1857(ichiba))<=没年(1862)になるか?
というクエリに該当すればリストに表示します。このようなクエリを各候補者に対して行います。このときは、烏亭焉馬二世だけが候補者にリストされます。
主に使用したツール
- Google Refine + RDF Refine: データを別形式に再構成、変換するツール + RDFに変換できる機能拡張
- PHP5.2 + QueryPath: ウェブアプリ作成用インタープリタ + SPARQLをクエリに変換するツール
- Sesame 2.6.9: SPARQLサーバ
- Exhibit 3.0:MIT SIMILE Project開発のデータ可視化フレームワーク
研究
1. Natsuko Yoshiga, Kenzi Watanabe, Shin-ichi Tadaki: "A Visual Search System with Semantic Web Technologies on Digital Archives for Historical Documents", International Conference on Convergence Content (ICCC 2012), pp.23-24 (2012.12).
2012-12-14 ICCC2012 (Saga, Japan)にて発表。
2. 吉賀夏子, 渡辺健次, 只木進一: "貴重書デジタルアーカイブの書誌オントロジーおよびSemantic Web技術を活用した検索システムの構築", 第27回人工知能学会全国大会 (JSAI2013), 富山県富山市, (2013.6).
2013-06-06 インタラクティブセッションで学生奨励賞を受賞。
3. 吉賀 夏子, 渡辺 健次, 只木 進一: 貴重書書誌の注記から抽出したメタデータによるオントロジー構築および書誌・美術関連Linked Dataと連携した検索システム構築, ディジタル図書館, No. 45, pp.3-9, (2013).
4. 吉賀夏子, 渡辺健次, 只木進一: "書誌学的情報およびデータ入力を考慮した貴重書書誌オントロジーの構築", 第28回人工知能学会全国大会 (JSAI2014), 1G5-OS-19b-1, 愛媛県松山市, (2014.5).
5. 吉賀夏子: "文化財の分析を支援する書誌オントロジーの構築 ―実在する貴重書メタデータへの適用とその評価―", 佐賀大学大学院工学系研究科知能情報システム学専攻修士論文, (2015.2).
6. 吉賀夏子, 渡辺健次, 只木進一: "貴重書メタデータの設計図としての書誌オントロジーを適用したLinked Data", 第35回セマンティックウェブとオントロジー研究会, SIG-SWO-035-08, 福岡県北九州市, (2015.3).
7. 吉賀夏子, 渡辺健次, 只木進一: "貴重書中の部品を記述できるオントロジーに基づきLinked Data化したメタデータを用いた人名ネットワーク構築の試み", 第29回人工知能学会全国大会 (JSAI2015), 1G4-1in, 北海道函館市, (2015.5). [ポスター]