- 2008-05-28 (水) 23:40
領域オントロジー構築支援環境の設計を基に,DODDLE-OWL(a Domain Ontology rapiD DeveLopment Environment - OWL extension) を実装した.図1 にDODDLE-OWLの実装アーキテクチャを示す.DODDLE-OWLは,GUI コンポーネントとしてJava Swing を用いて,Java 言語で実装した.DODDLE-OWL は,オントロジー選択モジュール,入力モジュール,オントロジー構築・洗練モジュール,視覚化モジュール,変換モジュールから構成される.実装上は,オントロジー構築およびオントロジー洗練は,同一パネル上で操作できるようにしている.
Web 上の既存オントロジーを獲得するために,オントロジー選択モジュールではSwoogleWeb サービスを利用している.入力モジュール,オントロジー構築・洗練モジュールでは,WordNet を参照するためにJava WordNet Library(JWNL)を利用している.入力モジュールでは,日本語の形態素解析および品詞同定を行うために,日本語形態素解析器GoSenを用いている.英語の品詞同定を行うために英語タガーSS-Tagger [1] を用いている.英語および日本語の複合語を抽出するために専門用語自動抽出システム言選 [2] を用いている.日本語の複合語抽出には,言選以外に日本語係り受け解析器CaboCha を用いることもできる.xdoc2txtと連携することにより,テキスト文書のみでなく,PDF,Microsoft Word, Excel, PowerPoint など様々な形式のファイルからテキストを抽出することができる.視覚化モジュールにはMR³ を用いている.変換モジュールでは,OWL形式のオントロジーのインポートおよびエクスポートを支援するために,Jena セマンティックWeb フレームワークを用いている.

参考文献
- Y. Tsuruoka, and J. Tsujii, “Bidirectional Inference with the Easiest-First Strategy for Tagging Sequence Data,” Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, pp.467–474, Association for Computational Linguistics, 2005.
- 中川裕志,森辰則,湯本紘彰,“出現頻度と連接頻度に基づく専門用語抽出,” 自然言語処理,vol.10,no.1,pp.29–35,2003,http://gensen.dl.itc.u-tokyo.ac.jp/.