コーパスツール

サイト移転しました。

http://jhlee.sakura.ne.jp/ から御覧ください。





はじめに

  • コーパスデータを分析するためのツールを紹介します。
  • 人文系にとっても比較的低コストで使えそうなコーパスツールをまとめておきます。主にWindows版です。
  • PCスキルは、設定および操作に要するPCの基礎知識を意味します。星の数が少ないほど設定が簡単という意味です。

データ抽出系

  • いわゆるコンコーダンスソフトです。比較的設定が簡単なものの順に挙げておきます。

KWIC Finder

  • 内容:PDF/WORD/EXCEL等のファイル形式に対応したGREP検索・テキストビューア。
  • PCスキル:★
  • 入手方法:ウェブページよりダウンロード。シェアウェア(1000円)ですが、機能限定のフリーバージョンもあります。詳細はこちらから
  • コメント:語句を単純に検索する程度なら一番簡単に使えるツールかもしれません。形態素解析を前提にしない分、あと処理に手間と時間はかかりますが、設定や操作は非常に楽です。とりあえず単語の使い方を確認する程度なら、良いと思います。
  • KWIC Finder使用レポート

KH Coder

  • 内容:、内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアです。新聞記事、質問紙調査における自由回答項目、インタビュー記録など、社会調査によって得られる様々な日本語テキスト型データを計量的に分析するために製作されました。
  • PCスキル:★
  • 入手方法:ウェブページよりダウンロード。詳細はこちらから
  • コメント:茶筌の形態素解析情報を元に、様々なデータ抽出機能が用意されています。SQLというデータベースソフトを使ってはいますが、インストールは非常に楽です。操作も、簡単なマウス操作で、すべての作業ができるので、比較的簡単と言えます。
  • 関連文章:
    • 佐野香織・李在鎬「KH Coderで何ができるか~日本語習得・日本語教育研究 利用への示唆~」、『言語文化と日本語教育』(No.33),pp.94-95.⇒PDFで見る
    • KH Coder関連文献
  • KH Coder使用レポート

ひまわり

  • 内容:国立国語研究所で開発し、言語研究用に設計された全文検索システム。『太陽コーパス』,『日本語話し言葉コーパス』,『分類語彙表』などの既存の言語資料や,自分で作成した XML 文書を検索することができる。
  • PCスキル:★
  • 入手方法:ウェブページからダウンロード。詳細はこちらから

茶器

  • 内容:奈良先端大学院大学で開発したタグ付きコーパスを管理・検索するためのツール
  • PCスキル:★★★
  • 入手方法:ウェブページからダウンロード。詳細はこちらから
  • コメント:インストールに関する詳細な情報は上記のリンク先から入手可能です。英語の分析にも使えるようです。
  • 関連文章:2006年度自然言語処理技術講習会資料(2006.9.4-6)

茶漉

  • 茶筌をベースに設計された,用例およびコロケーション情報を抽出するシステムです.ウェブ上での使用のみで,青空文庫と名大会話コーパスからデータを取り出すことができます.
  • PCスキル:★
  • 入手方法:ウェブでの閲覧のみ。詳細はこちらから

SearchXML

  • 内容:XML文章内を検索するためのツール。利用マニュアルは作成中とのことです。
  • PCスキル:★
  • 入手方法:ウェブ上でダウンロード。ダウンロードはこちらから

データ解析系

  • 主に自然言語処理のために開発されたもの。設定や操作にはそれなりのスキルを要します。Windowsでの使用を前提にしていない場合が多いです。

UniDic/茶まめ


近代文語UniDic

  • 内容:UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です。
  • PCスキル:★
  • 入手方法:ウェブページから評価版をダウンロード。詳細はこちらから
  • 関連文章:小木曽智信・小椋秀樹・近藤明日子(2008)「近代文語文を対象とした形態素解析辞書の開発」言語処理学会第14回年次大会発表論文集 pp.225-228

茶筌

  • 内容:自然言語処理研究の分野で形態素解析のためにもっとも広く使われているフリーソフトウェアです。Win版もあります。KH Coderは茶筌を組み込んでいるので、茶筌を使いたいのであれば、KH Coderを利用することをお薦めします。
  • PCスキル:★★
  • 入手方法:Chasen's Wikiよりダウンロード
  • 関連文章:文系向け茶筌のインストール方法です。麗澤大学言語研究センター作成

Juman


KNP


MeCab (和布蕪)

  • 内容:形態素解析ソフトウェア
  • 入手方法:ウェブページからダウンロード。詳細はこちらから
  • PCスキル:★★★★

Cabocha

  • 内容:Support Vector Machines に基づく日本語係り受け解析器
  • 入手方法:ウェブページからダウンロード。詳細はこちらから
  • PCスキル:★★★★
  • コメント:楽しいデモがあります。


掲示板

名前:
タイトル:
本文:
最終更新:2013年05月28日 00:23