コーパス紹介


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。


はじめに

  1. 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。
  2. 主に現代語の研究を想定したものです.

書き言葉

青空文庫

  1. 内容:ネット上の電子図書館『青空文庫』の公開作品を一枚に収録しています。
  2. 入手方法1:「蔵書○○○○」という形で毎年更新版を500円で販売しています。現在は完売に購入はできないようです。
  3. 入手方法2:『インターネット図書館 青空文庫』を購入するとDVD-ROM(青空文庫4843作品ほか収録)が付いてきます。
  4. 関連文章:夷石寿賀子, 千葉 庄寿, 陳君慧 (2006)「『青空文庫』を言語コーパスとして使おう―メタデータ構築による歴史的・社会言語学的研究への応用の試み―」(言語処理学会第12回年次大会 (NLP2006) 発表論文集 pp.915-918)
  5. 茶漉による青空文庫の検索: 日本語用例・コロケーション抽出システム『茶漉』による検索システム
  6. 大阪大学田野村先生が作成した青空文庫のKWIC: 文字列単位の検索とExcelへの出力ができます。
  7. 『「青空文庫」変換スクリプトパッケージ』:青空文庫の文書から『ひまわり』検索用データ(XML 形式のコーパスファイル)を作成するためのツールです。『インターネット図書館 青空文庫』を資料として利用しています。変換対象となったのは,2560作品です。詳細はこちらをご覧ください

新潮文庫の100冊

  1. 内容:新潮文庫で絶版となった、入手不可能な珠玉の100作品を収録しています。テキストコーパスとして利用するには、テキスト化ツールを使ってテキストとして加工する必要があります。詳細はこちら。続編に『CD-ROM版 新潮文庫 明治の文豪』、『CD-ROM版 新潮文庫 大正の文豪』などがあります。
  2. 入手方法:ウェブから購入するには

日英新聞記事対応付けデータ

  1. 内容:読売新聞と The Daily Yomiuri から自動作成された日英対応付けコーパスです。
  2. 入手方法:ダウンロードなどこちらから
  3. 関連文章: Masao Utiyama and Hitoshi Isahara. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, pp. 72-79.]]

日英対訳文対応付けデータ

  1. 内容:Project Gutenberg や青空文庫やプロジェクト杉田玄白などの作品について日本語文と英語文との対訳文対応を付けています。
  2. 入手方法:ダウンロードなど

京都テキストコーパス(Version 4.0)

  1. 内容:毎日新聞の記事に各種言語情報を人手で付与したテキストコーパス
  2. 入手方法:ウェブよりダウンロード。詳細はこちら
  3. コメント:ここに含まれるのは形態素・構文・関係の付加情報だけで, もとの毎日新聞データは含まれていません。コーパス本来の形に変換するには毎日新聞1995年版CD-ROMが必要です。

新聞記事データベース

  1. 内容: 毎日、朝日、読売新聞記事のデータ版
  2. 入手方法:利用許諾契約を結ぶことで、研究目的での利用ができます。ただし、非常に高額なので、個人での使用には向かないかもしれません。詳細はこちらから

国会会議録検索システム

  1. 内容:戦後の帝国議会や国会議事録を検索することができます。
  2. 利用方法: ウェブから検索できます。詳細はこちらへ

判例検索システム

  1. 内容:裁判所の判例情報を検索するシステムです。コーパスとしての利用可能性についてはやや疑問がありますが、テキストデータの検索が可能です。
  2. 利用方法: ウェブから検索できます。詳細はこちらへ

現代日本語書き言葉均衡コーパス(2011.8公開予定)

  1. 内容:大規模な現代日本語書き言葉コーパス構築のためのプロジェクト
  2. コメント:テスト版が公開されています。ここから
  3. 入手方法:http://www.tokuteicorpus.jp/
  4. モニター公開: 「現代日本語書き言葉均衡コーパス」のうち、著作権処理が済んだサンプルについて、学術研究利用に限定してデータを公開しています。詳細はこちらから

形態素解析済みコーパスの公開

  1. 内容:ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。利用者の皆様は、本コーパスをダウンロードし、『ひまわり』をパソコンにインストールすれば、単語単位での例文検索、基本形での例文検索、品詞による検索結果の絞り込み、といった作業を簡単に行うことができます。
  2. 入手方法:http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html


話し言葉

日本語話し言葉コーパス

  1. 内容:国立国語研究所・情報通信研究機構・東京工業大学が共同開発した話し言葉データベース
  2. 入手方法:『日本語話し言葉コーパス』公開のご案内
  3. 関連サイト:菊池英明先生(早稲田大学)による「CSJの利用ガイド」で分かりやすい解説をしています。こちらから

BTSによる多言語話し言葉コーパス

  1. 内容:日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話の文字化資料(CD-ROM)。
  2. 入手方法:利用申込書による申請
  3. 関連文章:宇佐美まゆみ(2003)、『多文化共生社会における異文化コミュニケーション教育のための基礎的研究』(科学研究費補助金基盤研究(C) 2:研究代表者 宇佐美まゆみ)研究成果報告書、4-21.

女性のことば・職場編

  1. 内容: 1993年9月~11月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の女性。19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にフロッピィディスク付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。
  2. 入手方法:書籍として購入(\3,675)。アマゾンで購入したい場合は、こちらをクリック

男性のことば・職場編

  1. 内容: 1999年10月~2000年12月に首都圏で収録された音声資料を文字化したもの。対象は有識の20代から50代の男性で、各世代5名で異なる職種・職場からなる19名の協力者に職場でのインフォーマルな場面とフォーマルな場面での自然会話を録音している。書籍にCD-ROM付。CVS(コンマ区切り)ファイルをLHAで、圧縮した資料を付属する。
  2. 入手方法:書籍として購入(\2,940)。アマゾンで購入したい場合は、こちらをクリック

戦時中の話しことば

  1. 戦時中の1936年から戦後の1955年の間に、日本放送協会からラジオで放送された78冊のラジオ台本を文字化し、Unicodeテキストファイル(タブ区切り)としたもの。
  2. 入手方法:書籍として購入(\3,990)。テキストデータCD-ROMが付いてくる。アマゾンで購入したい場合は、こちらをクリック

日本語会話データベース

  1. 内容:日本語母国語話者(以下NS)と非母国語話者(以下NNS)の発話パターンの比較分析と日本語教育向けの基礎資料となる言語データベース
  2. 入手方法:ウェブからダウンロード。詳細はこちら

ウェブデータ

Sketch Engine

  1. 内容:ウェブ上でコーパス検索ができるデータとツールが実装されています。BNCコーパスをはじめ,日本語,ロシア語,スペイン語,フランス語,中国語など,様々な言語のデータを利用することができ,体系化された情報と直観的なインタフェイスで非常に使いやすいデータベースになっています。日本語の元データはウェブで,約4憶語規模のコーパスです。
  2. コメント:利用はフリーではありませんが,30日間のトライアルアカウントをもらうことができます。正式な利用のためには1年間で約1万円の利用料がかかります。
  3. 入手方法:ウェブからアクセス。こちらから入ってください
  4. 関連論文:The Sketch Engine (published: Proc EURALEX 2004, Lorient, France)

Wikipediaのコーパス化

  1. 内容:長谷部陽一郎さん(同志社大学)による試み。ウィキペディアをダウンロード後、テキストに変換し、日本語コーパスとして利用するというもの。
  2. コメント:利用方法の詳細を記した論文があります。非常に面白い試みだと思います。コーパス化に必要な一連の自作ツール(フリー)も同時に公開しています。
  3. 入手方法:1) Wikipedia:データベースダウンロードから記事をダウンロードする。2)http://www.yohasebe.com/にアクセス後、ツールをダウンロード。利用法の詳細はこちらの論文をご覧ください

Webから自動構築した大規模格フレーム

  1. 内容:Webテキストから自動構築した大規模格フレームです。動詞と共起する格助詞と名詞を検索することができます。
  2. 規模:約5億文をの日本語テキストから自動構築し、約5万用言から構成されています。
  3. 入手方法:基本的にはウェブ上での使用のみです。詳細はこちらから
  4. 関連文章:
    1. 河原大輔, 黒橋禎夫.「高性能計算環境を用いたWebからの大規模格フレーム構築」『情報処理学会 自然言語処理研究会』171-12, pp.67-73, 2006.
    2. 河原大輔, 黒橋禎夫.「格フレーム辞書の漸次的自動構築」『自然言語処理』Vol.12, No.2, pp.109-131, 2005.
    3. 黒橋禎夫, 河原大輔.「格フレームを用いた自然言語処理――基本語彙の整理と格フレームの自動獲得〈上〉」『月刊言語2007年11月号』
  5. 「Webから自動構築した大規模格フレーム」の使用レポート

言語習得

日本語学習会話データ

  1. 内容:9日本語学習者とテスターの会話データ390件。学習者の属性情報とレベル判定付
  2. 入手方法:ウェブ上で利用。要認証http://dbms.kokken.go.jp/nknet/ndata/opi/

KYコーパス(第二言語としての日本語学習者の話し言葉)

  1. 内容:90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつある。
  2. 入手方法:利用申請書を郵送する。詳細はこちら

日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB)

  1. 日本語学習者による日本語作文と作文執筆者本人による母語訳のデータベース。作文データの総数は1,565件。
  2. 入手方法:ウェブ上で利用者登録をし、IDとパスワードを発行してもらってからデータベースにアクセス。詳細は!こちらから!

CHILDES(The Child Language Exchange System)

  1. 内容:国際的な言語獲得研究のためのデータベースプロジェクトです。日本語幼児のデータもあります。解析用のツールも公開されています。
  2. 入手方法:ウェブページからダウンロード。詳細はこちらから
  3. 関連文章: 宮田Susanne 編 Brian MacWhinney 監修(2004)『今日から使える発話データベースCHILDES入門』ひつじ書房
  4. CHILDESの各種案内: 橋本智也さん(大阪府立大学)のページに有益な情報が載っています。こちらから

辞書・シソーラス

日本語WordNet

  1. 内容:Princeton WordNet の日本語版で、日本語の意味辞書。様々な検索用のモジュールがある。
  2. 入手方法:ウェブからアクセス。http://nlpwww.nict.go.jp/wn-ja/

動詞項構造シソーラス

  1. 内容:人の言葉をコンピュータで処理するために動詞の概念を整理したコンピュータ用の辞書を構築してfreeで配布しています(現在4425語(7473語義))
  2. 入手方法:ウェブからダウンロード。詳細はこちらから
  3. 研究:竹内孔一, 乾健太郎, 竹内奈央, 藤田篤,意味の包含関係に基づく動詞項構造の細分類発表番号: B5-2, 言語処理学会年次大会,2008年3月,東京大学


日本語動詞の結合価

  1. 内容:荻野孝野・小林正博・井佐原均(編著)によるもの。15万文規模の日本語文集合をもとに、「動詞がとりうる格と、その格を担う体言」について整備した、大規模な言語データ集。
  2. 入手方法:書籍を購入(50,400円)すれば,CD-ROMが付属されており,検索用ツールなども公開されている.詳細は三省堂参照


分類語彙表

  1. 内容:国立国語研究所により作成されたもので、延べ約9万6千語の日本語の単語を意味的に分類したものです。
  2. 入手方法:大日本図書より販売されています(\4,700)。書籍内には、PDFファイルのCD-ROMも入っています。詳細は国立国語研究所のページ参照

日本語語彙大系

  1. 内容:30万語の収録語は3000種の意味分類を用いて定義されている、大規模の日本語シソーラスです。3000種の意味分類を用いて日本語の文型を定義しています。
  2. 入手方法:ウェブより購入可(ISBN: 4001301016; 60,000円)
  3. 関連文章:詳細はこちら
  4. 書籍についての詳細はこちらを
  5. 「日本語語彙大系」の使用レポート

IPAL辞書 (動詞,形容詞,名詞)

  1. 内容:日本語の基本語(動詞861語,形容詞136語,名詞1081語) の詳細な文法情報を掲載した電子化辞書です。動詞辞書の場合、動詞の意味グループ別に分かれていて、見出し語の動詞と共起する格助詞、そして名詞の意味特徴が指定されています。
  2. 入手方法:GSKより配布中。詳細はこちらを

EDR電子化辞書

  1. 内容:計算機による言語処理のために開発された辞書です。単語辞書などのいくつかの大規模な個別辞書から構成されています。
  2. 入手方法:詳細はこちらから
  3. コメント:非常に高価な辞書ですので、個人での購入には不向きですが、非常巨大で優れた電子辞書です。