コーパス紹介(学習者)


※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

サイト移転しました。

http://jhlee.sakura.ne.jp/ から御覧ください。



はじめに

  1. 現在、日本国内で比較的に低コストで入手可能なコーパス・言語資源の概要と入手方法を紹介します。

話し言葉を収録した学習者コーパス

日本語学習者会話データベース

  1. 内容:9日本語学習者とテスターの会話データ390件。学習者の属性情報とレベル判定付
  2. 入手方法:ウェブ上で利用。要認証https://dbms.ninjal.ac.jp/nknet/ndata/

KYコーパス(第二言語としての日本語学習者の話し言葉)

  1. 内容:90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつある。
  2. 入手方法:利用申請書を郵送する。詳細はこちら

CHILDES(The Child Language Exchange System)

  1. 内容:国際的な言語獲得研究のためのデータベースプロジェクトです。日本語幼児のデータもあります。解析用のツールも公開されています。
  2. 入手方法:ウェブページからダウンロード。詳細はこちらから
  3. 関連文章: 宮田Susanne 編 Brian MacWhinney 監修(2004)『今日から使える発話データベースCHILDES入門』ひつじ書房
  4. CHILDESの各種案内: 橋本智也さん(大阪府立大学)のページに有益な情報が載っています。こちらから

書き言葉を収録した学習者コーパス

日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB)

  1. 日本語学習者による日本語作文と作文執筆者本人による母語訳のデータベース。作文データの総数は1,565件。
  2. 入手方法:ウェブ上で利用者登録をし、IDとパスワードを発行してもらってからデータベースにアクセス。詳細は!こちらから!

日本・韓国・台湾の大学生による日本語意見文データベース

  1. 東京外国語大学伊集院郁子先生が構築したもの。日本語を母語とする大学生(134 名)と日本語を学ぶ大学生(台湾57 名、韓国 55 名)が日本語で執筆した意見文を収録したデータベース。
  2. 入手方法:ウェブ上でテキストファイルおよびPDFファイルとして閲覧。ダウンロードも可能。利用者登録不要。詳細は!こちらから!