コーパス日本語学のための情報館

E-KWICのみをダウンロードされる方はこちら

個人保有データ解析のためのE-KWIC

E-KWICの仕様に合わせてデータを加工すれば、個人保有のデータに対しても形態素解析済みデータを検索することができます。
以下の手順に従って、操作してください。

こちらからE-KWICをダウンロードする
E-KWIConly.zipを適当なところに解凍する。
E-KWICの使い方の詳細は同梱の「E-KWICマニュアル.pdf」をご覧ください。
dataフォルダ内に形態素解析済みデータを入れてください。以下の二点に留意してください。
1. 「茶筌(Chasen)」で形態素解析したデータを入れてください。
2. ファイル名は「必ず」KYコーパスの規定に従ってください。

KYコーパスでは｢ＥＮＭ０２｣といったような、｢３つのローマ字＋２桁の数字｣という番号がついていますが、その１つめのローマ字は、その被験者の母語を表しています。中国語ならＣ、英語ならＥ、韓国語ならＫです。そして、２つめのローマ字は、ＯＰＩにおける言語能力の判定結果を表しています。初級(Novice)ならＮ、中級(Intermediate)ならＩ、上級(Advanced)ならＡ、超級(Superior)ならＳです。３つめのローマ字はサブレベルを表しており、｢－下(low)｣ならＬ、｢－中(mid)｣ならＭ、｢－上(high)｣ならＨです。ただし、超級にはサブレベルはありません。また、上級も、ただの｢上級｣と｢上級－上｣の２つに分かれているのみです。ですから、｢超級｣と、ただの｢上級｣の場合には、｢３つのローマ字＋２桁の数字｣ではなく、｢２つのローマ字＋２桁の数字｣になっています。最後の｢２桁の数字｣は、同じ母語で同じレベルのものの中での通し番号です。(KYコーパスのreadme.txtより引用)

「E-KWICのみをダウンロードされる方はこちら」をウィキ内検索

最終更新：2009年05月09日 23:41