ホームページの URL を変更いたしましたので、旧 URL (http://c-jas.jpn.org) をブックマークされている方は変更をお願いします。

C-JASとは?

C-JASとは、Corpus of Japanese As a Second languageの略で、 日本で日本語を第二言語として学んでいる学習者の発話コーパスです。 このコーパスは、外国人の日本語習得に興味を持ち、研究する方々や日本語教師の方々に利用していただきたいと考えて作成しました。

このコーパスには、以下の通り4つの特徴があります。

  1. 2つの異なった母語の特定の学習者を約3年間調査して収集したデータである
  2. 文法の習得を目的として収集された自然な会話データである
  3. コーパス付属の検索システムを備え、オンラインで使用できる
  4. 統語的、文法的、発音などの誤用タグが付与されている

第二言語習得研究は、母語とは別に学ぶ外国語・第二言語の学習・習得にかかわるさまざまな現象を研究する分野ですが、データが不可欠です。 このコーパスがその分野の研究や日本語指導の資料として少しでも貢献できれば、このコーパスの学習者や作成者たちの喜びです。

データの概要

C-JASのデータ概要は以下の通りである。

(1)学習者の概要
(2)環境
1 年目
同日本語学校在籍
2 年目以降
それぞれ進学(大学、専門学校、語学学校)
(3)調査時期
(4)データの内訳
調査
1人につき7~8回(1回約60分)
データ量
47本(計約46時間30分 約57万語)
調査形式
日本語母語話者との自由会話形式(調査期ごとに共通の話題を設定)

検索システム

C-JASは発話の全文テキストデータに加え、付属の検索システムを備えている。 検索システムでは利便性を向上させるため、一般的な文字列検索だけでなく、形態素情報を用いた検索が行えるように設計した。 その他、話者や調査期の指定、品詞での絞り込みや、意味分類からの検索も可能である。

プロジェクト概要

大学共同利用機関法人 人間文化研究機構 国立国語研究所
 共同研究プロジェクト 基幹型 「多文化共生社会における日本語教育研究」
 学習者の言語環境と日本語の習得過程に関する研究(代表 迫田 久美子)