リレー連載 実践で学ぶ コーパス活用術30 学習者コーパスと日本語の習得研究――データからわかることとわからないこと
30
迫田 久美子
学習者コーパスと
日本語の習得研究
――データからわかることと
わからないこと――
1 日本語学習者の誤用
| (1) 「結婚した前(→結婚する前)、サコダじゃない?」 (中国語話者 女性) |
| (2) 「日本でぎじゅちゅ《技術》でもひとちゅ《1つ》でも、習ってー帰ったらいいだと思いました(→と思いました)」 (韓国語話者 男性) |
| (3) 「[彼の家に]行って(→行ったら)、[彼の]おじちゃんたちが、ほんとに優しかった」 (韓国語話者 女性) |
(1)~(3)は、進学を目的に日本で日本語を学んでいた留学生の発話データです。このように、第二言語(外国語も含む)としての日本語学習者はさまざまな誤用を産出します。
今回と次回は、日本語教育研究の観点から、第二言語としての日本語学習者の発話コーパスを取りあげ、具体的な事例を示しながら、データからわかることとわからないことを述べます。そして、コーパスを研究に活用する上で、気をつけるべき点についても考えたいと思います。
2 日本語学習者コーパスの紹介
現在、公開されている日本語学習者の発話コーパスを表1にまとめます。表1に記載されている項目の説明は、次の通りです。
「方法」…データ収集の方法 「調査」…同時期に広範囲のデータを収集する横断調査、または時間をかけて特定の対象者のデータを収集する縦断調査 「背景」…調査対象者(学習者)の詳細な背景がわかる情報が含まれているかどうか 「評価」…データ収集時に調査対象者に対して日本語能力のレベル判定を行ったかどうか、判定を行った場合はその方法
| コーパスの名称・URL | データ量・母語 | 方法 | 調査 | 背景 | 評価 |
|---|---|---|---|---|---|
| 1KY コーパス[1] | ・30分の対話90名分 ・英語/韓国語/中国語 |
OPI[2] | 横断調査 | × | OPI[3] |
| ■各言語の初級5名、中級10名、上級10名、超級5名の OPI の文字化データ ■品詞や意味分類のタグを付与した「タグ付き KY コーパス」も公開 http://jhlee.sakura.ne.jp/kyc/corpus/ |
|||||
| 2日本語学習者会話データベース(横断調査編) | ・30分の対話339件 ・韓国語/中国語/英語/インドネシア語/その他 |
OPI | 横断調査 | ○ | OPI |
| ■国立国語研究所に所蔵 ■音声データ(215件)も公開 |
|||||
| 3
日本語学習者会話データベース(縦断調査編)
※2016年2月現在のデータ |
・30分の対話20数名分 ・タガログ語/韓国語/中国語/ロシア語/ポルトガル語/マレー語/フィリピン語 |
OPI | 縦断調査 | × | OPI |
| ■日本各地域(集住・分散)の定住外国人のデータ ■国立国語研究所に所蔵 ■1年目(25名)~5年目(12名)のデータ |
|||||
| 4C-JAS(中国語・韓国語母語の日本語学習者縦断発話コーパス) | ・60分の対話47本 ・韓国語3名/中国語3名 ・3年間(1~8期) |
自由会話 | 縦断調査 | × | × |
| ■国立国語研究所に所蔵 ■各期、共通の話題で会話 |
|||||
| 5BTSJ による日本語話し言葉コーパス(トランスクリプト・音声)2011年度版[4] | ・57会話約17時間 ・韓国語/中国語/フランス語ほか |
雑談、論文指導、電話等 | 横断調査 | × | × |
| ■多様な場面、多様な言語による会話のデータ ■日本人同士の会話を含むと294会話66時間 |
|||||
| 6LARP at SCUコーパス[5] | ・37名(20分/月1回×3年半) ・中国語 |
対話 | 縦断調査 | ○ | SPOT[6] |
| ■3年半にわたって、毎月、大学生の作文を収集 ■作文完成後、日本語母語話者がその作文について学習者にフォローアップインタビューを実施 |
|||||
1~3までは、OPI の手法を利用した対話で、特に1は学習者の母語と主レベルの人数が揃えてあるので、定量的分析や統計分析に便利です。そのため、これまで多くの習得研究で利用されています。
3以外は、日本語学校や高校・大学などの教育機関で毎日日本語を学んでいる「教室環境学習者」のデータですが、3の場合は、外国人の妻や外国人就労者など日本に住んで、主として生活環境の中で自然に日本語を学んでいる「自然環境学習者」のデータです。英語の学習者コーパスと比べると、世界での学習者人口の違いもありますが、データ量や学習者の母語の数が少なく、今後、大規模な日本語学習者コーパスの開発が期待されます。
3 コーパスからわかること
ここでは、日本語の第二言語習得研究に絞って、学習者コーパスからわかることを考えてみましょう。コーパスの種類には、表1にも示したように「縦断調査」と「横断調査」で収集される縦断データ(longitudinal data)と横断データ(cross-sectional data)があります。前者は、時間を追って学習者の習得の変化を観察することができます。
本稿の冒頭で紹介した日本語学習者たちは、学習開始から2年を経て、それぞれ正用が出現しており、コーパスから学習者の実際の変化が観察できます(C-JAS から抽出)。
| (4) 「結婚する前は、いつもしますよ、友達と一緒に遊ぶの」 (中国語話者 女性) |
| (5) 「競馬とか、競輪とか、パチンコ屋、宣伝すること、おか、おかしいと思いますよ」 (韓国語話者 男性) |
| (6) 「祭りがあって行ったんです、行ったら、私がちょっと遅かったんですよ」 (韓国語話者 女性) |
一方、横断データは、より多くの学習者、母語の異なった学習者を対象としたデータであるため、一定の数量があれば、母語の影響や母語話者との違いなどを観察し、統計分析にかけることが可能です。
3.1 学習困難点や母語の影響の可能性がわかる
コーパスでわかることの重要な点には、「多くの学習者にとって何が難しいか」、また「母語の影響の可能性があるかどうか」があります。横断データの場合、対象者が大人数であり、異なる母語の学習者のデータが含まれるので、学習者間の比較が容易になります。
迫田(1999)は、KY コーパスの学習者の初級・中級・上級・超級レベル各15名ずつを選出し、韓国語・英語・中国語話者の「の」の誤用[7] について調べました。従来、(7)のような「の」の過剰使用の誤用は中国語の母語の影響だと考えられていましたが(鈴木1978)、(8)や(9)のように他の言語を母語とする学習者からも同種の誤用が観察されました。
| (7) イ形[8] の NP: 「小さいの子供、うん、しゃべるの日本語、おもしろいよ」 (中国語話者) |
| (8) ナ形 の NP: 「好きの本、ロマンスの本、好きです」 (英語話者) |
| (9) VP の NP: 「魚をやいたり、そうするのものですね」 (韓国語話者) |
| イ形 の~ | ナ形 の~ | VP の~ | |
|---|---|---|---|
| 韓 初級 | 0 | 0 | 0 |
| 中 初級 | 2/5 | 1/5 | 1/5 |
| 英 初級 | 3/5 | 0 | 0 |
| 韓 中級 | 4/5 | 1/5 | 2/5 |
| 中 中級 | 4/5 | 3/5 | 3/5 |
| 英 中級 | 2/5 | 2/5 | 1/5 |
| 韓 上級 | 1/5 | 0 | 0 |
| 中 上級 | 3/5 | 1/5 | 1/5 |
| 英 上級 | 1/5 | 0 | 0 |
| 韓 超級 | 0 | 0 | 0 |
| 中 超級 | 0 | 0 | 0 |
| 英 超級 | 0 | 0 | 0 |
表2から、「の」の誤用は、中級レベルの段階に限ってみると、必ずしも中国語母語話者に特有の現象ではないこと、3種類(イ形 の NP、ナ形 の NP、VP の NP)の誤用タイプのいずれかに偏った顕著な傾向は見られないことがわかります。言い換えれば、「の」の用法は、学習者の日本語の習得過程において、中級レベルの段階では母語の違いにかかわらず、習得が困難な項目であることがわかります。
では、中国語の母語の影響はないのでしょうか。奥野(2003)は、表2において、上級レベルになると韓国語、英語話者の誤用は減少するのに対し、中国語話者には減少傾向が見られないことから、上級レベルを対象として文法性判断テストを用いて母語干渉の可能性を調べました。
![]() |
![]() |
図1は、誤用を誤用だと判断する得点を示したグラフであり、図2は、正用を正用だと判断する得点を示したグラフです。この結果から、中国語話者は他の母語話者と比較して、誤用を誤用だと判断するのが難しいことがわかり、上級になっても「の」の誤用を産出する可能性が示唆されました。つまり、中国語には「的」という「の」と類似した語があり、中国語話者は上級レベルになっても「の」の誤用が消滅せずに習得過程に長く留まっている現象が見られ、「過程的転移」という母語の影響の可能性があることを示しました。
3.2 理論の検証や習得の変化、発達順序がわかる
コーパスの利点はほかにもあります。例えば、コーパスを利用して理論の検証を行ったり、習得の変化や順序を示したりすることができます。許(2000)や峯(2007)は、KY コーパスを使ってアスペクト(テイル)や接続辞表現(テ、ナガラ、ケド等)を分析し、言語理論や習得理論を用いて結果の説明を行っています。
しかし、必ずしもすべて説明できる結果ばかりではありません。ニャンジャローンスック(2001)は、KY コーパスの条件表現を8つの分類に整理し(表3参照)、OPI の口頭能力のレベル別に使用された分類を Implicational Scaling でデータ処理しました。
| ①仮説:「2週間か3週間の休みがほしいならそれが、可能なはずだと思いますね」 ②予定:「あした終わったら、私も遊びに行くから」 ③確定:「留学生会館の後ろに行ってみると、ちゅうてつとか、ふじうらというスーパーがありました」 ④一般:「年とれば死ぬ」 ⑤反復・習慣(-過去):「学校が終わったら家に帰って、なんかごはん食べたりして、5時からまた、アルバイトするんですよ」 ⑥反復・習慣(+過去):「国では私、ビデオ見ることが一番好きですから、時間があったらいつもビデオ見ました」 ⑦反事実(-過去):「私がもし代表だったらですね、やり方についてもっと研究しなければいけないと思うんですけど」 ⑧反事実(+過去):「その時政治に反対したら、もう国から出させていろんなところにおくってしまいました」[もしその時政治に反対していたら、もう国から追放されていただろうに] |
Implicational Scaling とは、データを順序ごとに配列整理することによって、ある傾向や特徴を検討する方法です。表4では、母語別に条件表現の使用が見られた場合に「1」を、見られなかった場合に「0」を記入して、配列整理しています。その結果、表3で示してある「①仮説」の用法は中級 L[9] 以上のすべての学習者に見られるのに対し、「⑥反復・習慣(+過去)」の用法は上級 H 以上の学習者のみ観察されていることがわかります。このことから、⑥の用法は①の用法より習得が困難であると考えられるでしょう。
| ⑧ | ⑥ | ⑦ | ④ | ② | ⑤ | ③ | ① | |
|---|---|---|---|---|---|---|---|---|
| 超級 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 |
| 上級 H | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
| 上級 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 |
| 中級 H | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
| 中級 M | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
| 中級 L | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 |
| 初級 H | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 初級 M | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 初級 L | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
中国語話者の場合、表4に示す通り、中級 L のレベルでは「①仮説」「③確定」「⑤反復・習慣(-過去)」の用法、中級 M では「②予定」、中級 H では「④一般」が観察されています。その後、上級になると「⑦反事実(-過去)」が、上級 H では「⑥反復・習慣(+過去)」「⑧反事実(+過去)」が観察されることがわかり、この順序で習得されることが推測されます。韓国語話者と英語話者も同様に配列整理した結果、多少の順序の違いはありましたが、図3のように2つの大きなグループにまとめることによって、共通の傾向を見出し、次のような習得モデルが提示されました。
![]() |
しかし、図3の階層モデルは、ニャンジャローンスックが用いたプロトタイプ理論では十分に説明ができませんでした。プロトタイプ理論というのは認知言語学で提唱された理論で、プロトタイプ(原型)とはそのグループで最も典型的な例を指し、それとの類似性に基づいてカテゴリー化が進むという考え方です。そして、第二言語習得研究では、プロトタイプから習得が進むと考えられています。プロトタイプ理論に基づくと、条件の最も典型的な要素は「仮定的な世界」ですが、その要素を含む「⑧反事実(+過去)」「⑦反事実(-過去)」「①仮説」がプロトタイプであり、習得されやすいと考えられます。しかし、実際に得られた結果の階層順序は異なっています。
山内(2004)は、「N グラム統計」[10] を用いてコーパスの文字列を調べ、表5、表6のように、興味深い結果を示しています。表5から、「テイル」に関する語形を文字列2~4で調べた結果、初級・中級話者は「テイマス」を多用し、上級になるとすべての形式が使えるようになるようです。また、表6から、「ンデス」の使用は初級・中級話者にはあまり見られませんが、超級話者になると「ネ・ヨ」等と結びつけて使えることがわかります。
| 出現数 | 文字列 | 初 | 中 | 上 | 超 |
|---|---|---|---|---|---|
| 129 | テイマス | 8 | 78 | 21 | 22 |
| 40 | テマス | 0 | 0 | 19 | 21 |
| 86 | テイル | 0 | 8 | 28 | 50 |
| 136 | テル | 0 | 3 | 53 | 80 |
| 出現数 | 文字列 | 初 | 中 | 上 | 超 |
|---|---|---|---|---|---|
| 115 | ンデスネ | 0 | 2 | 14 | 99 |
| 77 | ンデスヨ | 0 | 0 | 3 | 74 |
| 33 | ンデスヨネ | 0 | 0 | 0 | 33 |
このように、コーパスを多様な観点から分析することで、学習者の言語発達の状況が見えてくるのではないでしょうか。
4 コーパスではわからないこと
4.1 なぜそのような順序になるか
コーパスを観察することでさまざまなことがわかりますが、一方で限界もあります。コーパスを利用する研究者は、その点を理解しておくことが必要です。つまり、コーパスの結果だけではわからないこと、結論を出せないことがあります。
その一つは、コーパスで示される使用頻度によって、ある程度の発達順序を示すことができるとしても、なぜそのような順序になるのかの理由は、コーパスには求められないということです。ニャンジャローンスック(2001)の研究では、「反事実(±過去)」の用法はプロトタイプの意味でありながら、使用は上級、超級話者のみであり、初級、中級話者には使用されず、発達順序としては遅くなっています。コーパスは、なぜその順序なのかを説明することはできません。同様に、山内(2004)の研究でも、事実を示すことはできますが、その理由はコーパスではわかりません。
4.2 なぜ学習困難なのか
さらに、コーパスでは、学習者にとって何が難しいか、母語話者の発話とどのように違うのかを示すことはできますが、なぜ難しいのか、なぜそんなに違うのかを説明することはできません。先述の研究でも、「反事実(±過去)」の用法や「ンデス」の表現が上級や超級話者でなければ使用されないことはわかりますが、それらがなぜ学習困難なのかはわかりません。コーパスを利用して研究を行う私たちは、これらのことを理解し、コーパス分析の結果の提示だけで終わるのでなく、さらに研究を進めていくことが重要ではないかと考えます。
5 ま と め
今回は、日本語学習者の発話コーパスを紹介し、コーパスでわかることとわからないことを述べてきました。まとめると、以下のようになります。
日本語の学習者コーパスは、英語に比べるとまだまだ数も少なく、開発途上にあると言えます。しかし、英語教育におけるコーパス研究と同様、日本語教育の研究や指導に活用できるヒントとなる種が多く隠れています。その種を見つけ出し、それぞれの考えの花や実を育てていくのは私たち一人ひとりの教師や研究者です。
〈引用文献〉
奥野由紀子(2003)「上級日本語学習者における言語転移の可能性――「の」の過剰使用に関する文法性判断テストに基づいて」『日本語教育』第116号、79-88.
迫田久美子(1999)「第二言語学習者による「の」の付加に関する誤用」『第2言語としての日本語の習得に関する総合研究』(科学研究費補助金研究成果報告書 課題番号 08308019)327-334.
許夏珮(2000)「自然発話における日本語学習者による「テイル」の習得研究――OPI データの分析結果から」『日本語教育』第104号、20-29.
鈴木忍(1978)「格助詞を中心にして」(「特集 文法上の誤用例から何を学ぶか」)『日本語教育』第34号、1-14.
スニーラット・ニャンジャローンスック(2001)「OPI データにおける「条件表現」の習得研究――中国語、韓国語、英語母語話者の自然発話から」『日本語教育』第111号、26-35.
峯布由紀(2007)「認知的な側面からみた第二言語の発達過程について――学習者の使用する接続辞表現の分析結果をもとに」『日本語教育』第134号、90-99.
山内博之(2004)「語彙習得研究の方法――茶筌と N グラム統計」『第二言語としての日本語の習得研究』第7号、141-161.
〈注〉
[1] KY コーパスは、コーパス作成担当者、鎌田修氏(Kamata)と山内博之氏(Yamauchi)の名前から命名されています。詳細は、http://www.opi.jp/shiryo/ky_corp.html を参照。
[2] OPI とは、Oral Proficiency Interview の略で、能力基準を参照しながら学習者の口頭能力を判定するために行う対面のインタビューテストです。詳細は、日本語 OPI 研究会のウェブサイトを参照。http://www.opi.jp/nyumon/nani.html
[3] 「評価」では、9~10段階(初級下~超級)のレベル判定が実施されます。
[4] BTSJ とは、「基本的な文字化の原則(Basic Transcription System for Japanese)」の意で、自然会話の定量・定性的分析双方に適するように考案されています。詳細は、http://www.tufs.ac.jp/ts/personal/usamiken/btsj070331.pdf を参照。
[5] LARP at SCUとは、Language Acquisition Research Project at Soochow University(東呉大学:台湾)の略で、日本語学習者の言語習得プロセスを研究する非営利プロジェクトです。
[6] SPOT は、Simple Performance Oriented Test の略で、短時間で日本語運用力を測定できるユニークなテストとして、プレースメントテストだけでなく習得研究における日本語力判定などにも国内外で広く利用されています。文を聞きながら、空欄にひらがな1文字を入れていく90問のテストで、答える時間がとても短いのが特徴です。詳細は、http://ttbj.jp/p2.html を参照。
[7] 迫田(1999)で扱った誤用では、「女(→女の)先生」のような「の」の脱落の誤用は対象外としています。
[8] 「小さい本、おもしろい話」等、名詞修飾の際に「い」の形になる形容詞をイ形容詞(イ形)、「元気な子、有名な人」等「な」の形になる形容詞をナ形容詞(ナ形)と言います。
[9] 中級 L とは、OPI の能力レベルで「中級 Low(中級下)」を指します。KY コーパスのレベルは、初級、中級、上級、超級の大きな枠と同時に、初級~中級については、それぞれに上(H: High)、中(M: Middle)、下(L: Low)の3段階の下位レベルがあり、上級は上級と上級 H の2段階、そして超級を加え全体で9段階となっています。しかし、現在はレベルの改訂があり、上級も3段階の下位レベルができたため、全体で10段階となっています。http://www.opi.jp/shiryo/actfl_guide.html
[10] N グラム統計とは、「テキストデータの中の、任意の長さの文字列の出現頻度を知ることができる手法」です(山内 2004: 151)。



