リレー連載 実践で学ぶ コーパス活用術25 語彙表を作ってみようコーパスと教育の接点――実践編
25
金田 拓
語彙表を作ってみよう
コーパスと教育の接点
――実践編――
1 はじめに
前編では、コーパスと教育の接点として、教育語彙表の歴史を紹介しました。後編は、実際にデータを手に語彙表を作成する過程を紹介します。本論では分析対象として、資料入手の容易さと、著作権的に問題がないということから、「シャーロック・ホームズ」シリーズを使用していますが、実際に教育語彙表を作成する場合は、データを目的に応じて置き換えて進めてください。
2 コーパスを用意する
語彙表を作る際には、まず言語サンプルとして、目的に応じて収集したコーパスが必要となります。たとえば医学英語であれば、医療関連の書籍や論文といったものが素材の候補になるでしょう。あるいはメディア英語であれば、ニュースや新聞記事などが対象となるでしょうか。いずれにせよ、コーパスは言語の資料ですので、ニーズに合わせたサンプルを収集することが肝要となります。
目的に合致していれば、既存のコーパスを利用することもできます。一般的な英語であれば、BNC(British National Corpus)などが利用できます。教育目的では、論文コーパスとして PERC Corpus[1] (自然科学学術雑誌論文のコーパス)が利用可能であるほか、Linguistic Data Consortium[2] など、既に利用可能な状態で整備されているデータを利用することで、手間を省くことができるでしょう(有償の場合もあります)。
今回の分析対象としては、推理小説の古典として世界中の人々に親しまれてきた、コナン・ドイルによる名作「シャーロック・ホームズ」シリーズの60編(長編4, 短編56)、約58万語からなる英語コーパスを使用します。Project Gutenberg[3] より、インターネット上で無償にて入手が可能です。英国文学(ミステリー)を読むための教育語彙表の作成を今回の目的とします。
分析には、フリーソフトである AntConc[4] を使用しました。AntConc はフリーソフトでありながら高機能かつ使いやすいインターフェイスを備えた、優れたコンコーダンス・ソフトウェアで、Laurence ANTHONY 氏(早稲田大学)により開発されています。
3 基礎語彙表
何といっても、語彙表を作る目的は頻出語を明らかにすることなのですから、まずは、シンプルに出現単語を頻度順に並べた語彙表を作ってみましょう。今回使用する AntConc には、デフォルトで語彙表を作成する機能が備わっています。
| 順位 | 頻度 | 単語 |
|---|---|---|
| 1 | 32,132 | the |
| 2 | 15,681 | and |
| 3 | 14,977 | i[5] |
| 4 | 14,899 | of |
| 5 | 14,075 | to |
| 6 | 13,818 | a |
| 7 | 10,098 | that |
| 8 | 9,599 | it |
| 9 | 9,484 | in |
| 10 | 9,050 | he |
何だかあまり魅力が感じられないトップ10に映るかもしれません。実は、どんなテキストを分析しても、大体上位に来るのは文法的な役割を持った機能語なので、語彙表の目玉となる内容語を知るためには、もう少し下を見ていく必要があります。
| 順位 | 頻度 | 単語 |
|---|---|---|
| 200 | 350 | woman |
| 201 | 349 | half |
| 202 | 345 | end |
| 203 | 344 | knew |
| 204 | 344 | mind |
| 205 | 342 | turned |
| 206 | 341 | looked |
| 207 | 338 | london |
| 208 | 335 | against |
| 209 | 328 | lady |
機能語よりももう少し深く内容に関わる語として、woman, half, end などが見られます。さらにその下には、knew, turned, looked といった、動詞の変化形が出てきます。これらはそれぞれ、know, turn, look などの原形とは別に集計されているようですが、これは果たして望ましい結果と言えるでしょうか。
語彙表を作成する際には、know, knew, known, knows, knowing といった表記を、「レンマ」と呼ばれる単位にまとめる作業を行います。この工程「レンマ化」を次節にて解説します。
4 レンマ化
レンマとは、いわゆる辞書の「見出し語」のことです。通常、文章中で単語は変化した形で使われており、特に動詞は、時制や人称に合わせて活用した形で用いられます。たとえば study という語は、文章中では原形の study のほか、studies, studying, studied といった形で出現しますが、これらは学習上、1つの語として考えるべきです。よって、一般的な語彙表はレンマでまとめた形で、全ての表記形の頻度を合計して計算・作成されます。
レンマ化を自動的に行うためには、1つのレンマが包含する全ての表記形を記載したリストが必要となります。英語では幸い、既存のリストとして、染谷泰正氏(青山学院大学)の作成した English Lemma List (1998)があり、よく利用されています。同リストには
abandon -> abandons, abandoning, abandoned
といったように、レンマに対応する形で、全ての表記形が記載されています。レンマ化してリストを作成した場合、右側の表記は全て左のレンマの頻度に統合されます。
| 順位 | 頻度 | レンマ | 表記形 | |||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 70 | 1,132 | down[6] | down | 1,121 | downing | 3 | downs | 8 | ||
| 71 | 1,129 | hand | hand | 648 | handed | 89 | handing | 7 | hands | 385 |
| 72 | 1,109 | them | ||||||||
| 73 | 1,088 | should | ||||||||
| 74 | 1,072 | more | ||||||||
| 75 | 1,066 | make | made | 570 | make | 459 | makes | 37 | ||
| 76 | 1,025 | room | room | 899 | roomed | 2 | rooms | 124 | ||
| 77 | 984 | over | ||||||||
| 78 | 982 | time | time | 881 | timed | 3 | times | 97 | timing | 1 |
| 79 | 978 | may | ||||||||
レンマ化による頻度変化がはっきり見られるのは make で、make という形では459回しか出現しておらず、表記形では154位でしたが、made(570回), makes(37回)を含めると計1,066回、第75位の頻出語であることが分かりました。レンマ化は特に変化形で出てくることの多い動詞に効果的で、settle(86回中、原形は26回), recover(66回中、原形は13回)といった、原形の頻度は低いながら、実はより頻度が高い動詞を見落とすことを、レンマ化することで防げます。
5 特徴語分析
上のレンマ化を行った段で、「シャーロック・ホームズ」シリーズに頻出する単語をまとめることができました。しかし、もっと効率よく「他のテキストより『シャーロック・ホームズ』シリーズで顕著に出現する単語」を抽出できないでしょうか。
あるコーパスの中で、使用頻度が特徴的に高い語を特徴語(keyword)[7] と呼びます。特徴語を抽出する際には、連載第5・6回で取り上げた統計手法を用いて特徴度(keyness)を計算します。調査対象のコーパスを、他の参照コーパスと比較し、片方でのみ顕著に現れる語を選び出します。その性質上、調査対象のコーパスは特殊で小規模なもの、参照コーパスには一般的で大規模なデータを用いることが多くなります(Hunston, 2002; 石川、2008)。
今回は、分析対象としている「シャーロック・ホームズ」のデータを、Brown Corpus(100万語、アメリカ英語の書き言葉コーパス)と対比します。時代と地域の不一致はありますが、一般的な書き言葉と比較して、「ホームズ」の英語はどのような特徴を持っているのでしょうか。コーパス言語学の分野で最もよく使用される、対数尤度(Log-likelihood)を用いて抽出してみましょう。
| 順位 | 頻度 | 特徴度(対数尤度比) | 単語 |
|---|---|---|---|
| 1 | 24,384 | 23639.966 | be |
| 2 | 14,977 | 10697.201 | i |
| 3 | 12,051 | 10065.312 | have |
| 4 | 8,364 | 5479.372 | you |
| 5 | 2,507 | 4699.633 | holmes |
上位はやはり、単純に頻度の高い機能語で占められていますが、2位と4位に I, you といった人称代名詞が特徴として表れています。語彙表としては興味の範囲外ゆえ深くは立ち入りませんが、I や you といった人称代名詞が一般の書き言葉よりも多く使用されているのは、今回分析しているデータが小説であるため、話し言葉として登場人物のセリフが多く含まれることが理由として考えられます。
そんな中、5位にシリーズ主人公の名前が登場します。ホームズが主人公のシリーズなのですから、一般的な書き言葉と比較して、名前が頻出するのは容易に推測できます。人名とはいえ、「通常のテキストより顕著に出現する語」の好例でしょう。
| 順位 | 頻度 | 特徴度(対数尤度比) | 単語 |
|---|---|---|---|
| 150 | 156 | 170.149 | affair |
| 151 | 250 | 167.711 | hardly |
| 152 | 212 | 164.918 | murder |
| 153 | 326 | 163.145 | return |
| 154 | 273 | 162.682 | fear |
| 155 | 116 | 161.939 | visitor |
| 156 | 449 | 161.564 | name |
| 157 | 271 | 161.555 | lead |
| 158 | 372 | 161.427 | clear |
| 159 | 127 | 161.013 | servant |
特徴度を基準に並べ替えて、基礎語彙と思われるものを除いていくと、case(62位), crime(90位), murder(152位), arrest(207位), detective(291位), detail(421位)といった推理小説と聞いて我々が頭に浮かべそうな単語、cigar(242位), pipe(244位), baker[8](245位)といった「ホームズ」シリーズならではの語、cab(108位), servant(159位), telegram(192位)といった時代・文化背景を反映している語など、シリーズを読む上で重要となる語を網羅することができます。
特徴度が高いということは、一般のテキストより高頻度で出会う単語ということですから、一般的な英語の学習者で、これから「シャーロック・ホームズ」シリーズに挑戦するという人にとって、これらは優先的に覚えるべき単語と言っていいでしょう。
6 ま と め
前回と今回の2回で、コーパスの言語教育への応用として、教育語彙表を取り上げました。「シャーロック・ホームズ」シリーズを使用し、実際に語彙表を作成する過程を紹介しましたが、お楽しみいただけましたでしょうか。語彙表作成は最も基本的なコーパス利用法の一つですが、語彙表のような基礎データをもとに、現在も様々な研究・教材開発などが行われています。読者の皆様が、コーパスの教育への応用に興味を持っていただける一助となれば幸いです。
〈参考文献〉
Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.
Someya, Y. (1998). English Lemma List (ver. 2). Retrieved on July 5th, 2015, from http://www.lexically.net/downloads/version4/html/index.html?proc_wordlistlemmamatch_list.htm
石川慎一郎 (2008). 『英語コーパスと言語教育』. 東京: 大修館書店.
〈注〉
[5] 人称代名詞の I ですが、語彙表作成の際、大文字・小文字を小文字に統一しているため、小文字で出力されています。そのほか、London などの固有名についても同様です。
[6] down には、副詞、前置詞、動詞などの用法がまとめられています。その下の hand も、名詞と動詞の両方の用法が含まれます。本論の範疇外なので詳細には立ち入りませんが、品詞ごとの内訳が知りたい場合、Tagger と呼ばれるプログラムで品詞タグを付与する必要があります。
[7] 「顕著に出現する語」の反対に、「顕著に出現しない語(当該テキスト内で、通常より出現の少ない語)」も分析上発生しますが、今回は語彙表作成という観点から触れていません。
[8] Baker Street はホームズの下宿先がある通りの名称。
