COCA を利用した言語データの採取と統計処理の基本

昨年の11月に北海道大学で行われた「コーパスと英語学」という研究イベントで講師を担当しました。午前にワークショップ、午後にシンポジウムが行われたのですが、ワークショップでは Corpus of Contemporary American English (COCA) を使って言語データを採取する方法と、統計処理の基本について話しました。

coca-500.png

COCAはブリガムヤング大学のMark Davies先生が開発している大規模英語コーパスで、最近、多くの研究者の注目を集めています。当日は参加者の皆さんに自分のコンピュータを持参してもらい、Wifi経由で実際にCOCAにアクセスしながら進めて行きました。

COCAはオンライン上で無料で使えるのですが、ユーザー・レベルの設定があり、レベルに応じて1日に可能な検索の回数が決まっています。高いレベルを取得するには、COCAを利用した研究の成果を報告することが必要です。しかし、今回はグループ・アクセスを申請して、ワークショップ開催中は参加者全員が自由にCOCAを利用できるようにしました。

COCAは本当に素晴らしいコーパス・システムなのですが、高機能ゆえに操作が少し複雑です。英語のマニュアルは存在するのですが、ハイパーテキスト形式なので情報が多数のページに分散していて、正直なところ利便性に欠けます。そこで今回は、COCAのマニュアルを徹底的に読み込んだ上で日本語のチュートリアル文書を作成し、当日の配布資料としました。

COCAに初めて触れる人にも、少しくらいは使ったことがあるという人にも、それなりに役立つ内容が含まれていると思うので、PDFをウェブで公開します。

COCA を利用した言語データの採取と統計処理の基本 [PDF]

内容は次のようになっています。いくつかの練習問題も用意しています。(コメント歓迎!)

1. はじめに

2. COCAとBYUコーパス群
2.1 COCAの概要
2.2 COCAの機能と特徴
2.3 その他のBYUコーパス

3 COCA の機能と使い方
3.1 検索シンタックス
3.2 CLAWS7タグセット
3.3 コロケーション検索の基礎
3.4 コロケーション検索の応用
3.5 検索結果の表示
3.5.1 LIST表示
3.5.2 CHART表示
3.5.3 KWIC表示
3.5.4 COMPARE表示
3.6 COCA の詳細オプション
3.6.1 # HITS
3.6.2 GROUP BY
3.6.3 DISPLAY
3.6.4 SAVE LISTS

4 頻度の比較と有意差検定
4.1 butとhowever
4.2 帰無仮説について
4.3 Rを用いた統計処理

午後のシンポジウムでは高橋英光先生と野村益寛先生と私の3名がそれぞれ発表を行いました。お二人の先生方のお話は非常に示唆に富むもので、コーパスを用いた認知言語学のあるべき形について、あらためて考えさせられました。今回のワークショップとシンポジウムを企画され、声をかけてくださった高橋先生と野村先生、それから当日参加してくださった皆様にあらためて感謝申し上げます。

カテゴリー: announcement

認知言語学 基礎から最前線へ

去年の秋頃に出版された書籍『認知言語学 基礎から最前線へ』でコーパスに関する章を担当しました。現在のところ、認知言語学においてコーパスをどのように用いるべきかについて、研究者の間で一致した意見があるとは言えない状態です。それでも、この分野がこれからますます重要になってくるであろうことは間違いないと思います。担当した章では、「コーパスとは何か」ということと「コーパスを使って何を調べられるか」ということについて、認知言語学をまなぶ学生や研究者が知っておくべき最低限のことを論じたつもりです。

コーパスを扱った10章以外ではいずれも認知言語学で重視されている理論的概念を取り上げています。現在、学部の3年生を対象にしたゼミで本書を利用しているのですが、各章を構成する「基礎編」を読むと、認知言語学の基本的概念について一定の知識を得ることができます。「最前線編」には少し高度な内容が含まれており、それぞれの概念が実際の研究の中でどのように活かされているのか知ることができます。卒論や修論に取り組む学生にとって大いに参考になるでしょう。

私のゼミでは、3年次で本書とRadden and DirvenのCognitive English Grammarの一部を読んで基礎を固めることにしています。4年次ではLangackerのEssentials of Cognitive Grammarを読み、少し高度な内容に触れていきます。またそれに並行して各自の研究テーマを決定し、ゼミ論に取り組んでいきます。

4年生のゼミは今年から始まるのですが、どんな研究テーマが出てくるか今から楽しみです。

カテゴリー: review

父について

昨年の12月20日に父が亡くなった。2年半ほど前に胃癌と診断され、すぐに胃を全摘したが、1年経ったころに転移が見つかり、それからはずっと闘病生活を続けていた。

療養中の父が日課のようにしていたのが、短歌を詠むことだった。数がたまってくると朝日新聞奈良版の「大和歌壇」に投稿して、ときどき歌が掲載されたり、選者の先生から寸評がもらえたりするのを何より楽しみにしていた。

それで、彼が2年ほどの間に投稿してきた作品を纏めて歌集を作ることにした。昨年の11月末の話である。LaTeXを使って自分で版下のPDFまで作成すれば、あとは印刷だけだから、工期も費用も最低限で済むだろう。ところが、父の具合は思っていたよりも悪く、短歌集の完成を見ることはなかった。

一日一生(長谷部義郎 短歌集) [PDF]

今日2月17日は、その父の、生きていれば66歳の誕生日である。

2008年に大阪市の小学校教員を定年退職した父は、その後、兵庫教育大学の大学院で修士論文を完成させたのだが、いずれそれをウェブで公開したいと言っていた。こちらもアップロードしておく。

「思いやりの心」の基盤育成を目指した心の教育総合プラン―「VLFプログラム」の人権教育における展開を中心に―(長谷部義郎 修士論文) [PDF]

長谷部義郎短歌集

カテゴリー: diary

日本語文章難易度判別システム

昨年の秋から年末にかけて、日本語のテキストを入力するとその内容から文章の難易度を判別するシステムを開発しました。筑波大の李在鎬さんが研究代表者として進めている科研のプロジェクトの一部です。開発にあたっては、ニューヨーク州立大学で院生をしている淺尾仁彦君にもお手伝いいただきました。以下のURLから実際に使うことができます。

http://jreadability.net

jreadability.net 01

李さんが導きだした回帰式をもとに、入力テキストを日本語の読解教育の観点から、初級前半、初級後半、中級前半、中級後半、上級前半、上級後半の6段階で判別します。想定される主なユーザーは日本語教師の先生方ですが、学習者の人たちにも役立つと思います。

jreadability.net 04

例えば、次のような機能があります。

解析結果の表示とダウンロード機能

このシステムでは解析結果を[テキスト情報]、[テキスト詳細]、[語彙情報]という異なる3つのビューで表示可能なのですが、それぞれをCSV形式でダウンロードできます。

jreadability.net 03

語彙レベルの色分け表示機能

それぞれの語をレベルによって異なる色で強調表示し、テキスト全体を一覧できます。ユーザーの操作によって、特定のレベルの語だけを強調表示することも可能です。

jreadability.net 02

辞書引き機能

それぞれの結果ビューでリストアップされた語をクリックすると、詳細な辞書的情報や用例が表示されます。日本語の教師だけでなく、学習者の利便性を考えて加えた機能です。

今後の予定

2014年度にはユーザーの方たちからのフィードバックを参考にして、判別の精度をさらに上げていく予定です。よかったら使ってみてください。

カテゴリー: announcement

大雪

昨日は近年まれに見る大雪だった。自分は奈良市と京都府の境目のあたりに住んでいるのだが、奈良では14センチの積雪があったとのこと。

こういう日は自動車を出すのが怖いので、近鉄京都線で興戸まで行き、そこから京田辺キャンパスまで歩いた。歩道橋もすごい雪。

IMG_0015

当然キャンパス内も真っ白だった。授業がない時期なので学生の数は少なかったが、雪だるまがあちこちに出来ていた。

IMG_0017

香柏館の前にも1つ。

IMG_0019

京田辺というところは、夏になると時々、日本一の最高気温を記録したりする。冬は冬で昨日みたいなこともある。そう考えると面白いところだ。

IMG_0018

カテゴリー: diary