言語系のゼミ論・卒論執筆に役立つオンライン言語資料

この時期、大学4年生はゼミ論や卒論の執筆に忙しく、私のところのゼミ生も必死になって仕上げにとりかかっています。今回その指導のためにオンライン上の言語資料へのリンクをいろいろ集めたので、1つのページにまとめてみました。

なお、学部レベルの学生の利用を想定しているので、無料かつオンラインで使えることを重視して選んでいます。また、手順や操作が複雑そうなものは除外しました(いくつか例外はありますが)。

決して網羅的ではないのですが、1つの取っ掛かりにはなるかと思います。また、随時更新していくつもりです。

なお、作成にあたっては、筑波大学・李在鎬先生のサイト(コーパス日本語学の情報館)と、法政大学・尾谷昌則先生のサイトを参考にさせていただきました。この場をお借りして感謝申し上げます。

カテゴリー: announcement タグ: ,

10分で学ぶ英語史

Structure of Englishという授業を担当しています。いわゆる英語学の授業で、統語論や意味論の話に加えて、英語史についても少し時間を割いて講義します。事実ばかりを並べた内容では学生が退屈してしまうので、ときどき動画を見せるのですが、The History of English in 10 Minutesという、Open University制作の動画がYoutubeで公開されており、これがなかなかよく出来ています。

ただ、10分で英語史のエッセンスを説明しているので、さすがにナレーションが早口です。授業で見せた時は、字幕のないバージョンを使ったので、多くの学生は十分に聞き取れなかったようです。公式サイトでトランスクリプトが公開されているので、あらかじめこれを読むように指示しておけばとよかったと思いました。

カテゴリー: article タグ: ,

TCSE: Ted Corpus Search Engine

TED Talkのデータを使ったコーパス検索システムを開発して公開しました。下記のURLから利用できます。

TCSE (Ted Corpus Search Engine)
http://yohasebe.com/tcse/

基本的に公開されている全てのTED Talkに含まれる英語による発話を検索して、文脈とともに表示したり、当該の箇所をピンポイントで再生したりできます。システムの主な目的は言語研究と英語教育・学習ですが、他にも利用方法があるかもしれません。

TED TalkのデータはCreative Commons BY-NC-NDライセンスで公開されており、TCSEではこれを利用させていただいています。もちろんTCSE自体はTEDのオフィシャル・サービスではありません。

詳細な使い方はマニュアルを作成したので下記をご覧ください(英文です)。

Hasebe, Yoichiro. (2014) User’s Manual for TCSE (TED Corpus Search Engine), Version 0.1.3. Available online at http://yohasebe.com/tcse/

先日、 TCSEの仕様や教育・研究への応用について、筑波大学の李在鎬先生が主宰する東京言語学コロキウムで発表させていただきました。また、2015年2月にコーパス✕学習者ROUND TABLEで発表することになっています。こちらは申込制で、すでに定員に達しているそうなのですが、また近いうちに他のイベントでも話をしたいと思っています。

Tcse 500

カテゴリー: announcement タグ: , ,

COCA を利用した言語データの採取と統計処理の基本

昨年の11月に北海道大学で行われた「コーパスと英語学」という研究イベントで講師を担当しました。午前にワークショップ、午後にシンポジウムが行われたのですが、ワークショップでは Corpus of Contemporary American English (COCA) を使って言語データを採取する方法と、統計処理の基本について話しました。

coca-500.png

COCAはブリガムヤング大学のMark Davies先生が開発している大規模英語コーパスで、最近、多くの研究者の注目を集めています。当日は参加者の皆さんに自分のコンピュータを持参してもらい、Wifi経由で実際にCOCAにアクセスしながら進めて行きました。

COCAはオンライン上で無料で使えるのですが、ユーザー・レベルの設定があり、レベルに応じて1日に可能な検索の回数が決まっています。高いレベルを取得するには、COCAを利用した研究の成果を報告することが必要です。しかし、今回はグループ・アクセスを申請して、ワークショップ開催中は参加者全員が自由にCOCAを利用できるようにしました。

COCAは本当に素晴らしいコーパス・システムなのですが、高機能ゆえに操作が少し複雑です。英語のマニュアルは存在するのですが、ハイパーテキスト形式なので情報が多数のページに分散していて、正直なところ利便性に欠けます。そこで今回は、COCAのマニュアルを徹底的に読み込んだ上で日本語のチュートリアル文書を作成し、当日の配布資料としました。

COCAに初めて触れる人にも、少しくらいは使ったことがあるという人にも、それなりに役立つ内容が含まれていると思うので、PDFをウェブで公開します。

COCA を利用した言語データの採取と統計処理の基本 [PDF]

内容は次のようになっています。いくつかの練習問題も用意しています。(コメント歓迎!)

1. はじめに

2. COCAとBYUコーパス群
2.1 COCAの概要
2.2 COCAの機能と特徴
2.3 その他のBYUコーパス

3 COCA の機能と使い方
3.1 検索シンタックス
3.2 CLAWS7タグセット
3.3 コロケーション検索の基礎
3.4 コロケーション検索の応用
3.5 検索結果の表示
3.5.1 LIST表示
3.5.2 CHART表示
3.5.3 KWIC表示
3.5.4 COMPARE表示
3.6 COCA の詳細オプション
3.6.1 # HITS
3.6.2 GROUP BY
3.6.3 DISPLAY
3.6.4 SAVE LISTS

4 頻度の比較と有意差検定
4.1 butとhowever
4.2 帰無仮説について
4.3 Rを用いた統計処理

午後のシンポジウムでは高橋英光先生と野村益寛先生と私の3名がそれぞれ発表を行いました。お二人の先生方のお話は非常に示唆に富むもので、コーパスを用いた認知言語学のあるべき形について、あらためて考えさせられました。今回のワークショップとシンポジウムを企画され、声をかけてくださった高橋先生と野村先生、それから当日参加してくださった皆様にあらためて感謝申し上げます。

カテゴリー: announcement

認知言語学 基礎から最前線へ

去年の秋頃に出版された書籍『認知言語学 基礎から最前線へ』でコーパスに関する章を担当しました。現在のところ、認知言語学においてコーパスをどのように用いるべきかについて、研究者の間で一致した意見があるとは言えない状態です。それでも、この分野がこれからますます重要になってくるであろうことは間違いないと思います。担当した章では、「コーパスとは何か」ということと「コーパスを使って何を調べられるか」ということについて、認知言語学をまなぶ学生や研究者が知っておくべき最低限のことを論じたつもりです。

コーパスを扱った10章以外ではいずれも認知言語学で重視されている理論的概念を取り上げています。現在、学部の3年生を対象にしたゼミで本書を利用しているのですが、各章を構成する「基礎編」を読むと、認知言語学の基本的概念について一定の知識を得ることができます。「最前線編」には少し高度な内容が含まれており、それぞれの概念が実際の研究の中でどのように活かされているのか知ることができます。卒論や修論に取り組む学生にとって大いに参考になるでしょう。

私のゼミでは、3年次で本書とRadden and DirvenのCognitive English Grammarの一部を読んで基礎を固めることにしています。4年次ではLangackerのEssentials of Cognitive Grammarを読み、少し高度な内容に触れていきます。またそれに並行して各自の研究テーマを決定し、ゼミ論に取り組んでいきます。

4年生のゼミは今年から始まるのですが、どんな研究テーマが出てくるか今から楽しみです。

カテゴリー: review