TCSE Tips #1

Update (November 28, 2014)

Now TCSE plays the video right at the time location where the segments starts, with “play video 10 seconds earlier” option newly added.  (Requested by Mura Nava)


I intentionally set up TED Corpus Search Engine (TCSE) to play the video at the point 10 seconds earlier than the segment in question is actually spoken. Currently I do not have a plan to change this. But if you want to start the video right at the intended time, change the starting time (in milli-seconds) part of the video URL. Here’s how:

  1. Click on the mini clip icon and copy the video URL
  2. Add 10,000 (= 10 seconds) to the number in the middle of the URL
  3. Access the modified URL

For instance, suppose you want to play the following segment in Marco Tempest’s talk titled “And for my next trick, a robot”:

Alan Turing, a pioneer of artificial intelligence, spoke about creating the illusion that a machine could think.

The URL you first find will be:

http://yohasebe.com/tcse/video/1991-51/220860/false/sentence/16/100

Change this to:

http://yohasebe.com/tcse/video/1991-51/230860/false/sentence/16/100

The segment above will be played immediately.

カテゴリー: article タグ: , ,

言語系のゼミ論・卒論執筆に役立つオンライン言語資料

この時期、大学4年生はゼミ論や卒論の執筆に忙しく、私のところのゼミ生も必死になって仕上げにとりかかっています。今回その指導のためにオンライン上の言語資料へのリンクをいろいろ集めたので、1つのページにまとめてみました。

なお、学部レベルの学生の利用を想定しているので、無料かつオンラインで使えることを重視して選んでいます。また、手順や操作が複雑そうなものは除外しました(いくつか例外はありますが)。

決して網羅的ではないのですが、1つの取っ掛かりにはなるかと思います。また、随時更新していくつもりです。

なお、作成にあたっては、筑波大学・李在鎬先生のサイト(コーパス日本語学の情報館)と、法政大学・尾谷昌則先生のサイトを参考にさせていただきました。この場をお借りして感謝申し上げます。

カテゴリー: announcement タグ: ,

10分で学ぶ英語史

Structure of Englishという授業を担当しています。いわゆる英語学の授業で、統語論や意味論の話に加えて、英語史についても少し時間を割いて講義します。事実ばかりを並べた内容では学生が退屈してしまうので、ときどき動画を見せるのですが、The History of English in 10 Minutesという、Open University制作の動画がYoutubeで公開されており、これがなかなかよく出来ています。

ただ、10分で英語史のエッセンスを説明しているので、さすがにナレーションが早口です。授業で見せた時は、字幕のないバージョンを使ったので、多くの学生は十分に聞き取れなかったようです。公式サイトでトランスクリプトが公開されているので、あらかじめこれを読むように指示しておけばとよかったと思いました。

カテゴリー: article タグ: ,

TCSE: Ted Corpus Search Engine

TED Talkのデータを使ったコーパス検索システムを開発して公開しました。下記のURLから利用できます。

TCSE (Ted Corpus Search Engine)
http://yohasebe.com/tcse/

基本的に公開されている全てのTED Talkに含まれる英語による発話を検索して、文脈とともに表示したり、当該の箇所をピンポイントで再生したりできます。システムの主な目的は言語研究と英語教育・学習ですが、他にも利用方法があるかもしれません。

TED TalkのデータはCreative Commons BY-NC-NDライセンスで公開されており、TCSEではこれを利用させていただいています。もちろんTCSE自体はTEDのオフィシャル・サービスではありません。

詳細な使い方はマニュアルを作成したので下記をご覧ください(英文です)。

Hasebe, Yoichiro. (2014) User’s Manual for TCSE (TED Corpus Search Engine), Version 0.1.3. Available online at http://yohasebe.com/tcse/

先日、 TCSEの仕様や教育・研究への応用について、筑波大学の李在鎬先生が主宰する東京言語学コロキウムで発表させていただきました。また、2015年2月にコーパス✕学習者ROUND TABLEで発表することになっています。こちらは申込制で、すでに定員に達しているそうなのですが、また近いうちに他のイベントでも話をしたいと思っています。

Tcse 500

カテゴリー: announcement タグ: , ,

COCA を利用した言語データの採取と統計処理の基本

昨年の11月に北海道大学で行われた「コーパスと英語学」という研究イベントで講師を担当しました。午前にワークショップ、午後にシンポジウムが行われたのですが、ワークショップでは Corpus of Contemporary American English (COCA) を使って言語データを採取する方法と、統計処理の基本について話しました。

coca-500.png

COCAはブリガムヤング大学のMark Davies先生が開発している大規模英語コーパスで、最近、多くの研究者の注目を集めています。当日は参加者の皆さんに自分のコンピュータを持参してもらい、Wifi経由で実際にCOCAにアクセスしながら進めて行きました。

COCAはオンライン上で無料で使えるのですが、ユーザー・レベルの設定があり、レベルに応じて1日に可能な検索の回数が決まっています。高いレベルを取得するには、COCAを利用した研究の成果を報告することが必要です。しかし、今回はグループ・アクセスを申請して、ワークショップ開催中は参加者全員が自由にCOCAを利用できるようにしました。

COCAは本当に素晴らしいコーパス・システムなのですが、高機能ゆえに操作が少し複雑です。英語のマニュアルは存在するのですが、ハイパーテキスト形式なので情報が多数のページに分散していて、正直なところ利便性に欠けます。そこで今回は、COCAのマニュアルを徹底的に読み込んだ上で日本語のチュートリアル文書を作成し、当日の配布資料としました。

COCAに初めて触れる人にも、少しくらいは使ったことがあるという人にも、それなりに役立つ内容が含まれていると思うので、PDFをウェブで公開します。

COCA を利用した言語データの採取と統計処理の基本 [PDF]

内容は次のようになっています。いくつかの練習問題も用意しています。(コメント歓迎!)

1. はじめに

2. COCAとBYUコーパス群
2.1 COCAの概要
2.2 COCAの機能と特徴
2.3 その他のBYUコーパス

3 COCA の機能と使い方
3.1 検索シンタックス
3.2 CLAWS7タグセット
3.3 コロケーション検索の基礎
3.4 コロケーション検索の応用
3.5 検索結果の表示
3.5.1 LIST表示
3.5.2 CHART表示
3.5.3 KWIC表示
3.5.4 COMPARE表示
3.6 COCA の詳細オプション
3.6.1 # HITS
3.6.2 GROUP BY
3.6.3 DISPLAY
3.6.4 SAVE LISTS

4 頻度の比較と有意差検定
4.1 butとhowever
4.2 帰無仮説について
4.3 Rを用いた統計処理

午後のシンポジウムでは高橋英光先生と野村益寛先生と私の3名がそれぞれ発表を行いました。お二人の先生方のお話は非常に示唆に富むもので、コーパスを用いた認知言語学のあるべき形について、あらためて考えさせられました。今回のワークショップとシンポジウムを企画され、声をかけてくださった高橋先生と野村先生、それから当日参加してくださった皆様にあらためて感謝申し上げます。

カテゴリー: announcement