TCSE: Ted Corpus Search Engine

TCSEについて

TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED がかつて開発者向けに公開していたAPIを用いたサービスとしてスタートしました。TCSE は TED のデータを Creative Commons BY-NC-ND license のもとに使用していますが、TED による公式のサービスではありません。

関連ブログ記事 | 変更履歴 | おことわり

TCSE ドキュメント

TCSE 関連文献リスト

TCSEの使用に際してのお願い

TCSE は長谷部陽一郎が開発しました。学習、教育、研究のために自由に使っていただけます。論文や研究発表で TCSE を使用したときには下記を参考文献に入れてください。

Hasebe, Yoichiro (2015) Design and Implementation of an Online Corpus of Presentation Transcripts of TED Talks. Procedia: Social and Behavioral Sciences 198(24), 174–182.

長谷部陽一郎 (2018) TED Corpus Search Engine: TED Talksを教育と研究に活用するためのプラットフォーム『英語コーパス研究』25, 159-172.

謝辞など

言語の学習者、教育者、研究者のための素晴らしいリソースを提供し続けてくれるTEDに感謝します。
TCSEを紹介する論文で効果的な活用方法を示してくださった野中大輔氏に感謝します
TCSEの機能について有益なフィードバックを送ってくれた Mura Nava氏（EFL Notes）に感謝します。
本システムの一部は、科学研究費補助金 25870898 と 18K00670 の助成を受けて開発されました。

TCSEの現在の仕様

TCSEのバージョン	12.3.0
データ処理の日付	April 10, 2026
英語トランスクリプトの品詞解析・統語解析	spaCy 3.8 (`en_core_web_lg`)

英語トランスクリプトに関する情報

トーク数

6,419

セグメント数	1,419,926
拡張セグメント数	677,487
語彙要素数	13,017,589
語彙項目数	106,707

対訳トーク数

Arabic	6,290 talks
Bulgarian	2,344 talks
Burmese	2,102 talks
Chinese, Simplified	6,033 talks
Chinese, Traditional	5,701 talks
Croatian	2,062 talks
Czech	1,792 talks
Dutch	3,263 talks
French	5,894 talks
German	3,722 talks
Greek	3,407 talks
Hebrew	4,869 talks
Hindi	1,202 talks
Hungarian	3,932 talks
Indonesian	3,651 talks
Italian	5,559 talks
Japanese	4,688 talks
Korean	5,600 talks
Kurdish, Central	1,429 talks
Kurdish, Northern	1,144 talks
Persian	4,183 talks
Polish	3,823 talks
Portuguese	5,055 talks
Portuguese, Brazilian	5,400 talks
Romanian	3,989 talks
Russian	5,223 talks
Serbian	3,076 talks
Slovak	1,128 talks
Spanish	6,291 talks
Swedish	1,390 talks
Thai	2,764 talks
Turkish	5,395 talks
Ukrainian	2,356 talks
Vietnamese	5,679 talks

動画とトランスクリプトの同期

「ずれ」が生じる場合の調整方法

動画を一時停止してください
動画と一致するタイミングのセグメントを特定してください
そのセグメントのタイミング調整アイコンをクリックしてください
一時停止が解除され、動画とトランスクリプトが同期された状態で再生されます

テキスト・ハイライトについて

動画再生画面では、以下のテキストハイライトが利用できます：

トークのキーワード — そのトークにおけるTF-IDFスコアが3.0を超える語が下線で強調されます。TF-IDF（Term Frequency–Inverse Document Frequency）は、コーパス全体と比較して特定のトークにおける語の重要度を測る指標です。値が高いほど、そのトークに特徴的な語であることを示します。

ディスコース・マーカー — 一般的なディスコースマーカー（例: however, in other words, you know, I mean）が色付きの下線で強調されます。これらは談話を構成し、話の転換を示したり、会話の流れを制御する語句です。

アドバンスト・サーチについて

アドバンスト・サーチは英語トランスクリプトだけが対象になります

言語情報リファレンス（品詞・タグ・依存関係・形態素）

品詞指定にはspaCyのUniversal POS名を使用します（例: {verb}, {noun}）。短縮形も使えます: {v}=verb, {n}=noun, {a}/{j}=adj, {r}=adv, {pr}=pron。アドバンスト・サーチの検索キーを品詞指定の文字列のみで構成することはできません。

アドバンスト・サーチのシンタクス

基本形（LEMMA）	`[LEMMA]`
品詞（POS）	`{POS}`
表層形（SURFACE）＋品詞（POS）	`SURFACE{POS}` (with no spaces in-between)
基本形（LEMMA）＋品詞（POS）	`[LEMMA]{POS}` (with no spaces in-between)
論理和 (OR)	`A\|B`
セグメントの最初	`^`
名詞チャンク	`_`
否定マッチ	`-X`
ワイルドカード（あらゆる1語にマッチ）	`-_`
ワイルドカード（連続する0語以上にマッチ）	`*`
固有表現（NER）	`%PERSON`, `%ORG`, `%GPE`, `%DATE` 等

アドバンスト・サーチの例

[excite]

excite, excites, excited, exciting

{noun}

すべての名詞

{verb}

すべての動詞

to * surprise

to our surprise
to his surprise, etc.

[read] {det} [news|paper|article]

they read these articles
reading the paper or something
I'm reading the news at six, etc.

^ having {verb}

Having started the process,
Having said that, etc.

[help]{noun}

an aunt offered financial help,
we called people for help, etc.

[get] -rid of

get outside of
get ahead of
got tired of, etc.

[make] _ -_

made a bad design good.
make this happen.
make your life miserable., etc.

[give] _ _

give you an example
gave her a gift
give the government any further excuse, etc.

%PERSON said

Obama said
Einstein said 等

固有表現認識（NER）について

アドバンスト・サーチモード（「Advanced Search」チェックボックスをON）では、%ENTITY という記法を使い、spaCy NLPが認識した固有表現を検索できます。複数語からなるエンティティ（例：「New York」「United Nations」）は単一ユニットとしてマッチします。コロケーションモードでもNERパターン検索が可能です（例：%PERSON）。以下のエンティティタイプが利用可能です：

`%CARDINAL`	他のタイプに該当しない数値	73,912
`%DATE`	日付（絶対・相対）や期間	72,487
`%PERSON`	人名（架空の人物を含む）	59,525
`%GPE`	国、都市、州	48,806
`%ORG`	企業、機関、組織	47,748
`%ORDINAL`	"first"、"second" 等の序数	21,850
`%NORP`	国籍、宗教・政治団体	21,830
`%LOC`	GPE以外の地名（山脈、水域など）	14,512
`%TIME`	1日未満の時刻	9,389
`%PERCENT`	パーセンテージ（「%」を含む）	8,184
`%QUANTITY`	計量単位（重量、距離など）	6,854
`%WORK_OF_ART`	書籍、楽曲等のタイトル	6,046
`%MONEY`	金額	5,108
`%PRODUCT`	製品、乗り物、食品（サービス以外）	3,470
`%FAC`	建物、空港、高速道路、橋	2,649
`%EVENT`	ハリケーン、戦争、スポーツイベント等の名称	2,165
`%LANGUAGE`	言語名	1,557
`%LAW`	法律として成立した文書の名称	758

TED Stage Talk	3,375
TED-Ed Original	1,323
TEDx Talk	958
TED Institute Talk	278
Original Content	270
TED Salon Talk (partner)	104
Podcast (audio only)	63
Best of Web	46
Custom sponsored content	2
トータル	6,419

テキストを入力して 検索 をクリック