テキストを入力して 検索 をクリック

モード
表示言語
TED Stage Talk3,375
TED-Ed Original1,323
TEDx Talk958
TED Institute Talk278
Original Content270
TED Salon Talk (partner)104
Podcast (audio only)63
Best of Web46
Custom sponsored content2
トータル6,419
 
  
(スピーカー/タイトル/説明)  
     

     
 

TCSEについて

TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED がかつて開発者向けに公開していたAPIを用いたサービスとしてスタートしました。TCSE は TED のデータを Creative Commons BY-NC-ND license のもとに使用していますが、TED による公式のサービスではありません。

変更履歴   |    おことわり

TCSE ドキュメント

TCSE 関連文献リスト


TCSEの使用に際してのお願い

TCSE長谷部陽一郎 が開発しました。学習、教育、研究のために自由に使っていただけます。論文や研究発表で TCSE を使用したときには下記を参考文献に入れてください。

Hasebe, Yoichiro (2015) Design and Implementation of an Online Corpus of Presentation Transcripts of TED Talks. Procedia: Social and Behavioral Sciences 198(24), 174–182.
長谷部陽一郎 (2018) TED Corpus Search Engine: TED Talksを教育と研究に活用するためのプラットフォーム『英語コーパス研究』25, 159-172.

謝辞など

  • 言語の学習者、教育者、研究者のための素晴らしいリソースを提供し続けてくれるTEDに感謝します。
  • TCSEを紹介する論文で効果的な活用方法を示してくださった野中大輔氏に感謝します
  • TCSEの機能について有益なフィードバックを送ってくれた Mura Nava氏(EFL Notes)に感謝します。
  • 本システムの一部は、科学研究費補助金 25870898 と 18K00670 の助成を受けて開発されました。

TCSEの現在の仕様

TCSEのバージョン12.2.0
データ処理の日付March 9, 2026
英語トランスクリプトの品詞解析・統語解析spaCy 3.8 (en_core_web_lg)

英語トランスクリプトに関する情報

トーク数 6,419
セグメント数1,419,926
拡張セグメント数677,487
語彙要素数13,017,589
語彙項目数106,707

対訳トーク数

Arabic6,290 talks
Bulgarian2,344 talks
Burmese2,102 talks
Chinese, Simplified6,033 talks
Chinese, Traditional5,701 talks
Croatian2,062 talks
Czech1,792 talks
Dutch3,263 talks
French5,894 talks
German3,722 talks
Greek3,407 talks
Hebrew4,869 talks
Hindi1,202 talks
Hungarian3,932 talks
Indonesian3,651 talks
Italian5,559 talks
Japanese4,688 talks
Korean5,600 talks
Kurdish, Central1,429 talks
Kurdish, Northern1,144 talks
Persian4,183 talks
Polish3,823 talks
Portuguese5,055 talks
Portuguese, Brazilian5,400 talks
Romanian3,989 talks
Russian5,223 talks
Serbian3,076 talks
Slovak1,128 talks
Spanish6,291 talks
Swedish1,390 talks
Thai2,764 talks
Turkish5,395 talks
Ukrainian2,356 talks
Vietnamese5,679 talks

動画とトランスクリプトの同期

「ずれ」が生じる場合の調整方法

  1. 動画を一時停止してください
  2. 動画と一致するタイミングのセグメントを特定してください
  3. そのセグメントのタイミング調整アイコン をクリックしてください
  4. 一時停止が解除され、動画とトランスクリプトが同期された状態で再生されます

テキスト・ハイライトについて

動画再生画面では、以下のテキストハイライトが利用できます:

トークのキーワード — そのトークにおけるTF-IDFスコアが3.0を超える語が下線で強調されます。TF-IDF(Term Frequency–Inverse Document Frequency)は、コーパス全体と比較して特定のトークにおける語の重要度を測る指標です。値が高いほど、そのトークに特徴的な語であることを示します。

ディスコース・マーカー — 一般的なディスコースマーカー(例: however, in other words, you know, I mean)が色付きの下線で強調されます。これらは談話を構成し、話の転換を示したり、会話の流れを制御する語句です。

アドバンスト・サーチについて

アドバンスト・サーチは英語トランスクリプトだけが対象になります

言語情報リファレンス(品詞・タグ・依存関係・形態素)

品詞指定にはspaCyのUniversal POS名を使用します(例: {verb}, {noun})。短縮形も使えます: {v}=verb, {n}=noun, {a}/{j}=adj, {r}=adv, {pr}=pron。アドバンスト・サーチの検索キーを品詞指定の文字列のみで構成することはできません。


アドバンスト・サーチのシンタクス

基本形(LEMMA)[LEMMA]
品詞(POS){POS}
表層形(SURFACE)+品詞(POS)SURFACE{POS}
(with no spaces in-between)
基本形(LEMMA)+ 品詞(POS)[LEMMA]{POS}
(with no spaces in-between)
論理和 (OR)A|B
セグメントの最初^
名詞チャンク_
否定マッチ-X
ワイルドカード(あらゆる1語にマッチ)-_
ワイルドカード(連続する0語以上にマッチ)*
固有表現(NER)%PERSON, %ORG, %GPE, %DATE

アドバンスト・サーチの例

[excite]
excite, excites, excited, exciting
{noun}
すべての名詞
{verb}
すべての動詞
to * surprise
to our surprise
to his surprise, etc.
[read] {det} [news|paper|article]
they read these articles
reading the paper or something
I'm reading the news at six, etc.
^ having {verb}
Having started the process,
Having said that, etc.
[help]{noun}
an aunt offered financial help,
we called people for help, etc.
[get] -rid of
get outside of
get ahead of
got tired of, etc.
[make] _ -_
made a bad design good.
make this happen.
make your life miserable., etc.
[give] _ _
give you an example
gave her a gift
give the government any further excuse, etc.
%PERSON said
Obama said
Einstein said

固有表現認識(NER)について

アドバンスト・サーチモード(「Advanced Search」チェックボックスをON)では、%ENTITY という記法を使い、spaCy NLPが認識した固有表現を検索できます。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。コロケーションモードでもNERパターン検索が可能です(例:%PERSON)。以下のエンティティタイプが利用可能です:

%CARDINAL他のタイプに該当しない数値73,912
%DATE日付(絶対・相対)や期間72,487
%PERSON人名(架空の人物を含む)59,525
%GPE国、都市、州48,806
%ORG企業、機関、組織47,748
%ORDINAL"first"、"second" 等の序数21,850
%NORP国籍、宗教・政治団体21,830
%LOCGPE以外の地名(山脈、水域など)14,512
%TIME1日未満の時刻9,389
%PERCENTパーセンテージ(「%」を含む)8,184
%QUANTITY計量単位(重量、距離など)6,854
%WORK_OF_ART書籍、楽曲等のタイトル6,046
%MONEY金額5,108
%PRODUCT製品、乗り物、食品(サービス以外)3,470
%FAC建物、空港、高速道路、橋2,649
%EVENTハリケーン、戦争、スポーツイベント等の名称2,165
%LANGUAGE言語名1,557
%LAW法律として成立した文書の名称758