TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED がかつて開発者向けに公開していたAPIを用いたサービスとしてスタートしました。TCSE は TED のデータを Creative Commons BY-NC-ND license のもとに使用していますが、TED による公式のサービスではありません。
TCSE は 長谷部陽一郎 が開発しました。学習、教育、研究のために自由に使っていただけます。論文や研究発表で TCSE を使用したときには下記を参考文献に入れてください。
| TCSEのバージョン | 12.2.0 |
| データ処理の日付 | March 9, 2026 |
| 英語トランスクリプトの品詞解析・統語解析 | spaCy 3.8 (en_core_web_lg) |
| トーク数 | 6,419 |
| セグメント数 | 1,419,926 |
| 拡張セグメント数 | 677,487 |
| 語彙要素数 | 13,017,589 |
| 語彙項目数 | 106,707 |
| Arabic | 6,290 talks |
| Bulgarian | 2,344 talks |
| Burmese | 2,102 talks |
| Chinese, Simplified | 6,033 talks |
| Chinese, Traditional | 5,701 talks |
| Croatian | 2,062 talks |
| Czech | 1,792 talks |
| Dutch | 3,263 talks |
| French | 5,894 talks |
| German | 3,722 talks |
| Greek | 3,407 talks |
| Hebrew | 4,869 talks |
| Hindi | 1,202 talks |
| Hungarian | 3,932 talks |
| Indonesian | 3,651 talks |
| Italian | 5,559 talks |
| Japanese | 4,688 talks |
| Korean | 5,600 talks |
| Kurdish, Central | 1,429 talks |
| Kurdish, Northern | 1,144 talks |
| Persian | 4,183 talks |
| Polish | 3,823 talks |
| Portuguese | 5,055 talks |
| Portuguese, Brazilian | 5,400 talks |
| Romanian | 3,989 talks |
| Russian | 5,223 talks |
| Serbian | 3,076 talks |
| Slovak | 1,128 talks |
| Spanish | 6,291 talks |
| Swedish | 1,390 talks |
| Thai | 2,764 talks |
| Turkish | 5,395 talks |
| Ukrainian | 2,356 talks |
| Vietnamese | 5,679 talks |
「ずれ」が生じる場合の調整方法
動画再生画面では、以下のテキストハイライトが利用できます:
トークのキーワード — そのトークにおけるTF-IDFスコアが3.0を超える語が下線で強調されます。TF-IDF(Term Frequency–Inverse Document Frequency)は、コーパス全体と比較して特定のトークにおける語の重要度を測る指標です。値が高いほど、そのトークに特徴的な語であることを示します。
ディスコース・マーカー — 一般的なディスコースマーカー(例: however, in other words, you know, I mean)が色付きの下線で強調されます。これらは談話を構成し、話の転換を示したり、会話の流れを制御する語句です。
アドバンスト・サーチは英語トランスクリプトだけが対象になります
品詞指定にはspaCyのUniversal POS名を使用します(例: {verb}, {noun})。短縮形も使えます: {v}=verb, {n}=noun, {a}/{j}=adj, {r}=adv, {pr}=pron。アドバンスト・サーチの検索キーを品詞指定の文字列のみで構成することはできません。
| 基本形(LEMMA) | [LEMMA] |
| 品詞(POS) | {POS} |
| 表層形(SURFACE)+品詞(POS) | SURFACE{POS}(with no spaces in-between) |
| 基本形(LEMMA)+ 品詞(POS) | [LEMMA]{POS}(with no spaces in-between) |
| 論理和 (OR) | A|B |
| セグメントの最初 | ^ |
| 名詞チャンク | _ |
| 否定マッチ | -X |
| ワイルドカード(あらゆる1語にマッチ) | -_ |
| ワイルドカード(連続する0語以上にマッチ) | * |
| 固有表現(NER) | %PERSON, %ORG, %GPE, %DATE 等 |
[excite] |
| excite, excites, excited, exciting |
{noun} |
| すべての名詞 |
{verb} |
| すべての動詞 |
to * surprise |
|
to our surprise to his surprise, etc. |
[read] {det} [news|paper|article] |
|
they read these articles reading the paper or something I'm reading the news at six, etc. |
^ having {verb} |
|
Having started the process, Having said that, etc. |
[help]{noun} |
|
an aunt offered financial help, we called people for help, etc. |
[get] -rid of |
|
get outside of get ahead of got tired of, etc. |
[make] _ -_ |
|
made a bad design good. make this happen. make your life miserable., etc. |
[give] _ _ |
|
give you an example gave her a gift give the government any further excuse, etc. |
%PERSON said |
|
Obama said Einstein said 等 |
アドバンスト・サーチモード(「Advanced Search」チェックボックスをON)では、%ENTITY という記法を使い、spaCy NLPが認識した固有表現を検索できます。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。コロケーションモードでもNERパターン検索が可能です(例:%PERSON)。以下のエンティティタイプが利用可能です:
%CARDINAL | 他のタイプに該当しない数値 | 73,912 |
%DATE | 日付(絶対・相対)や期間 | 72,487 |
%PERSON | 人名(架空の人物を含む) | 59,525 |
%GPE | 国、都市、州 | 48,806 |
%ORG | 企業、機関、組織 | 47,748 |
%ORDINAL | "first"、"second" 等の序数 | 21,850 |
%NORP | 国籍、宗教・政治団体 | 21,830 |
%LOC | GPE以外の地名(山脈、水域など) | 14,512 |
%TIME | 1日未満の時刻 | 9,389 |
%PERCENT | パーセンテージ(「%」を含む) | 8,184 |
%QUANTITY | 計量単位(重量、距離など) | 6,854 |
%WORK_OF_ART | 書籍、楽曲等のタイトル | 6,046 |
%MONEY | 金額 | 5,108 |
%PRODUCT | 製品、乗り物、食品(サービス以外) | 3,470 |
%FAC | 建物、空港、高速道路、橋 | 2,649 |
%EVENT | ハリケーン、戦争、スポーツイベント等の名称 | 2,165 |
%LANGUAGE | 言語名 | 1,557 |
%LAW | 法律として成立した文書の名称 | 758 |