目次
1時間の動画に手で字幕を付ける——昔はこれだけで丸一日が消えた。聞いて、止めて、打って、タイムコードを合わせて、また巻き戻して。その地獄のような作業が、2026年のいまは 「動画を放り込んで数分待つだけ」で終わる。AIが音声を聞き取り、文字に起こし、タイムコード付きの字幕ファイル(SRT/VTT)まで吐き出してくれるからだ。
結論から言う。YouTube・ポッドキャスト・講義・インタビューなど、動画や音声を「字幕」や「全文の書き起こし」にしたいなら、AIツールに任せれば作業の8〜9割が消える。クリーンな音声なら精度は90〜96%に達するとされ(各社公表値・条件依存)、人手の書き起こし(99%超)には及ばないものの、下書きとしては十分すぎる。本記事は、自動化できる工程・字幕と書き起こしの違い・主要ツール比較・4ステップの実践手順・精度を上げるコツ・多言語字幕の作り方・落とし穴までを実践的に解説する。なお本記事は「動画/音声コンテンツの字幕・書き起こし」がテーマで、会議の議事録化(要約・ToDo抽出)は議事録自動化の記事に、画像内文字のテキスト化はOCRの記事に譲る。
音声が、タイムコード付きの文字になる
— 聞いて打つ作業は、もういらない
音声認識
こんにちは、本日のテーマは…
AIによる字幕作成です。
AIは音声を聞き取るだけでなく、「いつ・誰が・何を言ったか」をタイムコード付きで構造化する。
※本記事の精度・料金・対応言語は各社公表値および複数の比較メディア(2026年時点)に基づく引用で、最適条件下の数値を含む。実環境(雑音・専門用語・複数話者)では下がり得る。導入前に自分の素材で実測を推奨。
1. AIで字幕・書き起こしの「どこ」が自動化できるか
「AIで字幕」と一口に言うが、実は 4つの工程がある。どこまで任せるかでツールが変わる。
- ① 音声の抽出:動画から音声を取り出す(多くのツールは自動)。
- ② 文字起こし(transcription):音声認識AIが発話を全文テキスト化。誰が話したかを分ける話者分離(diarization)も。
- ③ 字幕化(タイムコード付与):テキストを「何秒〜何秒に表示」という単位に区切り、SRT/VTTなどの字幕ファイルに。
- ④ 翻訳・スタイル付け:多言語字幕への翻訳、フォント・位置・改行などの体裁調整。
従来は①〜④をすべて人が手作業でやっていた。2026年のAIは、この4工程をほぼ全部「下書きレベル」まで自動化できる。クリーンな音声なら精度は92〜96%との報告もあり、AIは手作業に比べ8〜9割の労力を削減するとされる。ただし——後述するように——出てきた字幕は「下書き」であって「完成品」ではない。固有名詞や専門用語の確認は、依然として人の仕事だ。
2. 字幕(SRT/VTT)と書き起こしの違い
始める前に、よく混同される2つの「出力」を区別しておこう。同じ音声認識から生まれるが、用途が違う。
字幕(SRT / VTT)
「何秒〜何秒に、この文を表示」というタイムコード付きのファイル。動画に重ねて使う。
- 用途:動画への字幕表示
- SRT=最も互換性が高い(YouTube・Premiere等ほぼ全対応)
- VTT=Web向け(HTML5動画など)
書き起こし(transcript)
タイムコードに縛られない「全文テキスト」。読む・検索する・要約するためのもの。
- 用途:記事化・議事録・検索・要約の素材
- 話者分離で「誰の発言か」も付けられる
- 出力:TXT・DOCX・Markdownなど
使い分けはシンプルだ。動画に字幕を載せたいならSRT/VTT、内容を読み物・記事・要約にしたいなら書き起こし(transcript)。多くのAIツールは両方を一度に書き出せる。迷ったら、まず汎用性の高いSRTで出しておけば、ほとんどの動画編集ソフトやプラットフォームで使い回せる。
3. 主要ツール比較
代表的なAI字幕・書き起こしツールを並べる。「動画編集まで一体でやりたいか」「無料で始めたいか」「多言語が要るか」で選ぶのがコツだ。精度の数値は各社公表値(最適条件下)で、実環境では変動する。
| ツール | 強み | 出力・特徴 | 料金感 |
|---|---|---|---|
| Whisper(OpenAI / OSS) | 無料・高精度・多言語。ローカル実行で機密も守れる | SRT/VTT/TXT。コマンドライン操作が前提 | 無料(自前環境) |
| Descript | 書き起こしを軸にした動画/音声編集。Podcast・YouTube向け | テキスト編集で動画を切る。話者分離も | 無料枠あり/有料 |
| Sonix | 高精度をうたう(公表で最大99%・53言語超)。チーム・コンプラ重視 | SRT/VTT、対話的エディタ | 従量・サブスク |
| Happy Scribe | 字幕編集に強い対話的エディタ。タイミング調整が楽 | SRT/VTT/TXT/DOCX書き出し | 従量・サブスク |
| Notta | 個人・学生向けに使いやすい。無料枠が実用的 | 多言語、書き起こし中心 | 無料枠あり/有料 |
| CapCut / 各種編集アプリ | スマホ/PCで撮影〜字幕焼き込みまで完結 | 自動字幕、スタイル装飾が豊富 | 無料〜有料 |
| YouTube 自動字幕 | アップロードするだけで自動生成。最手軽 | YouTube内で編集・SRT書き出し可 | 無料 |
※ツール名・精度・料金・対応言語は2026年時点の公表値・概算。各社は頻繁に更新するため、最新は公式を確認のこと。多くは内部でWhisper系などの音声認識を使っている。
ざっくり言えば、無料で機密も守りたいならWhisper、Podcast/YouTubeを編集ごとやりたいならDescript、チームで高精度・多言語ならSonixやHappy Scribe、スマホでサクッとならCapCut、とにかく最手軽ならYouTube自動字幕。個人的には、まずYouTube自動字幕かNottaの無料枠で「AI字幕の速さ」を体感し、足りなくなったら専用ツールへ——という順がいちばん失敗しにくい。
4. 実践:4ステップで字幕を作る
ツールが違っても、基本の流れは共通だ。最も再現性の高い4ステップを示す。慣れれば1本5分かからない。
差が出るのは STEP 3 の校正だ。多くの人はAIの出力をそのまま使って、固有名詞の誤変換で恥をかく。逆に言えば、ここさえ丁寧にやれば、AI字幕は一気に実用品質になる。「全部自分で打つ」のではなく「AIの下書きを直す」——この発想が、作業時間を10分の1にする鍵だ。
5. 用途別おすすめ
| やりたいこと | おすすめ | ひとことアドバイス |
|---|---|---|
| YouTube動画に字幕 | YouTube自動字幕/CapCut | まず自動字幕で下書き→編集画面で誤変換だけ直すのが最速 |
| ポッドキャストの字幕・書き起こし | Descript/quso系 | 話者分離が効く。テキスト編集で音声も一緒に整えられる |
| 講義・セミナーの全文書き起こし | Notta/Whisper | 長尺でも一括処理。固有名詞リストを先に用意 |
| インタビュー(複数話者) | Descript/Sonix | 話者分離で「誰の発言か」を自動ラベル。記事化が楽に |
| 機密・社外秘の素材 | Whisper(ローカル) | クラウドに上げず手元で処理。情報漏洩を防げる |
| 多言語の字幕を付けたい | Sonix/Maestra系 | 原語で起こしてからAI翻訳。重要素材はネイティブ確認 |
迷ったら——まず無料ツールで1本作って「AI字幕の速さ」を体験し、編集まで一体でやりたい・多言語が要る・機密だ、といった壁にぶつかった時点で専用ツールへ切り替える。この順がいちばん遠回りしない。
6. 精度を上げる6つのコツ
同じAIでも、入力と下準備しだいで結果は驚くほど変わる。効果の大きい順に挙げる。
① 音質がすべての8割
マイクを近づけ、雑音・反響を減らす。クリアな音ほど精度が跳ね上がる。録り直しが最速の改善。
② 言語を正しく指定
自動検出に任せず、話者の言語を明示。英語混じりの日本語などは特に効く。
③ 固有名詞リストを先に作る
登場する社名・人名・専門用語を事前に列挙。対応ツールなら辞書登録で誤変換が激減。
④ 一括置換で誤りを直す
よくある誤変換は検索・置換でまとめて修正。自分用の「修正辞書」を育てると速くなる。
⑤ 話者分離を活用
複数人の素材は話者分離をオン。「Speaker 1」を実名にリネームすれば読みやすい記事に。
⑥ 1行の長さを整える
字幕は1行を短く(読める長さに)改行。長すぎる字幕は画面で読み切れない。
この中でも効くのは圧倒的に ①の音質だ。どんな高精度ツールでも、雑音まみれの音声からは正確な字幕は出てこない。「AIが間違える」と感じたら、まず録音環境を見直す。これだけで体感が変わる。
7. 多言語字幕の作り方
動画を世界に届けたいなら、多言語字幕は強力だ。だがやみくもに各言語へ直接起こすより、正しい順番がある。
🌍 多言語字幕の王道3ステップ
ポイントは 「原語の字幕を先に完璧にする」こと。土台が雑なまま翻訳すると、誤りが全言語に伝播する。逆に原語が正確なら、AI翻訳でも実用的な多言語字幕が一気に作れる。ChatGPT/Claude/Geminiのような汎用AIにSRTを貼って翻訳させる手もあるが、字幕特化ツールならタイムコードを崩さず訳せて安全だ。
8. 落とし穴(過信・著作権・プライバシー)
便利な反面、AI字幕には定番の落とし穴がある。知っておけば9割は避けられる。
- 精度の過信:クリーンな音声でも90〜96%程度で、100%ではない。固有名詞・専門用語・同音異義語は特に間違える。公開前に必ず人が目視する。
- 雑音・なまり・専門用語に弱い:BGM、複数人の同時発話、強いアクセント、業界用語は精度が落ちる。録音環境と固有名詞リストで対策を。
- 著作権・権利:他人の動画・楽曲・放送をAIで書き起こして再配布するのは権利侵害になり得る。自分が権利を持つ素材か、引用の範囲かを確認。
- 機密・個人情報:クラウドのAIに音声を上げると外部送信になる。社外秘やプライバシーを含む素材は、ローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶ。
- タイムコードのズレ:自動字幕は表示タイミングがずれることがある。長尺ほど後半でずれやすいので、要所を再生して確認する。
正直に言えば、AI字幕最大のリスクは「校正を飛ばして公開すること」だ。逆に言えば、「固有名詞を確認する」「公開前に通しで見る」——この2つの習慣さえ守れば、AI字幕は安心して武器になる。
まとめ
AIによる動画・音声の字幕/書き起こしは、2026年に「丸一日の作業を数分にする」レベルに達した。要点を整理する。
- 4工程を自動化: 音声抽出→書き起こし→字幕化(SRT/VTT)→翻訳・体裁。労力は8〜9割減。
- 字幕と書き起こしは別物: 動画に載せるならSRT/VTT、読み物・要約にするなら書き起こし(transcript)。
- ツールは出口で選ぶ: 無料・機密ならWhisper、編集一体ならDescript、多言語・高精度ならSonix、最手軽ならYouTube自動字幕。
- 精度は音質が8割: クリアに録るのが最速の改善。固有名詞リストと一括置換も効く。
- 多言語は原語を先に完璧化: →AI翻訳→ネイティブ確認の順。
- 2つの習慣で事故防止: 固有名詞を確認/公開前に通しで見る。著作権・機密にも注意。
結局、AI字幕は「文字起こし職人」を置き換えるのではなく、「退屈な下書きを一瞬で出す相棒」だ。聞いて、止めて、打って——あの消耗から人は解放された。残った仕事は、固有名詞を直し、伝わる改行を選び、世界に届ける言語を増やすこと。作業はAIに、仕上げはあなたに。その分担が、あなたの動画を、もっと遠くまで届ける。
FAQ
Q. AIで無料で字幕や書き起こしは作れますか?
A. できます。YouTubeの自動字幕はアップロードするだけで無料、Nottaなどにも実用的な無料枠があります。コマンドライン操作に抵抗がなければ、OpenAIのWhisperを使えば無料・高精度で、しかもローカル実行なので機密も守れます。大量・継続処理や高度な編集になると有料ツールが現実的です。
Q. AI字幕の精度はどのくらいですか?
A. クリーンな音声で90〜96%程度とされます(各社公表値・条件依存)。人手の書き起こし(99%超)には及びませんが、下書きとしては十分です。雑音・複数話者・強いなまり・専門用語があると精度は落ちるため、公開前の校正は必須です。
Q. SRTとVTT、どちらで書き出せばいいですか?
A. 迷ったらSRTです。YouTube・Vimeoや主要な動画編集ソフト(Premiere・Final Cut・DaVinci Resolve)など、ほぼ全てが対応する最も互換性の高い形式です。VTTはHTML5動画などWeb向けで、字幕のスタイル指定が柔軟な点が特徴です。
Q. 複数人のインタビューで「誰の発言か」を分けられますか?
A. はい。多くのツールが備える「話者分離(diarization)」機能で、AIが声を聞き分けて「Speaker 1」「Speaker 2」と自動ラベルします。エディタで実名にリネームすれば、読みやすい記事や議事録になります。DescriptやSonixなどが得意です。
Q. 多言語の字幕はどう作るのが効率的ですか?
A. まず原語(最も精度が高い言語)で字幕を完璧に仕上げ、その完成版SRTをAIで各言語へ翻訳するのが王道です。タイムコードを保持したまま中身だけ訳せます。商用・公式の素材は、各言語のネイティブが最終確認すると安心です。原語が雑だと誤りが全言語に伝播する点に注意してください。
Q. 他人のYouTube動画を書き起こして使ってもいいですか?
A. 注意が必要です。他人の動画・楽曲・放送をAIで書き起こして再配布するのは、著作権侵害になり得ます。自分が権利を持つ素材か、引用の範囲(出典明示・必要最小限)に収まるかを確認してください。私的な視聴メモの範囲を超えないことが大切です。
Q. 機密を含む音声を字幕化しても大丈夫ですか?
A. クラウドのAIにアップロードすると、音声が外部サーバーに送られます。社外秘や個人情報を含む素材は、会社のルールと各サービスのデータ取り扱い方針を確認してください。心配ならローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶのが安全です。