1時間の動画に手で字幕を付ける——昔はこれだけで丸一日が消えた。聞いて、止めて、打って、タイムコードを合わせて、また巻き戻して。その地獄のような作業が、2026年のいまは 「動画を放り込んで数分待つだけ」で終わる。AIが音声を聞き取り、文字に起こし、タイムコード付きの字幕ファイル(SRT/VTT)まで吐き出してくれるからだ。

結論から言う。YouTube・ポッドキャスト・講義・インタビューなど、動画や音声を「字幕」や「全文の書き起こし」にしたいなら、AIツールに任せれば作業の8〜9割が消える。クリーンな音声なら精度は90〜96%に達するとされ(各社公表値・条件依存)、人手の書き起こし(99%超)には及ばないものの、下書きとしては十分すぎる。本記事は、自動化できる工程・字幕と書き起こしの違い・主要ツール比較・4ステップの実践手順・精度を上げるコツ・多言語字幕の作り方・落とし穴までを実践的に解説する。なお本記事は「動画/音声コンテンツの字幕・書き起こし」がテーマで、会議の議事録化(要約・ToDo抽出)は議事録自動化の記事に、画像内文字のテキスト化はOCRの記事に譲る。

AI 字幕・書き起こし

音声が、タイムコード付きの文字になる

— 聞いて打つ作業は、もういらない

🎙️ 動画・音声
AI
音声認識
00:00:01 → 00:00:04
こんにちは、本日のテーマは…
00:00:04 → 00:00:08
AIによる字幕作成です。
✅ SRT / VTT・全文テキスト・多言語

AIは音声を聞き取るだけでなく、「いつ・誰が・何を言ったか」をタイムコード付きで構造化する。

※本記事の精度・料金・対応言語は各社公表値および複数の比較メディア(2026年時点)に基づく引用で、最適条件下の数値を含む。実環境(雑音・専門用語・複数話者)では下がり得る。導入前に自分の素材で実測を推奨。

1. AIで字幕・書き起こしの「どこ」が自動化できるか

「AIで字幕」と一口に言うが、実は 4つの工程がある。どこまで任せるかでツールが変わる。

  • ① 音声の抽出:動画から音声を取り出す(多くのツールは自動)。
  • ② 文字起こし(transcription):音声認識AIが発話を全文テキスト化。誰が話したかを分ける話者分離(diarization)も。
  • ③ 字幕化(タイムコード付与):テキストを「何秒〜何秒に表示」という単位に区切り、SRT/VTTなどの字幕ファイルに。
  • ④ 翻訳・スタイル付け:多言語字幕への翻訳、フォント・位置・改行などの体裁調整。

従来は①〜④をすべて人が手作業でやっていた。2026年のAIは、この4工程をほぼ全部「下書きレベル」まで自動化できる。クリーンな音声なら精度は92〜96%との報告もあり、AIは手作業に比べ8〜9割の労力を削減するとされる。ただし——後述するように——出てきた字幕は「下書き」であって「完成品」ではない。固有名詞や専門用語の確認は、依然として人の仕事だ。

2. 字幕(SRT/VTT)と書き起こしの違い

始める前に、よく混同される2つの「出力」を区別しておこう。同じ音声認識から生まれるが、用途が違う。

字幕(SRT / VTT)

「何秒〜何秒に、この文を表示」というタイムコード付きのファイル。動画に重ねて使う。

  • 用途:動画への字幕表示
  • SRT=最も互換性が高い(YouTube・Premiere等ほぼ全対応)
  • VTT=Web向け(HTML5動画など)

書き起こし(transcript)

タイムコードに縛られない「全文テキスト」。読む・検索する・要約するためのもの。

  • 用途:記事化・議事録・検索・要約の素材
  • 話者分離で「誰の発言か」も付けられる
  • 出力:TXT・DOCX・Markdownなど

使い分けはシンプルだ。動画に字幕を載せたいならSRT/VTT、内容を読み物・記事・要約にしたいなら書き起こし(transcript)。多くのAIツールは両方を一度に書き出せる。迷ったら、まず汎用性の高いSRTで出しておけば、ほとんどの動画編集ソフトやプラットフォームで使い回せる。

3. 主要ツール比較

代表的なAI字幕・書き起こしツールを並べる。「動画編集まで一体でやりたいか」「無料で始めたいか」「多言語が要るか」で選ぶのがコツだ。精度の数値は各社公表値(最適条件下)で、実環境では変動する。

ツール強み出力・特徴料金感
Whisper(OpenAI / OSS)無料・高精度・多言語。ローカル実行で機密も守れるSRT/VTT/TXT。コマンドライン操作が前提無料(自前環境)
Descript書き起こしを軸にした動画/音声編集。Podcast・YouTube向けテキスト編集で動画を切る。話者分離も無料枠あり/有料
Sonix高精度をうたう(公表で最大99%・53言語超)。チーム・コンプラ重視SRT/VTT、対話的エディタ従量・サブスク
Happy Scribe字幕編集に強い対話的エディタ。タイミング調整が楽SRT/VTT/TXT/DOCX書き出し従量・サブスク
Notta個人・学生向けに使いやすい。無料枠が実用的多言語、書き起こし中心無料枠あり/有料
CapCut / 各種編集アプリスマホ/PCで撮影〜字幕焼き込みまで完結自動字幕、スタイル装飾が豊富無料〜有料
YouTube 自動字幕アップロードするだけで自動生成。最手軽YouTube内で編集・SRT書き出し可無料

※ツール名・精度・料金・対応言語は2026年時点の公表値・概算。各社は頻繁に更新するため、最新は公式を確認のこと。多くは内部でWhisper系などの音声認識を使っている。

ざっくり言えば、無料で機密も守りたいならWhisperPodcast/YouTubeを編集ごとやりたいならDescriptチームで高精度・多言語ならSonixやHappy ScribeスマホでサクッとならCapCutとにかく最手軽ならYouTube自動字幕。個人的には、まずYouTube自動字幕かNottaの無料枠で「AI字幕の速さ」を体感し、足りなくなったら専用ツールへ——という順がいちばん失敗しにくい。

4. 実践:4ステップで字幕を作る

ツールが違っても、基本の流れは共通だ。最も再現性の高い4ステップを示す。慣れれば1本5分かからない。

STEP 1 · 素材を用意
動画/音声ファイルを用意。雑音が少なく明瞭な音ほど精度が上がる
STEP 2 · 書き起こし
ツールにアップロード。言語を指定して文字起こし・話者分離を実行
STEP 3 · 校正
固有名詞・専門用語を確認。誤変換を一括置換し、改行・タイミングを整える
STEP 4 · 書き出し・付与
SRT/VTTで書き出し、動画にアップロード or 焼き込み

差が出るのは STEP 3 の校正だ。多くの人はAIの出力をそのまま使って、固有名詞の誤変換で恥をかく。逆に言えば、ここさえ丁寧にやれば、AI字幕は一気に実用品質になる。「全部自分で打つ」のではなく「AIの下書きを直す」——この発想が、作業時間を10分の1にする鍵だ。

5. 用途別おすすめ

やりたいことおすすめひとことアドバイス
YouTube動画に字幕YouTube自動字幕/CapCutまず自動字幕で下書き→編集画面で誤変換だけ直すのが最速
ポッドキャストの字幕・書き起こしDescript/quso系話者分離が効く。テキスト編集で音声も一緒に整えられる
講義・セミナーの全文書き起こしNotta/Whisper長尺でも一括処理。固有名詞リストを先に用意
インタビュー(複数話者)Descript/Sonix話者分離で「誰の発言か」を自動ラベル。記事化が楽に
機密・社外秘の素材Whisper(ローカル)クラウドに上げず手元で処理。情報漏洩を防げる
多言語の字幕を付けたいSonix/Maestra系原語で起こしてからAI翻訳。重要素材はネイティブ確認

迷ったら——まず無料ツールで1本作って「AI字幕の速さ」を体験し、編集まで一体でやりたい・多言語が要る・機密だ、といった壁にぶつかった時点で専用ツールへ切り替える。この順がいちばん遠回りしない。

6. 精度を上げる6つのコツ

同じAIでも、入力と下準備しだいで結果は驚くほど変わる。効果の大きい順に挙げる。

① 音質がすべての8割

マイクを近づけ、雑音・反響を減らす。クリアな音ほど精度が跳ね上がる。録り直しが最速の改善。

② 言語を正しく指定

自動検出に任せず、話者の言語を明示。英語混じりの日本語などは特に効く。

③ 固有名詞リストを先に作る

登場する社名・人名・専門用語を事前に列挙。対応ツールなら辞書登録で誤変換が激減。

④ 一括置換で誤りを直す

よくある誤変換は検索・置換でまとめて修正。自分用の「修正辞書」を育てると速くなる。

⑤ 話者分離を活用

複数人の素材は話者分離をオン。「Speaker 1」を実名にリネームすれば読みやすい記事に。

⑥ 1行の長さを整える

字幕は1行を短く(読める長さに)改行。長すぎる字幕は画面で読み切れない。

この中でも効くのは圧倒的に ①の音質だ。どんな高精度ツールでも、雑音まみれの音声からは正確な字幕は出てこない。「AIが間違える」と感じたら、まず録音環境を見直す。これだけで体感が変わる。

7. 多言語字幕の作り方

動画を世界に届けたいなら、多言語字幕は強力だ。だがやみくもに各言語へ直接起こすより、正しい順番がある。

🌍 多言語字幕の王道3ステップ

① 原語で正確に起こす:まず元の言語(最も精度が高い)でSRTを完成させ、校正まで終える
② AIで各言語へ翻訳:完成したSRTをAI翻訳。タイムコードは保持したまま中身だけ訳す
③ 重要素材はネイティブ確認:商用・公式は各言語のネイティブが最終チェック

ポイントは 「原語の字幕を先に完璧にする」こと。土台が雑なまま翻訳すると、誤りが全言語に伝播する。逆に原語が正確なら、AI翻訳でも実用的な多言語字幕が一気に作れる。ChatGPT/Claude/Geminiのような汎用AIにSRTを貼って翻訳させる手もあるが、字幕特化ツールならタイムコードを崩さず訳せて安全だ。

8. 落とし穴(過信・著作権・プライバシー)

便利な反面、AI字幕には定番の落とし穴がある。知っておけば9割は避けられる。

  • 精度の過信:クリーンな音声でも90〜96%程度で、100%ではない。固有名詞・専門用語・同音異義語は特に間違える。公開前に必ず人が目視する。
  • 雑音・なまり・専門用語に弱い:BGM、複数人の同時発話、強いアクセント、業界用語は精度が落ちる。録音環境と固有名詞リストで対策を。
  • 著作権・権利:他人の動画・楽曲・放送をAIで書き起こして再配布するのは権利侵害になり得る。自分が権利を持つ素材か、引用の範囲かを確認。
  • 機密・個人情報:クラウドのAIに音声を上げると外部送信になる。社外秘やプライバシーを含む素材は、ローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶ。
  • タイムコードのズレ:自動字幕は表示タイミングがずれることがある。長尺ほど後半でずれやすいので、要所を再生して確認する。

正直に言えば、AI字幕最大のリスクは「校正を飛ばして公開すること」だ。逆に言えば、「固有名詞を確認する」「公開前に通しで見る」——この2つの習慣さえ守れば、AI字幕は安心して武器になる。

まとめ

AIによる動画・音声の字幕/書き起こしは、2026年に「丸一日の作業を数分にする」レベルに達した。要点を整理する。

  • 4工程を自動化: 音声抽出→書き起こし→字幕化(SRT/VTT)→翻訳・体裁。労力は8〜9割減。
  • 字幕と書き起こしは別物: 動画に載せるならSRT/VTT、読み物・要約にするなら書き起こし(transcript)。
  • ツールは出口で選ぶ: 無料・機密ならWhisper、編集一体ならDescript、多言語・高精度ならSonix、最手軽ならYouTube自動字幕。
  • 精度は音質が8割: クリアに録るのが最速の改善。固有名詞リストと一括置換も効く。
  • 多言語は原語を先に完璧化: →AI翻訳→ネイティブ確認の順。
  • 2つの習慣で事故防止: 固有名詞を確認/公開前に通しで見る。著作権・機密にも注意。

結局、AI字幕は「文字起こし職人」を置き換えるのではなく、「退屈な下書きを一瞬で出す相棒」だ。聞いて、止めて、打って——あの消耗から人は解放された。残った仕事は、固有名詞を直し、伝わる改行を選び、世界に届ける言語を増やすこと。作業はAIに、仕上げはあなたに。その分担が、あなたの動画を、もっと遠くまで届ける。

FAQ

Q. AIで無料で字幕や書き起こしは作れますか?
A. できます。YouTubeの自動字幕はアップロードするだけで無料、Nottaなどにも実用的な無料枠があります。コマンドライン操作に抵抗がなければ、OpenAIのWhisperを使えば無料・高精度で、しかもローカル実行なので機密も守れます。大量・継続処理や高度な編集になると有料ツールが現実的です。

Q. AI字幕の精度はどのくらいですか?
A. クリーンな音声で90〜96%程度とされます(各社公表値・条件依存)。人手の書き起こし(99%超)には及びませんが、下書きとしては十分です。雑音・複数話者・強いなまり・専門用語があると精度は落ちるため、公開前の校正は必須です。

Q. SRTとVTT、どちらで書き出せばいいですか?
A. 迷ったらSRTです。YouTube・Vimeoや主要な動画編集ソフト(Premiere・Final Cut・DaVinci Resolve)など、ほぼ全てが対応する最も互換性の高い形式です。VTTはHTML5動画などWeb向けで、字幕のスタイル指定が柔軟な点が特徴です。

Q. 複数人のインタビューで「誰の発言か」を分けられますか?
A. はい。多くのツールが備える「話者分離(diarization)」機能で、AIが声を聞き分けて「Speaker 1」「Speaker 2」と自動ラベルします。エディタで実名にリネームすれば、読みやすい記事や議事録になります。DescriptやSonixなどが得意です。

Q. 多言語の字幕はどう作るのが効率的ですか?
A. まず原語(最も精度が高い言語)で字幕を完璧に仕上げ、その完成版SRTをAIで各言語へ翻訳するのが王道です。タイムコードを保持したまま中身だけ訳せます。商用・公式の素材は、各言語のネイティブが最終確認すると安心です。原語が雑だと誤りが全言語に伝播する点に注意してください。

Q. 他人のYouTube動画を書き起こして使ってもいいですか?
A. 注意が必要です。他人の動画・楽曲・放送をAIで書き起こして再配布するのは、著作権侵害になり得ます。自分が権利を持つ素材か、引用の範囲(出典明示・必要最小限)に収まるかを確認してください。私的な視聴メモの範囲を超えないことが大切です。

Q. 機密を含む音声を字幕化しても大丈夫ですか?
A. クラウドのAIにアップロードすると、音声が外部サーバーに送られます。社外秘や個人情報を含む素材は、会社のルールと各サービスのデータ取り扱い方針を確認してください。心配ならローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶのが安全です。