AIで動画・音声から字幕・書き起こしを作る方法

1. AIで字幕・書き起こしの「どこ」が自動化できるか
2. 字幕（SRT/VTT）と書き起こしの違い
3. 主要ツール比較
4. 実践：4ステップで字幕を作る
5. 用途別おすすめ
6. 精度を上げる6つのコツ
7. 多言語字幕の作り方
8. 落とし穴（過信・著作権・プライバシー）
まとめ
FAQ

1時間の動画に手で字幕を付ける——昔はこれだけで丸一日が消えた。聞いて、止めて、打って、タイムコードを合わせて、また巻き戻して。その地獄のような作業が、2026年のいまは 「動画を放り込んで数分待つだけ」で終わる。AIが音声を聞き取り、文字に起こし、タイムコード付きの字幕ファイル（SRT/VTT）まで吐き出してくれるからだ。

結論から言う。YouTube・ポッドキャスト・講義・インタビューなど、動画や音声を「字幕」や「全文の書き起こし」にしたいなら、AIツールに任せれば作業の大半が消える。クリーンな音声なら精度は90〜96%に達し（各社公表値・条件依存）、人手の書き起こし（99%超）には及ばないものの、下書きとしては十分すぎる。本記事は、自動化できる工程・字幕と書き起こしの違い・主要ツール比較・4ステップの実践手順・精度を上げるコツ・多言語字幕の作り方・落とし穴までを実践的に解説する。なお本記事は「動画/音声コンテンツの字幕・書き起こし」がテーマで、会議の議事録化（要約・ToDo抽出）は議事録自動化の記事に、画像内文字のテキスト化はOCRの記事に譲る。

AI 字幕・書き起こし

音声が、タイムコード付きの文字になる

— 聞いて打つ作業は、もういらない

🎙️ 動画・音声

AI
音声認識

→

00:00:01 → 00:00:04
こんにちは、本日のテーマは…

00:00:04 → 00:00:08
AIによる字幕作成です。

✅ SRT / VTT・全文テキスト・多言語

AIは音声を聞き取るだけでなく、「いつ・誰が・何を言ったか」をタイムコード付きで構造化する。

※本記事の精度・料金・対応言語は各社公表値および複数の比較メディア（2026年時点）に基づく引用で、最適条件下の数値を含む。実環境（雑音・専門用語・複数話者）では下がり得る。導入前に自分の素材で実測を推奨。

1. AIで字幕・書き起こしの「どこ」が自動化できるか

「AIで字幕」と一口に言うが、実は 4つの工程がある。どこまで任せるかでツールが変わる。

① 音声の抽出：動画から音声を取り出す（多くのツールは自動）。
② 文字起こし（transcription）：音声認識AIが発話を全文テキスト化。誰が話したかを分ける話者分離（diarization）も。
③ 字幕化（タイムコード付与）：テキストを「何秒〜何秒に表示」という単位に区切り、SRT/VTTなどの字幕ファイルに。
④ 翻訳・スタイル付け：多言語字幕への翻訳、フォント・位置・改行などの体裁調整。

従来は①〜④をすべて人が手作業でやっていた。2026年のAIは、この4工程をほぼ全部「下書きレベル」まで自動化できる。クリーンな音声なら精度は90〜96%に達する（各社公表値・条件依存）。AIは音声抽出〜字幕化の工程をほぼ自動化し、手作業の大半を肩代わりする。ただし——後述するように——出てきた字幕は「下書き」であって「完成品」ではない。固有名詞や専門用語の確認は、依然として人の仕事だ。

2. 字幕（SRT/VTT）と書き起こしの違い

始める前に、よく混同される2つの「出力」を区別しておこう。同じ音声認識から生まれるが、用途が違う。

字幕（SRT / VTT）

「何秒〜何秒に、この文を表示」というタイムコード付きのファイル。動画に重ねて使う。

用途：動画への字幕表示
SRT＝最も互換性が高い（YouTube・Premiere等ほぼ全対応）
VTT＝Web向け（HTML5動画など）

書き起こし（transcript）

タイムコードに縛られない「全文テキスト」。読む・検索する・要約するためのもの。

用途：記事化・議事録・検索・要約の素材
話者分離で「誰の発言か」も付けられる
出力：TXT・DOCX・Markdownなど

使い分けはシンプルだ。動画に字幕を載せたいならSRT/VTT、内容を読み物・記事・要約にしたいなら書き起こし(transcript)。多くのAIツールは両方を一度に書き出せる。迷ったら、まず汎用性の高いSRTで出しておけば、ほとんどの動画編集ソフトやプラットフォームで使い回せる。

3. 主要ツール比較

代表的なAI字幕・書き起こしツールを並べる。「動画編集まで一体でやりたいか」「無料で始めたいか」「多言語が要るか」で選ぶのがコツだ。精度の数値は各社公表値（最適条件下）で、実環境では変動する。

ツール	強み	出力・特徴	料金感
Whisper（OpenAI / OSS）	無料・高精度・多言語。ローカル実行で機密も守れる	SRT/VTT/TXT。コマンドライン操作が前提	無料（自前環境）
Descript	書き起こしを軸にした動画/音声編集。Podcast・YouTube向け	テキスト編集で動画を切る。話者分離も	無料枠あり／有料
Sonix	高精度をうたう（公表で最大99%・53言語超）。チーム・コンプラ重視	SRT/VTT、対話的エディタ	従量・サブスク
Happy Scribe	字幕編集に強い対話的エディタ。タイミング調整が楽	SRT/VTT/TXT/DOCX書き出し	従量・サブスク
Notta	個人・学生向けに使いやすい。無料枠が実用的	多言語、書き起こし中心	無料枠あり／有料
CapCut / 各種編集アプリ	スマホ/PCで撮影〜字幕焼き込みまで完結	自動字幕、スタイル装飾が豊富	無料〜有料
YouTube 自動字幕	アップロードするだけで自動生成。最手軽	YouTube内で編集・SRT書き出し可	無料

※ツール名・精度・料金・対応言語は2026年時点の公表値・概算。各社は頻繁に更新するため、最新は公式を確認のこと。多くは内部でWhisper系などの音声認識を使っている。

ざっくり言えば、無料で機密も守りたいならWhisper、Podcast/YouTubeを編集ごとやりたいならDescript、チームで高精度・多言語ならSonixやHappy Scribe、スマホでサクッとならCapCut、とにかく最手軽ならYouTube自動字幕。個人的には、まずYouTube自動字幕かNottaの無料枠で「AI字幕の速さ」を体感し、足りなくなったら専用ツールへ——という順がいちばん失敗しにくい。

4. 実践：4ステップで字幕を作る

ツールが違っても、基本の流れは共通だ。最も再現性の高い4ステップを示す。慣れれば1本5分かからない。

STEP 1 · 素材を用意

動画/音声ファイルを用意。雑音が少なく明瞭な音ほど精度が上がる

STEP 2 · 書き起こし

ツールにアップロード。言語を指定して文字起こし・話者分離を実行

STEP 3 · 校正

固有名詞・専門用語を確認。誤変換を一括置換し、改行・タイミングを整える

STEP 4 · 書き出し・付与

SRT/VTTで書き出し、動画にアップロード or 焼き込み

差が出るのは STEP 3 の校正だ。多くの人はAIの出力をそのまま使って、固有名詞の誤変換で恥をかく。逆に言えば、ここさえ丁寧にやれば、AI字幕は一気に実用品質になる。「全部自分で打つ」のではなく「AIの下書きを直す」——この発想が、作業時間を10分の1にする鍵だ。

5. 用途別おすすめ

やりたいこと	おすすめ	ひとことアドバイス
YouTube動画に字幕	YouTube自動字幕／CapCut	まず自動字幕で下書き→編集画面で誤変換だけ直すのが最速
ポッドキャストの字幕・書き起こし	Descript／quso系	話者分離が効く。テキスト編集で音声も一緒に整えられる
講義・セミナーの全文書き起こし	Notta／Whisper	長尺でも一括処理。固有名詞リストを先に用意
インタビュー（複数話者）	Descript／Sonix	話者分離で「誰の発言か」を自動ラベル。記事化が楽に
機密・社外秘の素材	Whisper（ローカル）	クラウドに上げず手元で処理。情報漏洩を防げる
多言語の字幕を付けたい	Sonix／Maestra系	原語で起こしてからAI翻訳。重要素材はネイティブ確認

迷ったら——まず無料ツールで1本作って「AI字幕の速さ」を体験し、編集まで一体でやりたい・多言語が要る・機密だ、といった壁にぶつかった時点で専用ツールへ切り替える。この順がいちばん遠回りしない。

6. 精度を上げる6つのコツ

同じAIでも、入力と下準備しだいで結果は驚くほど変わる。効果の大きい順に挙げる。

① 音質がすべての8割

マイクを近づけ、雑音・反響を減らす。クリアな音ほど精度が跳ね上がる。録り直しが最速の改善。

② 言語を正しく指定

自動検出に任せず、話者の言語を明示。英語混じりの日本語などは特に効く。

③ 固有名詞リストを先に作る

登場する社名・人名・専門用語を事前に列挙。対応ツールなら辞書登録で誤変換が激減。

④ 一括置換で誤りを直す

よくある誤変換は検索・置換でまとめて修正。自分用の「修正辞書」を育てると速くなる。

⑤ 話者分離を活用

複数人の素材は話者分離をオン。「Speaker 1」を実名にリネームすれば読みやすい記事に。

⑥ 1行の長さを整える

字幕は1行を短く（読める長さに）改行。長すぎる字幕は画面で読み切れない。

この中でも効くのは圧倒的に ①の音質だ。どんな高精度ツールでも、雑音まみれの音声からは正確な字幕は出てこない。「AIが間違える」と感じたら、まず録音環境を見直す。これだけで体感が変わる。

7. 多言語字幕の作り方

動画を世界に届けたいなら、多言語字幕は強力だ。だがやみくもに各言語へ直接起こすより、正しい順番がある。

🌍 多言語字幕の王道3ステップ

① 原語で正確に起こす：まず元の言語（最も精度が高い）でSRTを完成させ、校正まで終える

② AIで各言語へ翻訳：完成したSRTをAI翻訳。タイムコードは保持したまま中身だけ訳す

③ 重要素材はネイティブ確認：商用・公式は各言語のネイティブが最終チェック

ポイントは 「原語の字幕を先に完璧にする」こと。土台が雑なまま翻訳すると、誤りが全言語に伝播する。逆に原語が正確なら、AI翻訳でも実用的な多言語字幕が一気に作れる。ChatGPT/Claude/Geminiのような汎用AIにSRTを貼って翻訳させる手もあるが、字幕特化ツールならタイムコードを崩さず訳せて安全だ。

8. 落とし穴（過信・著作権・プライバシー）

便利な反面、AI字幕には定番の落とし穴がある。知っておけば9割は避けられる。

精度の過信：クリーンな音声でも90〜96%程度で、100%ではない。固有名詞・専門用語・同音異義語は特に間違える。公開前に必ず人が目視する。
雑音・なまり・専門用語に弱い：BGM、複数人の同時発話、強いアクセント、業界用語は精度が落ちる。録音環境と固有名詞リストで対策を。
著作権・権利：他人の動画・楽曲・放送をAIで書き起こして再配布するのは権利侵害になり得る。自分が権利を持つ素材か、引用の範囲かを確認。
機密・個人情報：クラウドのAIに音声を上げると外部送信になる。社外秘やプライバシーを含む素材は、ローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶ。
タイムコードのズレ：自動字幕は表示タイミングがずれることがある。長尺ほど後半でずれやすいので、要所を再生して確認する。

正直に言えば、AI字幕最大のリスクは「校正を飛ばして公開すること」だ。逆に言えば、「固有名詞を確認する」「公開前に通しで見る」——この2つの習慣さえ守れば、AI字幕は安心して武器になる。

まとめ

AIによる動画・音声の字幕/書き起こしは、2026年に「丸一日の作業を数分にする」レベルに達した。要点を整理する。

4工程を自動化: 音声抽出→書き起こし→字幕化（SRT/VTT）→翻訳・体裁。労力を大幅に削減。
字幕と書き起こしは別物: 動画に載せるならSRT/VTT、読み物・要約にするなら書き起こし(transcript)。
ツールは出口で選ぶ: 無料・機密ならWhisper、編集一体ならDescript、多言語・高精度ならSonix、最手軽ならYouTube自動字幕。
精度は音質が8割: クリアに録るのが最速の改善。固有名詞リストと一括置換も効く。
多言語は原語を先に完璧化: →AI翻訳→ネイティブ確認の順。
2つの習慣で事故防止: 固有名詞を確認／公開前に通しで見る。著作権・機密にも注意。

結局、AI字幕は「文字起こし職人」を置き換えるのではなく、「退屈な下書きを一瞬で出す相棒」だ。聞いて、止めて、打って——あの消耗から人は解放された。残った仕事は、固有名詞を直し、伝わる改行を選び、世界に届ける言語を増やすこと。作業はAIに、仕上げはあなたに。その分担が、あなたの動画を、もっと遠くまで届ける。

FAQ

Q. AIで無料で字幕や書き起こしは作れますか？
A. できます。YouTubeの自動字幕はアップロードするだけで無料、Nottaなどにも実用的な無料枠があります。コマンドライン操作に抵抗がなければ、OpenAIのWhisperを使えば無料・高精度で、しかもローカル実行なので機密も守れます。大量・継続処理や高度な編集になると有料ツールが現実的です。

Q. AI字幕の精度はどのくらいですか？
A. クリーンな音声で90〜96%程度とされます（各社公表値・条件依存）。人手の書き起こし（99%超）には及びませんが、下書きとしては十分です。雑音・複数話者・強いなまり・専門用語があると精度は落ちるため、公開前の校正は必須です。

Q. SRTとVTT、どちらで書き出せばいいですか？
A. 迷ったらSRTです。YouTube・Vimeoや主要な動画編集ソフト（Premiere・Final Cut・DaVinci Resolve）など、ほぼ全てが対応する最も互換性の高い形式です。VTTはHTML5動画などWeb向けで、字幕のスタイル指定が柔軟な点が特徴です。

Q. 複数人のインタビューで「誰の発言か」を分けられますか？
A. はい。多くのツールが備える「話者分離（diarization）」機能で、AIが声を聞き分けて「Speaker 1」「Speaker 2」と自動ラベルします。エディタで実名にリネームすれば、読みやすい記事や議事録になります。DescriptやSonixなどが得意です。

Q. 多言語の字幕はどう作るのが効率的ですか？
A. まず原語（最も精度が高い言語）で字幕を完璧に仕上げ、その完成版SRTをAIで各言語へ翻訳するのが王道です。タイムコードを保持したまま中身だけ訳せます。商用・公式の素材は、各言語のネイティブが最終確認すると安心です。原語が雑だと誤りが全言語に伝播する点に注意してください。

Q. 他人のYouTube動画を書き起こして使ってもいいですか？
A. 注意が必要です。他人の動画・楽曲・放送をAIで書き起こして再配布するのは、著作権侵害になり得ます。自分が権利を持つ素材か、引用の範囲（出典明示・必要最小限）に収まるかを確認してください。私的な視聴メモの範囲を超えないことが大切です。

Q. 機密を含む音声を字幕化しても大丈夫ですか？
A. クラウドのAIにアップロードすると、音声が外部サーバーに送られます。社外秘や個人情報を含む素材は、会社のルールと各サービスのデータ取り扱い方針を確認してください。心配ならローカル実行のWhisperや、入力を学習に使わない法人プランを選ぶのが安全です。

AIで動画・音声から字幕・書き起こしを作る方法——ツール比較・SRT/VTT・多言語字幕の実践ワークフロー

音声が、タイムコード付きの文字になる

1. AIで字幕・書き起こしの「どこ」が自動化できるか

2. 字幕（SRT/VTT）と書き起こしの違い

3. 主要ツール比較

4. 実践：4ステップで字幕を作る

5. 用途別おすすめ

6. 精度を上げる6つのコツ

7. 多言語字幕の作り方

8. 落とし穴（過信・著作権・プライバシー）

まとめ

FAQ

関連記事

ChatGPT・Claude・Geminiの知識カットオフ日一覧｜主要8モデルを最新比較

生成AIとは？従来のAIとの違いをわかりやすく解説

生成AIの得意なこと・苦手なこと｜できること・できないことを具体例で解説

LLM（大規模言語モデル）とは？仕組み・主要モデル・活用法をわかりやすく解説

コメント

コメントを投稿