「無料で、高精度で、多言語で、楽な」文字起こしをしたい
そう思ったので、無料で使えるAIを使って楽に文字起こしをするフローを作りました。(本記事は2025-02-15時点のものなので、将来料金の変更などはあるかもしれません。)
今回は英語のインタビュー音声から、日本語の記事を作成しました。
0. 使用AI
文字起こし
- Gemini 2.0 Pro Experimental 02-05
記事化
- Chat GPT 4o
Geminiの2.0 Pro Experimentalはマルチモーダルな推論が可能なため、文字起こしとして利用し、その後の加工はChat GPT 4oにしてもらいました。
1. 音声データを用意する
音源データはm4aでもwavでも良いですし、mp4などの動画でも良いです。
2. 音声データを加工する
Geminiの1回の出力にある程度制限がある(長すぎると途中で回答が切れる可能性がある)ので、音声データが10分以内になるように切り分けます。
Geminiは動画も認識することができますが、視覚情報が必要ではないのならば、音声データだけにすることをおすすめします。
3. Geminiに文字起こししてもらう
私が使用したプロンプトは以下のとおりです。
This dialog is about explaining what is Kubernetes. Please transcribe all the dialog with a timestamp.
(これはKubernetesについて説明している会話です。すべての内容をタイムスタンプと共に書き起こしてください。)
タイムスタンプは手動で変更が必要な場合を考慮して入れましたが、なくても問題ないです。
結果:

4. Chat GPTで「えー」「Um…」を除去する
Please take out filler, time, etc. from the following conversation and transcribe it. You don't need to refine the content.
(以下の会話からフィラーや時間などを取り除いて書き起こしてください。内容を推敲する必要はありません。)
結果:

5. Chat GPTで記事にしてもらう
この段階で、英語の記事が完成します。
今回はインタビュー型式の記事なので、改めての記事化は行いませんでした。
もし記事フォーマットの指定がある場合は、この段階でChat GPTに書いてもらうと良いでしょう。
また、ここまでは日本語を挟まずに英語のみで進めるのが良いでしょう。
(英語プロンプト生成もChat GPTに任せちゃいましょう)
6. 記事を日本語訳する
ここで日本語記事にします。
以下の記事の内容をそのまま日本語に訳してください。その際に、日本語の記事として適切な読み口にしてください。
これで日本語の記事の完成です。

応用:Difyなどでプロンプトを自動化
これはまだ対応していないですが、将来的にはDifyなどのツールで複数のプロンプトを連鎖的に管理し、ボタン1つで音声→原稿→記事まで進めてくれるシステムを作ろうと考えています。