AIで「無料で」「精度99%」の文字起こし&記事化する方法

そう思ったので、無料で使えるAIを使って楽に文字起こしをするフローを作りました。(本記事は2025-02-15時点のものなので、将来料金の変更などはあるかもしれません。)

今回は英語のインタビュー音声から、日本語の記事を作成しました。

文字起こし

記事化

Geminiの2.0 Pro Experimentalはマルチモーダルな推論が可能なため、文字起こしとして利用し、その後の加工はChat GPT 4oにしてもらいました。

音源データはm4aでもwavでも良いですし、mp4などの動画でも良いです。

Geminiの1回の出力にある程度制限がある(長すぎると途中で回答が切れる可能性がある)ので、音声データが10分以内になるように切り分けます。

Geminiは動画も認識することができますが、視覚情報が必要ではないのならば、音声データだけにすることをおすすめします。

私が使用したプロンプトは以下のとおりです。

This dialog is about explaining what is Kubernetes. Please transcribe all the dialog with a timestamp.

(これはKubernetesについて説明している会話です。すべての内容をタイムスタンプと共に書き起こしてください。)

タイムスタンプは手動で変更が必要な場合を考慮して入れましたが、なくても問題ないです。

結果：

Please take out filler, time, etc. from the following conversation and transcribe it. You don't need to refine the content.

(以下の会話からフィラーや時間などを取り除いて書き起こしてください。内容を推敲する必要はありません。)

結果：

この段階で、英語の記事が完成します。

今回はインタビュー型式の記事なので、改めての記事化は行いませんでした。

もし記事フォーマットの指定がある場合は、この段階でChat GPTに書いてもらうと良いでしょう。

また、ここまでは日本語を挟まずに英語のみで進めるのが良いでしょう。

(英語プロンプト生成もChat GPTに任せちゃいましょう)

ここで日本語記事にします。

以下の記事の内容をそのまま日本語に訳してください。その際に、日本語の記事として適切な読み口にしてください。

これで日本語の記事の完成です。

これはまだ対応していないですが、将来的にはDifyなどのツールで複数のプロンプトを連鎖的に管理し、ボタン1つで音声→原稿→記事まで進めてくれるシステムを作ろうと考えています。