ChatGPT o3, o4-miniで推論画像生成をさせてみたら、精度が圧倒的でした

ChatGPT o3, o4-miniは高度な推論能力をもつ

o3はo1よりも高度な推論能力をもち、コーディングや数学、科学、視覚認識のタスクを得意としています。

o4-miniはo3に比べて推論能力は劣りますが、より迅速な応答をするよう設計されています。

そしてo4-mini-highはo4に比べてコーディングと視覚認識を得意としているようです。

高度な推論能力が必要な独自ベンチマークをためす

以下のフリー素材を使って、単なる画像生成だけでなく推論能力も必要になってくるタスクを試してみたいとおもいます。 具体的には、「この道を上からドローンで撮影した場合の画像を生成してください」とプロンプトを叩きます。

00004021_7fb2bf


ChatGPT o3の結果

とても良い出力だと思います。

  • 手前のドアの開き方が似ている(両開きになっていないのは惜しい)
  • 看板の文字が再現されている
  • 光源の方向も概ね正しい
Screenshot 2025-04-20 at 18.58.31


ChatGPT o4-miniの結果

o3に比べて

  • 看板の文字が再現されていない
  • 手前のドアの開き方が微妙

と感じました。

Screenshot 2025-04-20 at 19.01.12


ChatGPT o4-mini-highの結果

評価はほぼo4-miniと変わりませんが、ドアが完全に締まりきってしまいました。

Screenshot 2025-04-20 at 19.04.51


Gemini 2.0 Flash(Image Generation)の結果

何度か試しましたが、思ったような画像は生成されませんでした。

Screenshot 2025-04-20 at 19.18.42


他のAIに比べてChatGPTの推論画像生成の精度は圧倒的

正直このテストだけで必ずしも性能を図れるとは思っていませんが、ぱっと見た感じChatGPTの画像生成精度は圧倒的だと感じました。といっても推論して画像生成できるモデルがそもそも少ないですが。

また、やはりo3のほうがo4-mini系よりも推論能力に優れているのか、手前のドアの開き方なども反映されていて、より精度が高いと感じました。