ChatGPT o3, o4-miniは高度な推論能力をもつ
o3はo1よりも高度な推論能力をもち、コーディングや数学、科学、視覚認識のタスクを得意としています。
o4-miniはo3に比べて推論能力は劣りますが、より迅速な応答をするよう設計されています。
そしてo4-mini-highはo4に比べてコーディングと視覚認識を得意としているようです。
高度な推論能力が必要な独自ベンチマークをためす
以下のフリー素材を使って、単なる画像生成だけでなく推論能力も必要になってくるタスクを試してみたいとおもいます。 具体的には、「この道を上からドローンで撮影した場合の画像を生成してください」とプロンプトを叩きます。

ChatGPT o3の結果
とても良い出力だと思います。
- 手前のドアの開き方が似ている(両開きになっていないのは惜しい)
- 看板の文字が再現されている
- 光源の方向も概ね正しい

ChatGPT o4-miniの結果
o3に比べて
- 看板の文字が再現されていない
- 手前のドアの開き方が微妙
と感じました。

ChatGPT o4-mini-highの結果
評価はほぼo4-miniと変わりませんが、ドアが完全に締まりきってしまいました。

Gemini 2.0 Flash(Image Generation)の結果
何度か試しましたが、思ったような画像は生成されませんでした。

他のAIに比べてChatGPTの推論画像生成の精度は圧倒的
正直このテストだけで必ずしも性能を図れるとは思っていませんが、ぱっと見た感じChatGPTの画像生成精度は圧倒的だと感じました。といっても推論して画像生成できるモデルがそもそも少ないですが。
また、やはりo3のほうがo4-mini系よりも推論能力に優れているのか、手前のドアの開き方なども反映されていて、より精度が高いと感じました。