Google Pixel 10シリーズを中心でさらに注目度を集めた印象を受ける「ベンチマーク」ですが、スマホの「パフォーマンス」を調べる指標の一つであることに違いはないと思います。
一方で「ベンチマーク」で全てのパフォーマンスを計測できるわけではなく、Googleが力を入れている「AI」に関しては既存のベンチマークで計測することも出来ません。
同じ機種だと思えないスコア差。

まず上記の画像はXperia 1Ⅶの香港版を開封した初日に計測した結果となっています。

次に上記の画像はXperia 1Ⅶを比較レビューのために直近に計測した結果となっています。Androidのバージョンが直近の方ではAndroid16になっているとはいえ、スコアだけで見れば「80万点」近くの差があり、とても同じ機種のスコアだとは思えないです。
少なくともこの時点でベンチマークスコアを鵜呑みにするのは危険だと個人的には思っています。
変動幅が大きい。

改めて一枚目と二枚目の測定した時の主な違いをまとめると以下のようになります。
| 一枚目 | 二枚目 | |
| 開封してからの日数 | 初日 | 約半年 |
| AnTuTuのバージョン | 10 | 11 |
| 時期 | 初夏 | 秋 |
大きくスコア差が出た理由としてはAnTuTuのバージョンが更新されたことだと思います。従来と比較して最新のバージョンはレイトレーシングのスコアも加算されるようになったと言われており、スコアが全体的にプラスになります。
またベンチマークスコアは、計測する環境や端末の状態によっても影響を受けます。なので割と外気温が高くなってきている初夏の環境で開封初日に計測したよりも、開封から半年近く経過しており真冬直前の状態で計測するのではあれば全く状況が違います。
なのでネットで溢れているベンチマークスコアは、結局どのような状態で計測したのか分からないです。だからこそベンチマークスコアは不正確性が強いので鵜呑みするのは危険なのかなと思います。
散々批判されてきた。

だいぶ前の話になりますが、Xperia 1Ⅵが発売された当時ベンチマークスコアの低さからも、「ミドルレンジモデル並みのスコアしかないのに価格が20万円なんてありえない」みたいなコメントは散々もらいました。
もうXperia 1Ⅵが手元にないため計測することは出来ないですが、おそらく今のバージョンで計測すれば200万点近くのスコアを獲得すると思います。一方で面白い部分としては「200万点」前後になると、トップスコアの機種が300万点を超えていたとしても叩かれなくなることです。
なのでXperia 1Ⅵでみた場合もAntutuがVer.10であれば批判されるけど、Ver.11になると批判されなくなる可能性があります。ただAntutuにおけるスコアが例え改善したとしても実使用におけるパフォーマンスが別に改善するわけではありません。
Pixelも散々言われた。

またXperiaと関係ないですが、Google Pixel 10シリーズにおいて、「せめてベンチマークスコアが150万点を超えていたら買っていた」とのコメントも地味に頂きました。
AntutuがVer.10の時は110万点前後でしたが、Ver.11になったら140万点前後で、先日Google Tensor G4を搭載しているPixel 9aを計測したら150万点を超えており、直近でPixel 10シリーズのスコアを計測していませんが、仮に150万点を超えたら本当に買うのか?
繰り返しになりますが実使用の面でパフォーマンスは変わらないです。言い方は悪いかもしれませんが、ユーザーを騙す面ではベンチマークスコアは非常に優秀という感じで、一方でユーザーからすれば実使用のパフォーマンスとリンクしにくいことからも鵜呑みにするほど失敗する可能性があります。
仮に今後「AI」も計測することが可能になった場合にPixelのベンチマークは大幅に向上する可能性があります。ただ一方でゲームパフォーマンスは改善しない可能性があります。
そうなった時にベンチマークスコアを参考にする人ほど混乱しやすい状況が生まれるのかなと思います。
最適化主軸が正解。

Androidのフラッグシップモデルにとって暗黒時代だったともいえる「Snapdragon888」と「Snapdragon 8 Gen 1」ですが、このSoCが存在してくれたからこそスマホの発熱対策は一気に強化された印象を受けます。
一方でSonyは内部スペースの問題やコストの問題もあったのか、ハードで発熱対策をより強化するのではなく発熱の原因となっている「消費電力」を抑制するアルゴリズムの開発に注力した印象を受けます。
少なくともXperia 1Ⅳの時はアルゴリズムの完成度が低かったですが、今やかなり安定しています。ベンチマークスコアでみればトップスコアは他社より低いですが、最適化優先した結果発熱が抑制されており挙動は安定。
さらに電池持ちも歴代と比較すれば改善しており、ユーザビリティの改善に直結しています。少なくともベンチマーク重視ではなく最適化重視でチューニングしてほしいところで、Sonyとしてもベンチマークで競争してもユーザーにメリットがないと判断しているからこそ最適化を優先したのかなと思います。