さらに進化したマルチモーダルAIを使ってみた＜山梨知彦氏＞

さらに進化したマルチモーダルAIを使ってみた

2025.04.15

ArchiFuture's Eye　　　　　　　　　　　　　　　　　日建設計　山梨知彦

　　　　　　　　　　　図1

AIが、ものすごいスピードで進化していることを実感している。

僕はAIの専門家ではないが、生成AIの登場以降、仕事やプライベートの作業において積極的に
AIを取り入れてきたし、進歩の状況もそれなりに掴んでいるつもりだった。だが実際には、業
務が忙しくなるとAIから離れてしまう期間もあり、情報収集が追いつかないこともある。しか
し、そんな短い間にも生成AIの世界では目まぐるしく変化が起きており、わずか一か月前の
“常識”が、すでに過去のものになっていることも珍しくない。

――――――――――――――――――――――――――――――――――――――――――

「同じ」を保ちながら「少しだけ」変える難しさ
最近、「画像生成AIは設計実務で使えるか？」というテーマで短いエッセイを書く機会があっ
た。その中で僕は、「現在の画像生成AIは、全体は同じままにして、ほんの一部だけ変更する
ような繊細な操作を苦手としているため、初期のアイデア出しには役立つが、案を洗練する段
階では扱いにくい」と結論づけた。
画像生成AIを使った経験のある方ならご存じだと思うが、AIは同じ人物を少しだけ違うアング
ルで描く、といった作業が非常に苦手だ。わずかな変化を加えたつもりでも、人物そのものが
別人のように描かれてしまう。この「少し」の変化が、建築やデザインの精度においては致命
的な差となる。
デザインを洗練する過程では、「同じ構成のまま、ほんのわずかに変化を加える」というス
テップが欠かせない。だが、これまでの画像生成AIは、その点で非常に不安定なツールだった。
実際、多くのAI活用ガイドが「同じものに“少しだけ”変化を加える」ためのノウハウに焦点を
当てていることが、この難しさを物語っている。

――――――――――――――――――――――――――――――――――――――――――

定番ツールとしての文章生成AI、遅れを取っていた画像生成AI
現在、文章生成AIは僕の“定番ツール”となっている。一方で、画像生成AIは設計初期のイメー
ジスケッチの段階でしか使えず、洗練のプロセスでは使い物にならなかった。その大きな理由
が、前述の「わずかな変化が加えられない」という点にある。
さらに、プロンプト（指示文）の書き方によって画質や出力内容に大きな差が出るため、AIを
「誰でも使えるツール」にするはずが、いつの間にか一部の“プロンプトエンジニア”にしか扱
えないものになっていた。

――――――――――――――――――――――――――――――――――――――――――

新たな進化：再び使ってみて驚いたこと
最近、新たなプロジェクトがいくつか始まり、久しぶりに画像生成AIを本格的に使ってみたと
ころ、その進化に驚かされた。僕が「現在の生成AIは苦手だ」と決めつけていた、「同じ構成
のまま、ほんのわずかに変化を加える」ことや、「文章生成AIに遅れを取っていた画像生成AI」
という僕の指摘自体が、時代遅れになりつつあることに気が付いた。今、生成AIは下記の方向
に、ものすごいスピードで進化しているようだ。

① マルチモーダル化の進展
大きな変化の一つは、生成AIの「マルチモーダル化」だ。従来はテキストのみを理解していた
AIが、今ではテキスト・画像・音声など複数のモダリティを横断的に理解・処理できるように
なっている。ChatGPT Plusでは、テキストの生成に加え、画像の読み取り・生成、さらには
音声でのやり取りが統合された。実際に使ってみると、その連携のスムーズさに感動する。

② 音声会話の実用化
音声入力も劇的に進化している。以前は、AIが一方的に話し続けるため会話が成立しなかった
が、今ではこちらが話すとAIが話を止め、適切に聞き取って返答してくれる。認識率も高く、
まさに“AIと会話している”感覚が得られる。

③ 「少しだけ」の変化が可能に
そして、最大の驚きは、「同じ画像に少しだけ変化を加える」ことが、ついに実用的なレベル
に達している点だ。きちんとテキストで指示すれば、以前よりはるかに高精度で反映されるよ
うになった。

――――――――――――――――――――――――――――――――――――――――――

実験：丸の内の超高層ビルをAIで描く
実際に進んでいるプロジェクトは公開出来ないので、代わりに、丸の内に建つ超高層ビルの
イメージをAIに描かせてみた。使ったのは、ChatGPT Plusだ。
　1.トレーシングペーパーに描いたラフスケッチをスマートフォンで撮影し、AIに読み込ま
　　せた（図2）。

　　　　　　　　　　　　図2

　2.「この写真をもとに、丸の内に建つフォトリアルな超高層ビルのイメージを描いてくだ
　　さい」とテキストを音声で入力。AIは下記の画像を書き出した（図3）。

　　　　　　　　　　　図3

　3.出力された画像をもとに、「ファサードだけ、こちらの写真のように変更してください」
　　と追加指示。下記の写真を送った（図4）。

　　　　　図4

　　AIが描いたのは、下記の図だ（図5）。

　　　　　図5

　4.さらに、「木造のフレームはもっと繊細に。柱や梁は細く、ランダムさも加えてくださ
　　い」と注文。AIは、次の図を描いた（図6）。

　　　　　図6

　5.最後に、「構図はそのままで、夕方の光の中で、ビルの内部から電球色の光が漏れている
　　様子を描いてください」と指定した（文頭の図1）。

　6.完成した画像をPhotoshopで調整し、水彩画風に加工した（図7）。

　　　　　　　　　　　図7

作業時間は約40分。もう少し効率化できれば、実務にも使えるレベルに近づくかもしれないと
感じた。

――――――――――――――――――――――――――――――――――――――――――

AI時代に求められる建築家の資質
ここから感じたのは、AI時代の建築家に求められる資質の変化である。今後、絵を描くテク
ニックは重要でなくなるかもしれない。その代わり、数多くの候補から「これだ」と選び抜く
目、そして一枚の絵から完成建築を即座にイメージできる力こそが建築家に求められる。AIに
よって誰もが建築家になれるわけではなく、むしろセンスがこれまで以上に厳しく問われる時
代になるのではなかろうか。

山梨知彦氏

日建設計チーフデザインオフィサー

> 著者のコラム一覧

さらに進化したマルチモーダルAIを使ってみた

最新の記事