Magazine(マガジン)

コラム

画像生成AIをどう使っていくか

2024.01.11

ArchiFuture's Eye                 日建設計 山梨知彦

「2023年は、生成AI元年だった。」のだろうか?

生成AIは、22年の後半に突如として僕らの目の前に現れ、先ずは「新しいモノ好き」が飛び
ついた。僕もその一人だ。そして僕自身23年の初頭からは繰り返し、「2023年は、生成AI元
年となる。」と言ってきた。実際に23年は、予想を遥かに超える広い分野で生成AIに対する
賛否両論が巻き起こり大論争となった。そして23年後半には、世の中の大勢は、このブラッ
クボックスを恐れつつも、使わざるを得ない代物と捉える状況になった。
特に、人手不足と作業プロセスの効率化を足元の喫緊な課題として抱えるビジネスセグメント
この一年間で生成AIに対する姿勢を大きく変えた今年はカーボンニュートラルと並び、
生成AIを利用したビジネスの開拓もしくは生成AIを利用したビジネスプロセスの改革を目標と
して掲げている企業であふれているに違いない。2023年は生成AI元年で、2024年は生成AIの
一般化の年になるだろうという考えが、世の中のトレンドといってよさそうだ。

しかしこの僅か一年で生成AIが世の中にもたらした状況を振り返ってみると、23年の状況は、
元年というよりは「流行」という言葉のほうがぴったりと来る気がする。
生成AIがこの一年で世の中を席巻する状況は、ちょっと古い例えになるが、Beatlesの「大流
行」を思い起こさせる。1960年代初頭にデビューしたリバプール出身の4人組が「流行」し、
あっという間に世界中の少女を魅了し狂乱させ、同時に世界中の大人を困惑させたが、60年
代後半には4人はアイドルとなった。その時代は、その現象を「大流行」と呼んだ。ただし単
なる流行に終わるのではなく、解散後もポップミュージック自体やその位置づけまでも大き
く変え、真の「大流行」として今日もなお語り継がれてきたのは、Beatlesがその後期の活動
で実践したポップミュージックの大変革があてのことだと思っているこれまでもサブカル
チャゆえの軽さに乗り極めて短い期間の中で数多くの「流行」が発生しただが「大流行」
として後の時代まで語り継がれるためには、「流行」に留まることなく同時に社会を揺さぶる
変革ももたらす必要があるのだと理解している。

わずか1年間で、生成AIは誰もが知る存在になった。このスピード感は、これまでの技術の拡
散・一般化とは全く異なっている。むしろBeatlesをはじめとするサブカルチャーの流行が広
がる状況やノリに酷似している気がしてならない。同時代に生きる僕らには、生成系AIは時代
を大きく変えるものとして「大流行」しているように見えている。だが冷静に状況を見てみれ
ば、話題が先行し、可能性に大きな期待が寄せられている一方で、具体的な実践はまだまだ乏
しいのが実情ではないか。
こんな思いに至り、僕は改めて、2023年を「生成AIの流行の年」と位置づけたいと、思って
いるそして2024年の生成AI の最大のテーマは23年の流行を実装実践の年と位置付け、
社会課題の解決につなげて世の中を変革し、パラダイムシフトをもたらし、生成AIを後の時代
まで「大流行」させた時代として記憶される年にする必要があるのではないかと考えている。
単なる流行に終わらしてしまっては、生成AIはビジネス界からもすぐに見放されて、忘れられ
てしまうだろう。生成AIの将来は、これからの人類の努力に大きく委ねられているのではなか
ろうか。
とはいえ、時代を動かすような生成AIの発明や、利用法の発見は、一部の天才の手に委ねられ
ていて、僕ら凡人の出番はないのではないかとのご意見もあるに違いない。しかし、まれなる
大流行が生まれそうな時代に遭遇したからには、発明は担えなくても、アーリーアダプターと
なって大流行を支える側にはなりえるだろう。実際にポップミュージックを変革してきたのは、Beatlesにはなれなかったマニアたちの中から現れた多くのミュージシャンの連鎖反応による
ものだったのだから。

そんなわけで、建築デザイン分野での生成AIのアーリーアダプターを目指し、生成AIを如何に
使い、新しいデザインの発明や社会課題の解決に向かって使えるのかを、ここから数回にわ
たって僕なりに考えてみたいと思っている。年寄りの冷や水かもしれませんが(笑)。

■画像生成AIを使ってみる
第一回目の今回は、特に「画像生成AI」と呼ばれている、「言葉から二次元の画像を生成する
AI」について、実際に画像を生成しながら、考えてみることにしたい。実際に既に画像生成系
AIを使っている方々には当たり前の話であるので、読み飛ばしていただければと思っている。

先ずはまだ画像生成AIを使ったことがない方試しに使いたいと思っている方を対象にして、
僕自身が現時点で「一番簡単な画像生成AIの使い方」と思っている使い方を、紹介したいと思
う。自分自身で使っていただき、「今すぐにでも何に使えそうか?」、「ひょっとして数年後
にはこんなことに使えるかも?」、将来的にはこんなことが出来るといいのだが?」などと考
えていただけたらと思っている。

■代表的な画像生成AIについて
現在僕らが使える画像生成AIの中でも僕が勝手に「代表的」だと思っているものとその特徴を
リストアップしてみよう。
1)Stable Diffusion
  高品質、使用料無料、商用利用可能、別途インターフェイスとなるソフトウエア(WebUI、 
  model、VAEなど)の導入が必要なのでセットアップがやや難
2)Midjourney
  高品質使用料有料商用利用可能別途インターフェイスとなるソフトウエア(Discord)
  の導入が必要なのでセットアップがやや難
3)DALL·E 3
  高品質、使用料有料、商用利用可能、ウェブブラウザから直接利用可能なのでセットアッ
  プが容易。ChatGPTを開発したOpenAIが開発した画像生成のため、ChatGPT Plus(有料)
  を利用している方は使用可能

他にもAdobe FireflyやBing Image Creatorなどもあるが、画像生成AIの現状を感じるには、
最初に挙げた3つから1つを選び、導入することをお勧めする。
もっとも導入が簡単なのは、DALL·E 3(Bingから使えるBing Image Creatorで使えるのは
DALL·E 2である)だ。月20ドルの出費が必要だが、EdgeやChromeなどのウェブブラウザさ
え使えれば、どこからでも画像生成が出来る気楽さが良い。操作や、一度生成した画像に変更
を加える作業も、DALL·E 3であれば簡単だ。したがってここではDALL·E 3を取り上げ、具体
的な使い方を説明したいと思う。

■DALL·E 3のセットアップ
ChromeなどのウェッブブラウザからChatGPTのサイトにアクセスし、ChatGPT Plusを申し
込む。使用料は月に20ドル、日本円で3,000円弱。ウェブで上記サイトにアクセスすると、左
側にメニューが現れ、DALL·EのアイコンをクリックすればDALL·E 3が使える。ただし、この
セットアップの手順は変わる可能性があるので、詳細は画面のメッセージを頼りに進めてほし
い。

■DALL·E 3を使って年賀状の図版を作ってみよう
まず最初に年賀状に使う龍の絵を描いてみよう実際に僕自身が使うために描いてみたのが、
この2枚の画像だ(図01、02)。画像を生成するのに数分、その後のPhotoshop作業を加えて
も、2枚の画像を完成させるのに要した時間は30分以内だと思う。

 図01                        図02

 図01                        図02


以下に、その手順を再現してみよう。

1)画面最下段のボックス内に、日本語で、次のように打ち込んでみよう。いわゆるプロンプ
  トというやつだ生成AIを操る呪文のように言われこれの専門家であるプロンプトエンジ
  ニアも登場しているといわれているが、ここではあまり気にせず、かつ日本語で打ち込ん
  でみよう。
 「年賀状用のグラフィックイメージを作りたいと思います。墨絵風の表現で、雲海の間を舞
  い上がる龍を描いてください。」
  僕の数秒で次の絵が生成された(図03、図04)。

 図03                     図04

 図03                     図04


  これで十分なクオリティだとも思ったが、修正を加えてみよう。
  あえて
2)ボックスに次のように打ち込んでみよう。
  「絵の主題を龍から、西洋風のドラゴンに変更してください。表現や構図は現状のままで
  描いてください。」
  たった数秒で、見事に、龍に翼が描き加えられ、ドラゴン風になった(図05)。

 図05

 図05


その一方で「表現や構図は現状のまま」とお願いしたにもかかわらず、若干変わっている。生
成AI側が一枚ごとに生成のベースとなるシード値を変えること優先しているためだろうか、
「現状のままで」という指示に沿うことが極めて苦手であることがわかる。これは生成AIに共
通する特徴だ。
実際に絵を描き、気に入った絵に仕上げるためには、修正指示を出して、何度も何度も生成し
直す「追加変更」のプロセスが頻発する実は現状の画像生成AIはこの「追加変更」が難しい。
ところがDALL·E 3は、ここで例示したように、追加変更が加えやすい。プロンプトのコツな
ど気にしないで、自然言語で追加変更を加えることを繰り返して、思い描いているイメージに
画像を近づけていくことが出来る。
こんなやり取りを数回繰り返していく中で、好みの画像が出来た。

3)仕上げ作業として、画像の画素数をPhotoshopのフィルター/ニューラルフィルター/スー
  パーズームで画素数を増やし、エフェクトを加え、完成。ここまでわずか10分足らず(図  
  06)。

 図06

 図06


少なくとも年賀状レベルの画像作成作業においては、画像生成AIは、実用レベルになっている
といえそうである(笑)。 提案書や企画書、パワーポイントにちょっと力を入れたイラストを
加えたいときにも使えるだろう。

■DALL·E 3でイメージ写真を生成する
デザインの初期に、デザインの方向性をチームメンバーやクライアントと共有することは、有
効である。これまでは、ラフスケッチやイメージ写真が使われてきた。ところがイメージ写真
については著作権の厳格化などの動きもあり安易にウェブや雑誌から引用するは出来ない/
すべきでない時代になった。著作権フリーの写真も存在するが、クオリティが今一つである
何よりも膨大なストックからイメージに合ったものを探す手間がばかにならないしかし、
画像生成系AIを使えば、デザインの初期に言葉から画像を紡ぎだし、イメージ写真やラフス
ケッチを補う、新たなツールとして使えそうだ。

ここでは突然であるが、山小屋の設計依頼が来たと想定する。メインのダイニングテーブルの
イメージをクライアントと共有するため、ラフスケッチをDALL·E 3でひねり出してみよう。

1)次のプロンプトをとりあえずボックスにインプットしてみた。
  「山小屋的空間、大きな木テーブル、そこに集いハンドメイドのパンとチーズとハムで、
  楽しそうに食事をする人々をフォトリアルなタッチで描いてください。」
  数秒で、次のような画像が生成された(図07)。

 図07

 図07


2)イメージが違ったので、次の修正指示を出した。
  「もっとクローズアップして、人々の表情が見える距離から描いてください。」
  同じく数秒で、次の図が生成された(図08)。

 図08

 図08


3)雰囲気はOKだが、もっと写真のような画像にしたいと思った。後は年賀状の場合と同様
  に、DALL·E 3上で「追加変更」を繰り返していけばよい。しかしここでは、DALL·E 3で生
  成した画像データをStable Diffusionに持ち込み、再加工してみた。このように、
  DALL·E 3の特徴である「追加変更」の容易さを使って概略のイメージを固め、Stable
  diffusionなど画質を追及しやすい生成AIで後処理をするといった、画像生成AI毎の特性に
  合わせて使い分けるのも賢い選択かもしれない(図09)。

 図09

 図09


■DALL·E 3でプランニング
現状の画像生成AIでは、2次元画像から人間が読み取るキーワードについて推論し、それをも
とに画像を生成することは可能であるが、平面図、断面図、立面図などから建築デザインの意
図や三次元空間を読み取ることは未だに出来ていないようである。したがって、3次元空間を
きちっと整合が取れたプランニングを生成することは、残念ながら難しいと思われる。三次元
空間生成AIの登場を期待したい。
ここでは、無理を承知で、現在のDALL·E 3でプランニングにトライしてみて、どんな結果と
なるかを見てみた。題材は「夫婦二人で使う、海辺に建つ小さな別荘」とした。

1)最初のプロンプトとして、題材をそのままシンプルに入力してみた。
  「夫婦二人で使う、海辺に建つ小さな別荘の平面図を描けますか?」
  生成されてきたのが次の図だ一見それらしく描かれているが平面図ではなく上から俯瞰
  した透視図である。ダブルベッドが2組描かれているなど、プランニングにもおかしなとこ
  ろがある(図10、図11)。

 図10                     図11

 図10                     図11


2)特にキッチンが個室として独立している点が気に入らなかったので、次のような指示をし
  て、プランニングの修正を図った。
  「全体を極力ワンルームとして、小部屋は必要最小限にする」
  次の絵が生成されたものだ(図12、図13)。生成するものは複雑になったが、作業時間は
  年賀状と変わらない。

 図12                     図13

 図12                     図13


3)さらに、数回、同種の細かな「追加変更」を加えて、たどり着いたのが下記の図である。
  わずか数分の作業である(図14)。

 図14

 図14


4)当初予想していたものとは異なるが、美しい絵が出来たので、全体のイメージをこの方向
  でまとめたいと考えた。
  まずこの絵が、DALL·E 3内部ではどのようなプロンプトで描かれているのか知るために
  DALL·E 3に次のような指示をしてみた。
 「この絵を描くのに使用したプロンプトを提示できますか?」

5)DALL·E 3は、次のようなプロンプトを書きだした。
  "A CG rendering of a larger, horizontally extended over-water residential cottage,
  designed for a couple, with added features. The cottage should be more spacious,  
  stretching out horizontally over the water. Lower the floor level to be closer to the
  water surface, enhancing the connection with the sea. Include a man and
  a woman on the enlarged balcony, which should also be extended to match the  
  increased size of the cottage. Add a small boat near the cottage, maintaining the
  recreational theme. The cottage remains supported by slender square-column
  stilts, with large sliding glass doors and white plaster walls for a modern, luxurious
  look. The scene should convey a sense of expansive, serene living over the water."

6)上記のプロンプトをStable Diffusionに持ち込み新たに描いてみたのが次の絵だ(図15)。

     図15

     図15


7)今一つインパクトに欠ける気がしたので、Stable Diffusion上でこの絵のプロンプトを出
  力し、再びDALL·E 3にインプットし、生成し直してみた(図16、図17)。

 図16                    図17

 図16                    図17


このように現状の画像生成AIでは、直接平面計画などを詳細にプランニングできているわけで
はないが、現状の画像生成AIでも、デザインプロセスにおいて参考やコミュニケションツール
として、事前に想像していた以上に、デザインのヒントを与えてくれるツールになりそうな予
感を受けた。

次回以降は、これらの実験から得られた感触をもとに、生成AI、特に画像系生成AIを、今すぐ
にでも何に使えそうか?ひょっとして数年後にはこんなことに使えるかも?将来的にはこんな
ことが出来るといいのだが?などについて考えていきたい。 

山梨 知彦 氏

日建設計 チーフデザインオフィサー 常務執行役員