Magazine(マガジン)

コラム

AI・深層学習の準備コストを大幅減:
実在しない都市合成画像を自動生成

2023.10.26

パラメトリック・ボイス                大阪大学 福田 知弘

はじめに
都市景観のシミュレーションや分析を行うために、深層学習を応用した研究が行われていま
す。しかしながら、個々の建物まで着目した高精細なシミュレーションや分析事例は多くあ
りません。高性能な深層学習モデルを実行するためには大量の学習データが必要であり、そ
のデータセットを作成するコストの高さが課題です。
深層学習に用いるデタセットを人が手作業で作成する方法は、たくさんのコストがかかり、
ヒューマンエラーの懸念もあります。そのため近年では、仮想物体や3Dデジタルツインモ
デルと画像を組み合わせた、合成データ1) セット生成法が提案されています。しかし、既存
の方法は、実在する都市データを事前に用意する必要があることや、作成できるデータのバ
リエーションが有限であるという課題がありました。
 
現実らしい架空の都市画像とアノテーションのペア(=学習データ)を自動生成するフレー
ムワークの開発

そこで筆者らは現実的でありながら実在しない都市の3Dモデルを生成できるプロシジャ
ルモデリング2) と現実的な画像を生成できる深層学習の画像変換技術3) を統合して、建物を
個別検出するための合成データ自動生成法を開発しました。
図1は、プロシージャルモデリングと画像変換技術を用いて、大量の学習データを自動的に
生成する概要フローを示します。生成したい都市のパラメータを入力するだけで、学習デー
タを生成する基になる3D都市モデルが生成され、そのモデルをもとに大量の学習データが
生成されます。生成された大量の学習データを用いて深層学習モデルを学習させ、実世界の
画像から対象物を検出することが最終ゴールです。

 図1 提案方法の概要。プロシージャルモデリングを用いて現実らしい架空の3D都市モデルを
    自動生成し、ゲームエンジンと画像変換技術を用いて、現実らしい架空の都市画像とア
    ノテーションデータを自動生成し、これらを深層学習の学習データセットとする。学習
    された深層学習のインスタンスセグメンテーションモデル4)が現実世界の建物を個別に
    検出する。

 図1 提案方法の概要。プロシージャルモデリングを用いて現実らしい架空の3D都市モデルを
    自動生成し、ゲームエンジンと画像変換技術を用いて、現実らしい架空の都市画像とア
    ノテーションデータを自動生成し、これらを深層学習の学習データセットとする。学習
    された深層学習のインスタンスセグメンテーションモデル4)が現実世界の建物を個別に
    検出する。


もう少し具体的に説明します。図2は、設定した入力パラメータに対する、各ステップでの
生成結果の一例を示しています。Step 1では3D都市モデルを自動生成するために都市の特
徴を定めるパラメータを入力します。Step 2ではStep 1で生成した3D都市モデルと画像サ
イズなどの設定を入力し、ゲームエンジン上でアノテーションデータ5) とStep 3で景観画
像データを生成するために必要なセグメンテーション画像のペアを生成します。Step 3で
は画像変換技術を用いてStep 2で生成したセグメンテーション画像を現実らしい景観画像
に変換します。そして、Step 4でアノテーションデータと景観画像を関連付けます。

 図2 開発したフレームワークにおいて、各ステップで生成されるデータ。左列:本研究で使用
 したパラメータ項目とその設定値の例。右列:設定したパラメータをもとに生成されたデータ
 の例。

 図2 開発したフレームワークにおいて、各ステップで生成されるデータ。左列:本研究で使用
 したパラメータ項目とその設定値の例。右列:設定したパラメータをもとに生成されたデータ
 の例。


実世界の建物を一定条件下で正確に検出
図3は、提案したフレームワークを用いて開発したプロトタイプシステムで合成データセッ
トを生成し、それを学習したインスタンスセグメンテーションモデルを用いて建物を個別検
出した結果を含んでいます図3・2行目は筆者らが提案した方法で生成したデータセットを
用いて学習したインスタンスセグメンテーションモデルによる現実世界の検出結果であり、
従来法である現実世界の画像を手作業により作成したデータセットで学習したモデル(図3・
3行目)と同程度、もしくは、より優れた検出結果を得られたことを確認しました。

 図3 提案方法で生成したデータセットを用いて学習したモデル(2行目)と、現実画像を用い
 て学習したモデル(3行目)の検出精度の比較。赤破線は現実画像で学習したモデルより優れた
 結果が得られた領域を示す。現実画像で学習したモデルと同程度、もしくは、より優れた結果を
 得ることが可能であることが示された。

 図3 提案方法で生成したデータセットを用いて学習したモデル(2行目)と、現実画像を用い
 て学習したモデル(3行目)の検出精度の比較。赤破線は現実画像で学習したモデルより優れた
 結果が得られた領域を示す。現実画像で学習したモデルと同程度、もしくは、より優れた結果を
 得ることが可能であることが示された。



まとめ:深層学習モデルの学習データ不足の解決に貢献
AIの性能や期待される精度が向上するにつれて、学習に必要なデータセットの規模は大き
くなる傾向があります。一方、データセットの規模が大きくなるにつれて、データセットを
作成するためにかかるコストが増え、学習に用いるデータの不足が予想されています。
本稿で紹介した方法は、データセットの準備コストを大幅に削減できるとともに、都市景観
のような複雑な構造を内包する画像を対象とする場合でも、現実らしいが架空の都市モデル
を用いた合成データを適用できることを示唆しています。これは、都市景観分野に限らず、
AIの活用が期待される他の分野にも適用可能なアプローチであると考えています。

この研究成果は、学術雑誌「Advanced Engineering Informatics(Elsevier社)」に掲載
されました *1。
また、2023年9月21日に大阪大学よりプレスリリースしました *2。
 
用語の説明
1) 合成データ:コンピュータシミュレーションや現実に基づくアルゴリズムを用いて、も
  しくはゼロから人工的に生成されたデータ。
2) プロシージャルモデリング(手続き型モデリング):手続き(ルール、数式、処理など
  の組み合わせ)により3Dモデルやテクスチャを生成するための方法。
3) 深層学習による画像変換技術:入力された画像の構図を維持したまま、異なるスタイル
  の画像に変換・生成する技術。
4) インスタンスセグメンテーションモデル:画像中の物体にクラスラベルと一意のIDを割
  り当て、同じクラス属する異なるオブジェクトを区別することができる。
5) アノテーションデータ:学習画像中にどんな物体がどの位置に存在しているかを示した
  データ。深層学習モデルはこのデータを参照し学習を行う。
 
参考文献
*1 Kikuchi, T., Fukuda, T., Yabuki, N. (2023). Development of a synthetic dataset generation method for deep learning of real urban landscapes using a 3D model of
a non-existing realistic city, Advanced Engineering Informatics, 58, 102154.

*2 \AI・深層学習の準備コストを大幅減/ 実在しない都市画像の合成データセットを自動
生成:実世界の建物を一定条件下で正確に検出(大阪大学 ResOU(リソウ)・プレスリ
リース)

 

福田 知弘 氏

大阪大学 大学院工学研究科 環境エネルギー工学専攻 准教授