生成AIとMR:3Dモデルの水面反射リアルタイム
レンダリング
2024.05.23
パラメトリック・ボイス 大阪大学 福田 知弘
現実世界の水面に対する3Dモデルの反射をMR表現できないか
MRでは一般に、3Dモデル(バーチャルオブジェクト)は現実世界の中に単に配置されるだけ
であり、3Dモデルの周辺にある現実世界との関係を正確に表現できていないことがあります。
例えば、現実の水面やガラスなどに対する3Dモデルの反射表現が不十分であるために、湖畔
に新たなランドスケープデザインを施す場合に、新たに配置しようとする樹木やパラソ
ル(=3Dモデル)が、MRでは現実世界の湖に写り込まず、デザイナーが提案しているランド
ケープの魅力がクライアントや市民に伝わらないかもしません。
そこで筆者らは以前、水面上の仮想物体の反射をレンダリングするためにリアルタイムレイト
レーシングを統合したMRを開発しました *1。この方法では、レイトレースされた3Dモデルの
鏡像表現に透明度を適用することで、水面への反射を表現していますが、現実世界の水面の揺
れを考慮できていません。コンピュータが現実世界の波の状態を詳細かつリアルタイムに理解
することは、難しい問題です。
そこで、水面反射をよりリアルに表現可能なMRの開発を目指します *2。アルゴリズムとして、
MR画面での水面の領域をセマンティックセグメンテーションにより検出した上で、水面領域
に対して3Dオブジェクトの反射をリアルタイムレンダリングします。その際、現実世界に重
ねる3Dオブジェクトの鏡像表現には、GAN(敵対的生成ネットワーク)ベースのスタイル変
換を適用し、水面に反射しているかのようなスタイルに変換します。
水面反射のリアルタイムレンダリングフロー
提案する方法のフローチャートを図1に示します。
まず、前処理では、(1) データセットを作成し、これを使ってGANモデルをトレーニングしま
す。ここでは、水面の反射を含むデータセットを大量に作成します。
次にMR実行時には、(2) ウェブカメラで現実世界のシーンを取得し、(3) ゲームエンジン内
でカメラの位置と姿勢を推定します。今回はマーカーを使用して3Dモデルの位置と姿勢を決
定します。そして、(4) 3Dモデルとその鏡像をそれぞれレンダリングします。次に、(5) 学習
済みGANを使用して、鏡像のレンダリング結果を水面の見た目に似たスタイルに変換します。
このステップでは、反射エリア周辺にのみGAN処理を適用し、ぼかしを適用して境界を滑らか
にします。そして、(6) セマンティックセグメンテーションを使用して水面を検出し、(7) 合
成処理を行います。最後に、(8) 出力を表示します。
これにより、リアルタイムで実行可能な水面反射のレンダリングプロセスが確立できます。
プロトタイプシステムの構築と検証
上述のフローを実装したプロトタイプシステムは、Transformerに基づくセマンティックセグ
メンテーション *3により高い精度と計算効率で水面領域を検出し、DCLGAN *4により反射す
る3Dモデルの鏡像を水面のスタイルに変換します。
開発したシステムでは、Train A(仮想オブジェクトの鏡像付き画像)とTrain B(水面の画像)
にそれぞれ600枚の画像を用意しました。画像サイズは300×300ピクセルです。開発環境は
2つのサーバPCとモバイルデバイスを使用し、それぞれが異なる役割を果たします。
モバイルデバイスは現場でMRを体験するために使用し、高性能サーバPCはディープラーニン
グの処理に使用します。処理手順では、WebRTCを介してモバイルデバイスとサーバPCを接
続し、シーンのキャプチャ、オブジェクトの重ね合わせ、セマンティックセグメンテーショ
ン、GAN処理などが実行されます。
水面反射レンダリングの妥当性検証のために、現実のモデルと仮想モデルの類似性を定量的に
評価しました。PSNR(ピーク信号対雑音比)を使用してMR出力の信憑性を検証し、正解画像
との類似性を計算しました。次に、現実世界の水面に対して現場検証を実施しました(図2)。
これらの検証により、提案方法の有効性を確認しました。
まとめ
これまでのMRでは3Dモデルの水面反射を表現できず、将来景観の正確な表現に課題がありま
した。筆者らの以前の研究 *1 ではリアルタイムレイトレーシングを使用して反射を処理して
いましたが、現実世界の水面の状態が十分に考慮できていないフレームワークでした。そこで
GANを活用し、水面反射をもっともらしくリアルタイムレンダリングするMRを開発しまし
た*2。
プロトタイプシステムの精度と処理速度を検証し、GAN処理によるMR出力の正確性を確認し
ました。現地検証では6.28 fps(frames per second)での実行速度と0.89秒の遅延時間を確
認しました。この遅延は、MRの時間的整合性に関する課題です。MR画面での現実世界と反射
を含む3Dモデルの整合性は確保できているものの、MR画面は現実世界からは0.89秒遅れた映
像が描かれています。
このような、3Dモデルの周辺にある現実世界との関係を考慮したMRはまだ取り組む余地が
残っていると感じています。
*1 Chen, H., Fukuda, T., Yabuki, N. (2022). Developing an augmented reality system
with real-time reflection for landscape design visualization: Using real-time ray tracing technique, Proceedings of the 27th International Conference of the Association for Computer-Aided Architectural Design Research in Asia (CAADRIA 2022), Vol. 1,
89–98.
*2 Shirahase, T., Fukuda, T., Yabuki, N. (2023). Developing a Mixed-Reality System
with Reflection Rendering of Virtual Objects Using Generative Adversarial Networks, Proceedings of the 41st Conference on Education and Research in Computer Aided Architectural Design in Europe (eCAADe 2023), Vol. 2, 853–862.
*3 Strudel, R., Garcia, R., Laptev, I., & Schmid, C. (2021). Segmenter: Transformer
for semantic segmentation. in 2021 IEEE/CVF International Conference on Computer
Vision (ICCV), Montreal, QC, Canada, 2021 pp. 7242–7252.
*4 Han, J., Shoeiby, M., Petersson, L., & Armin, M. A. (2021). Dual contrastive
learning for unsupervised image-to-image translation. in 2021 IEEE/CVF Conference
on Computer Vision and Pattern Recognition Workshops (CVPRW), Nashville, TN, USA, 2021 pp. 746–755.