Magazine(マガジン)

コラム

ドローン×ARと深度推定による都市可視化

2026.05.07

パラメトリック・ボイス                大阪大学 福田 知弘

はじめに:空からの都市可視化の可能性と課題
近年、ドローン(UAV)と拡張現実(AR)を組み合わせた都市可視化技術が注目されていま
す。上空からの視点で、計画中の建物や都市空間を現実環境に重ねて確認できるため、合意形
成や景観検討に有効な手段として期待されています。
しかし実務においては「仮想建物が現実の建物の前後関係を正しく反映しない」という課題
すなわちオクルージン(遮蔽)処理の難しさが大きな障壁となっています。従来は3D都市モ
デルやセマンティック情報に依存する方法が主流でしたがこれらは作成・更新コストが高く
実務導入のハードルとなっていました。
本稿では2026年4月に学術雑誌「Engineering Applications of Artificial Intelligence」に
オンライン掲載された筆者らの論文 [1] で明らかになった確かな成果とそこから考えられる
実務への応用や今後の可能性を分けて紹介します。前者は論文で検証された事実、後者はそれ
に基づく筆者の考察です。読者の皆様に研究の実態と可能性をバランスよくお伝えすることを
意図しています。
 
1章 本論文で示した「事実」
ドローンとARを組み合わせた都市可視化は合意形成を支援する有効な手段として注目されて
いますが、建物の前後関係を正しく表現する「遮蔽処理」が課題でした。本研究では、AIによ
る単眼深度推定を活用し、1枚の画像から奥行きを推定することで、事前の3D都市モデルに依
存しないリアルタイムARを実現します。特にUAV特有の視点に対応したデータ整備とシステ
ム統合により、実環境での適用可能性を高めています。
本研究では、UAV特有の俯瞰・斜視画像に適した深度推定を実現するため、独自のデータ生成
と処理パイプラインを構築しました。具体的には、複数高度・角度で取得した空撮画像から
SfM/MVS(Structure-from-Motion/Multi-View-Stereo)により高精度な3Dモデルを生成し
ゲームエンジン・Unity上で画素整合したRGB–深度データを合成します(図1)。さらに、自
由飛行映像を用いた視点再サンプリングにより、実運用に近い多様な視点を補完しました。深
度推定モデルには精度と速度のバランスに優れるDepth Anything V2を採用しFP16(16-bit
half-precision floating-point:半精度浮動小数点数)化やTensorRT最適化によりリアルタイ
ム処理(約27FPS)を実現しました。加えてマルチスレッド構成により深度推定とAR描画
を並列化し、実画像と仮想モデルの深度比較に基づくオクルージョン表現を可能としました。
実験では約9,500枚のデータセットを構築し、ファインチューニングにより精度が大幅に向上
することを確認したほか、実環境に近い条件下でも高い可視性判定精度と安定した動作を示し
ました(図2)。
本研究では、UAV視点に特化したRGB–深度データセットと単眼深度推定を組み合わせ、実務
で利用可能なリアルタイムAR遮蔽処理を実現しました。提案データセットは実環境の質感と
幾何整合を両立し、既存の地上系・合成データでは不足していた斜め視点の学習を補完してい
ます。検証の結果、深度ベース手法は高精度な遮蔽表現を達成し、セマンティック法より優位
である一方、遠距離や細部構造、圧縮画像では精度低下が確認されました。また、単フレーム
推定に起因する時間的揺らぎや通信遅延、位置合わせ誤差が実運用時の性能差の要因となって
います。今後はデータ多様化、時系列安定化、SLAM連携やオンボード処理、さらにはユーザ
評価や倫理対応の整備が重要です。本手法は都市計画・設計における現地可視化の実用的基盤
となる可能性を示しています。

 図1. Agisoft Metashapeにおけるワークフロー:UAV画像は特徴抽出とマッチングによって位
 置合わせされ、その後、シーンの密な点群、メッシュ、テクスチャの構築に利用される(論文
  [1] Fig.4. 再利用許諾済)。

 図1. Agisoft Metashapeにおけるワークフロー:UAV画像は特徴抽出とマッチングによって位
 置合わせされ、その後、シーンの密な点群、メッシュ、テクスチャの構築に利用される(論文
  [1] Fig.4. 再利用許諾済)。


  図2. フライトプランAにおける、グラウンドトゥルース、セマンティックセグメンテーション
  に基づく、および深度に基づくオクルージョン結果の比較。(a) 再構築された3Dモデルから導
  出されたグラウンドトゥルースのオクルージョンマップ;(b) セマンティックセグメンテー
  ションによって得られた建物マスク;(c) セマンティックセグメンテーションに基づくオク
  ルージョン処理を施したAR合成画像;(d) 単眼深度に基づくオクルージョン処理(本手法)を
  施したAR合成画像;(e) (d)の深度に基づくオクルージョン領域の拡大図(論文 [1] Fig.28.
  再利用許諾済)。

  図2. フライトプランAにおける、グラウンドトゥルース、セマンティックセグメンテーション
  に基づく、および深度に基づくオクルージョン結果の比較。(a) 再構築された3Dモデルから導
  出されたグラウンドトゥルースのオクルージョンマップ;(b) セマンティックセグメンテー
  ションによって得られた建物マスク;(c) セマンティックセグメンテーションに基づくオク
  ルージョン処理を施したAR合成画像;(d) 単眼深度に基づくオクルージョン処理(本手法)を
  施したAR合成画像;(e) (d)の深度に基づくオクルージョン領域の拡大図(論文 [1] Fig.28.
  再利用許諾済)。


2章 実務への展開と近未来像
第1章で示した検証結果と知見を踏まえると、本手法は実務における設計・施工・合意形成プ
ロセスを大きく変える可能性があります。まず、都市計画や建築設計の初期段階において、
UAVによる現地取得映像に対し、計画中の建築物をリアルタイムに重畳し、かつ既存建物との
前後関係を正しく表現できる点は従来の静的なパースや事前作成CGでは得られなかった即時
性と説得力を提供します。これにより、設計者・施主・行政・地域住民が同一の視点で空間変
化を共有でき、合意形成の迅速化が期待されます。さらに、施工段階では進捗確認や出来形管
理、既存環境との干渉チェックに応用でき、現場での意思決定支援ツールとして機能します。
近未来においては、UAVとエッジコンピューティングの統合により、機体上でのリアルタイム
処理や低遅延化が進み、より自由度の高い飛行と即時可視化が実現されると考えられます。ま
た、SLAMSimultaneous Localization and Mapping:自己位置推定と地図作成の同時実行
や高精度測位との連携により位置合わせ精度が向上し、都市スケールでのデジタルツインとの
シームレスな接続が可能になるでしょう加えて複数ユーザが同時に同一AR空間を共有する
協働環境や、クラウドを介したデータ連携も進展します。一方で、プライバシー保護やデータ
管理、運用ルールの整備が不可欠であり、技術と制度の両面からの実装が求められます。これ
らを踏まえ、本手法は実務における可視化・意思決定の高度化を支える基盤技術として発展し
ていくと考えられます。
 
最後になりますが、本研究で作成したデータセットおよび資料はGitHubで公開されています。
 また、本論文のフルペーパーは通常、大学等の機関購読または個人購読により閲覧可能です。
購読環境にない方に向けて、期間限定(2026年6月2日まで)で全文をご覧いただけるリンク
が提供されています。

[1] Yang, X., Fukuda, T., Yabuki, Y. (2026). A Real-time Augmented Reality System
with Monocular Depth Estimation from an Aerial Perspective for Participatory Urban Planning, Engineering Applications of Artificial Intelligence, Volume 176, Part 2,
114825,

福田 知弘 氏

大阪大学 大学院工学研究科 環境エネルギー工学専攻 教授