ビッグデータマガジン

【最新AI技術】Deep Mindが二次元データから三次元データを生成する技術を開発【GQN】

time 2018/06/18

【最新AI技術】Deep Mindが二次元データから三次元データを生成する技術を開発【GQN】

こんにちは。

この度、ビッグデータマガジン副編集長に就任致しました谷内です。

 

Deep Mindが発表したGQN(Generative Query Network)と言われる衝撃的な技術が界隈を賑わしています。

Deep Mindによると、わずか数枚の画像から、画像には映っていない三次元表現をAIが推測できるようになったというのです。

私たちが何か物を見るとき、通常私たちが思っているよりも、多くの情報を得ています。

ここに、弊社の机を写した画像があります。

この画像を見たとき、あなたはこの画像に写っていること以上の情報を得ています。

たとえば、あなたは上の写真を見ただけで、この机を後ろから見たとき、どのように見えるか想像できるはずです。

これは先ほどの机を、斜め後ろから写した写真ですが、あなたはこの写真を見ても何も違和感はないですよね?

人は前から見た写真だけで、机の大きさや距離感など、おおよその情報を感じ取ることができるためです。

しかし、AIは違います。

今までのAIの技術では、三次元空間を二次元の写真から理解することはできませんでした。

上の写真を見ただけでは、AIは空間を三次元で捉えることができなかったのです。

 

しかし、Deep Mind がこのような常識を打ち破りました。

GQNという技術を使用することで、ほんの数枚の写真から三次元の情報が推測できるようになりました。

 

仕組みとしては、表現ネットワーク(The representation network)と呼ばれる層で、二次元の画像から三次元の情報を把握します。

そして生成ネットワーク(The generation network)と呼ばれる層でその特徴を元に、物体を三次元空間に出力します。

具体的に解説した動画がこちらです。

Deep Mindのブログに掲載されていた動画なので、英語の解説しかないですが、流れはよくわかると思います。

まだ、実際の写真で応用には至っておらず、仮想的な三次元空間の限られた利用に留まるとはいえ、GQNが非常に優れた技術であることは間違いありません。

 

すでに実装を始めている猛者もいます。

今、三次元のビッグデータを扱おうとすると、非常にラベル付けに手間とコストがかかります。

(三次元になると物体までの距離のデータや各方向からの写真など、入力するデータが二次元に比べ遥かに多くなるためです)

そのため、ラベル付けされたデータが足りないことがボトルネックになることも多いです。

 

この技術が実用化されれば、そのデータセット作成のコストを大きく削減することができます。

画像数枚からVR空間が生み出されると考えると、この技術がいかに大きな可能性を秘めているか想像できると思います!

 

今後としては、VRやロボティクスの分野で利用が期待されるのではないでしょうか?

当分先のことになりそうですが、自動運転や工業機械、VR、ARなど様々な分野での応用が今から楽しみですね。

 

原文記事

https://deepmind.com/blog/neural-scene-representation-and-rendering/

http://science.sciencemag.org/content/360/6394/1204.full

データセット

https://github.com/deepmind/gqn-datasets

 


【執筆者情報】

谷内 燦久(たにうち あきひさ)

ビッグデータマガジン副編集長

神戸大学経営学部卒業後、人工知能とビッグデータが世界を変えると確信し、チェンジに入社。


弊社ではビッグデータを扱うデータサイエンティスト育成の研修も行なっております。

AIやビッグデータについて興味がある方はこちらから

http://www.change-jp.com/service/iot/

    

down

コメントする




CAPTCHA


01_解説

06_統計

09_AI・機械学習

99_おしらせ

ビッグデータ活用 ご相談ください

副編集長のぼやき

月別アーカイブ

連携サイト

ビッグデータ活用 ビッグデータマガジン
 
ビッグデータ活用 ビッグデータマガジン



お問い合わせ

  • 記事に関するお問合せ、
    ビッグデータにまつわるお悩みやご相談等
    お気軽にお問い合わせください

    【お問合せフォームへ】
  •