探そう、まだ見ぬ未来を。

ビジネスモデルの未来

【エンタメから自動運転へ】ディープラーニング技術で世界的実績を持つ、センスタイムジャパンが考える、画像認識の過去・現在・未来

株式会社センスタイムジャパン

2013年に到来した第三次AIブーム。このトリガーはディープラーニング(深層学習)にあるといわれている。ただし、深層学習の登場以前は、いわゆる人工知能の研究開発における「冬の時代」とも呼べる時期がしばらく続いていた。さまざまな技術的な障壁が突破できず、性能・成果共に著しい結果を残せなかったためだ。

そんななか、2006年にジェフリー・ヒントン(現、トロント大学・Google)ら研究チームがオートエンコーダの深層化、つまりコンピューター自ら「人間の顔」や「動物」といった特徴を認識し、判別する手法を実現した。このブレイクスルーは2012年ごろから爆発的に研究が広がり、Googleの猫認識やIBMのWatsonなど、次々と世界各国で活用事例が生まれている。

日本国内に目を向けてみると、2017年6月1日には一般社団法人日本ディープラーニング協会(JDLA)が設立。ディープラーニングがどの領域にどう転用できるかを模索する動きが加速している。こうしたディープラーニング時代において画像認識技術で多くの実績を持つのが、株式会社センスタイムジャパンだ。

現在では画像認識の一部領域においては人間よりもコンピューターのほうが高い精度を持ち、セキュリティーや自動運転、FinTechなど、IT全般に波及している。私たちにより身近な例であげれば、スマートフォンアプリの「Faceu」や「SNOW」に搭載されている自撮り機能でも「口を開く」「まばたきする」といった動きにあわせて、デコレーションされた写真を撮影できる。何を隠そう、この「SNOW」の画像認識技術を提供しているのが、SenseTime Group Limitedだ。

今後、画像認識技術はわれわれの暮らしのなかにどう溶け込んでいくのか。そのヒントをセンスタイムジャパンのCEOである勞世竑(ろう せいこう)氏とCTOである上野山徹氏に聞いた。

いち早くディープラーニングに目覚めた中国

センスタイムジャパンについて知る前にまずは、改めて歴史を知る必要がある。前述したとおり、ディープラーニングが流行しだしたのは2012年ごろ。センスタイムジャパンの親会社であるSenseTime Group Limitedは、香港中文大学に設立されたマルチメディア研究室が母体となっている。同研究室では2011年にコンピュータービジョンにおけるディープラーニング技術を応用しはじめた。これはまだ世界的にディープラーニングの有効性が認識されていない時期だったという。現在も香港に本社を構えているセンスタイムグループ。「研究者間のプライベートコミュニティーがあり、そこでディープラーニングの音声認識に優位性があるという話題が出たことがきっかけです」と勞氏は振り返る。

「日本国内では2015年ごろからディープラーニングに関する話題が活発になりましたが、中国の研究所では早くから認知・研究が進んでいました。そうした早期からの研究開発があり、センスタイムグループは2014年には人の顔認識の能力を超える技術力を世界に先駆けて開発できたのです」

事実、ディープラーニングに関する研究論文の発表数の世界一は中国だ。2013年にアメリカを抜き去り、その差はさらに開きつつあるという。こうした背景には2つのポイントがあると勞氏は言う。

「まずは、当時の日本で『ディープラーニングはどうだろう』という話になったとしても、前例のない技術を画像認識に組み合わせることは、研究者のなかで抵抗感が強かったのではないでしょうか。当時、日本は画像解析、画像認識の分野で世界にも先んじていたからこそ、そのアドバンテージを捨て去ることに消極的だったのです。一方、中国はこの分野で出遅れていた分、早くからディープラーニングの可能性にアンテナを立てていました」

「次に重要なのが、ディープラーニングの精度を高めるのに必要なビッグデータの有無です。例えば人間の顔認識においては、当然顔写真と氏名が必要となります。中国ではWebサービスを利用する際にも写真付きの身分証明書が必要となるケースが多く、解析可能な膨大なデータが存在していました。かつ、画像認識技術を実現できれば、さまざまな企業が利用してくれるという経済圏があらかじめ存在していたんです。新興技術に対する中国政府からの後押しも強力にあり、まさに天と地と人がそろった状態だったことが、大きいのだと考えています」

想像以上に未来は近い

先駆的・意欲的に取り組んだことで、センスタイムグループの躍進がはじまる。2014年には、人間による顔の認識率である97%を顔認識技術が上回り、2016年にはImageNetが主催する世界的に有名なコンペティションである ILSVRC2016にて「Object Detection」「Object Detection and Tracking」「Scene Parsing」の3部門で1位を獲得。現在は顔認識技術と監視セキュリティーに力を注いでいる。

同社の顔認識技術は日本国内では「SNOW」、そして中国では「Faceu」などのアプリケーションで使用されており、監視領域では政府をパートナーとし、ソリューションを提供している。ではなぜ、こうしたディープラーニング技術で業界をけん引する同社が、日本支社を設立したのか。その理由は、日本国内を対象とした自動運転や製造業におけるFA(工場自動化)に向けた画像認識、ロボット領域にあるという。そこで白羽の矢が立ったのが、当時オムロンに在籍していた勞氏と上野山氏だ。上野山氏はこう語る。

「以前から画像認識自体は広く使用されていましたが、高い信頼性が必要な部分は結局人間に頼る、という状況でした。ただ、ディープラーニング技術の急速な発達にともない、機械が人間以上に正しく認識できるようになるというパラダイムシフトが起きた。認知や判断について、機械がどこまで入り込んでいけるのか、置き換えられるのか。ここが今後の肝になると思っています」

今必要なのはデータ量とセンサーの標準化。この2点のクリアが不可欠であると勞氏は続ける。同社は2017年現在、セキュリティーやエンターテインメントを中心に普及している技術が、自動運転や産業機器など信頼性を必要としている領域で活用されることを見据えている。そして現在、センスタイムジャパンとして自動運転技術に着手しているなかでも、予想以上の成果を挙げていると上野山氏は語る。

「取り掛かる当初は『道路上のかすれた白線を認識できるのか』『十分な道幅がない場所でハンドリングできるのか』といった課題を想定していました。ですが、トンネルを抜けた瞬間に発生するホワイトアウトの回避や、仮想的な白線にもとづいて自動運転を行えるレベルにあるなど、現時点で想像以上の成果がいくつか出ています。画像認識という点においてはそう遠くない将来に、これらの自動運転技術が実用化できそうな予感はあります。十字路一つとっても、すべての交差点で道幅や角度、信号機の配置なども異なるため、それらをどう学習させていくかという点においては、当初予測していたよりもはるかに難度が高いことも見えてきましたね」

自動車がその名のとおり、人の手を介することなく自動で走る……そんな未来もそう遠くないところまで来ているのかもしれない。最後に、今後ディープラーニングの開発者を目指す者にとって、必要な点について上野山氏に聞いてみた。

「ディープラーニング領域はリブーストしたばかりのステージ。まだまだ皆はじめたばかりというところでしょう。これまでのドメイン、知見を生かして、それらを組み合わせて考え方を足して次のステップに持っていく思考が大切だと思っています。ディープラーニングはあらゆる領域とのコラボレーションが考えられる分野です」

LATEST POST