WEEKLY人工無脳【第11号】（2018.6.11~6.17） - 毎日がEveryday、日々 Day by Day

f:id:ysdyt:20180430031726p:plain

①見分け不可能な超絶精巧AIコラ技術がついに出来てしまった...

今週の一番の衝撃はこれですかね。

自身の表情・目やまばたきの動き・口の動き・頭の動きをターゲットとなる人物に移す映像技術”Deep Video”についての話。自分が喋ってる映像を、限りなく本物に近いオバマ大統領に変換したりすることができる。

百聞は一見にしかず、とにかくリンク先の動画をみてほしいのですが、もうこれは完全に見分け不可能です。本当にありがとうございました。

以前にもAIがAVの顔面部分に有名人を合成する「フェイクポルノ」とかありましたが、それとは全く別モノのクオリティーです。

この技術を作った本人たちも、この技術がフェイク動画などに悪用されていることはわかっていて、対策として「こういう技術がもうあるということをみんな知って、動画見るときは本物かどうかちょっと疑ってみてね」とか開き直っててヤバイ。おそらくGANのgeneratorとdiscriminatorのように、AIが作ったものを抜けけるのももはやAIだけという状況になると思われる。

フェイクニュースをシェアしまくるおじさんたちをFBでもよく見かける昨今ですが、テキストや画像は精巧な偽物が作り出せても、動画はさすがに真実だろうと思っていた最後の砦が崩される日も近いですね。「うそをうそであると見抜ける人でないと難しい」のレベルはここまできてしまいました。アーメン。

②天才高校生プログラマー、レシートデータビジネス始めるってよ。

www.businessinsider.jp

レシートデータをユーザから10円で買い取り、ゆくゆくは企業にデータ販売するビジネスを開始した高校生の話。投資ファンドから1億円も調達済み。日本人は若い天才が大好きなのでメディアも今週たくさん記事にしていた印象です。

一方ツイッターでは、天才高校生を応援する声や、レシートビジネスってどうよ…という賛否に別れている印象。

個人的にも、レシートデータの分析をちょっとやったことがある経験から、そもそもレシートに正確な商品名が書かれてない（表記揺れが酷すぎたり途中で文字が切れてたりする）場合が多すぎて無理ゲーだった記憶。それとは別にフォーマットがバラバラな対象への機械的な文字読み取り（OCR）も難易度高そうだし、難しいチャンレンジになりそうな予感です。電子決済が進んで行く中でレシートはなくなりますし（アプリで電子的に管理される）、割と時代と逆行したモデルのような。

そんな凡人の考えとは裏腹に、早速死ぬほど買い取り依頼がきてサービスが一時停止になったり（買い取りを停止するまでの約16時間で、約7万人のユーザーから合計約24万5000枚の買い取り依頼があったらしい…）、付箋でも葉っぱでも10円で買い取られるぞ！ということで騒ぎになったり、話題に事欠かない1週間となった模様。新しいビジネスを作るというのは大変や…

③「耳の形」を見て絵師を当てるAIさん、ガチな絵師ファンみたいな当て方が面白い。

www.sankei.com

（たぶんCNNの）転移学習を使って源氏絵の絵師流派4分類を96%精度で分類。さらにモデルの注目箇所をGrad-CAMで可視化したところ、専門家が見るところとは異なる「貴族の耳」に注目していた、という話。深層学習の適応先が日本絵画というのも素敵な感じ。

学習データを作る際に、約3万枚の源氏絵画像から人の顔を切り出したところ560枚しか得られず、そこで別の学習済みモデルを使ってファインチューニングして精度を上げたとのこと。

学習済みモデルは、”数百万枚の画像を使った学習が済んでおり、図形を認識できる既存のＡＩ”と説明されており詳細は不明。ちょっと気になる。

Grad-CAMの結果、モデルの分類時は「貴族の耳」の形に注目していることがわかり、普段専門家が分類するときとは異なる点を見ていたところが驚きポイントだったらしいです。

こういった分野では大御所の先生が「◯◯だ！」といえば異論を挟みにくい雰囲気があったりするそうなのですが、「AIが言ったなら仕方ない」という逃げ道ができて中の人達は嬉しそう。古い業界での人工知能の本当の価値は、確度の高い答えを教えてくれるのに負けずとも劣らず、「体のいい言い訳」を作ってくれることなのかもしれない。

与太話ですが、以前友人たちと「MSゴシック絶対許さんマン」というフォントの識別を行うCNNモデルを作成し、Maker Faireに展示したことがあったのですが、その時もモデル注目箇所をGrad-CAMで可視化したところ、フォントを扱うデザイナーの方が注目している点と異なる箇所を識別ポイントにしていたことがわかったので、こういった発見の驚きと楽しさはすごくわかります。

チームメンバーと頑張って作成したので良かったら見てみてください -> CNNは絵札のどの部分に注目してフォントを見分けているか

④デバイス側で深層学習するカメラ、Amazonの”DeepLens”

japanese.engadget.com

ネットワークに接続せず、デバイス上で深層学習を用いた画像認識などを行えます。という、Amazon謹製のカメラが249ドル（約2万8000円）でアメリカで発売開始されたという話。

Alexaといい、Amazon様がイケイケ過ぎる。カメラのデザインもイケてる感じ（充電ケーブルが白いのかどうか気になりますね。）

DeepLensにはGreengrass、TensorFlow、SageMakerなど、最新のツールが付属。また、「歯を磨く」「ギターを弾く」など30種の動作を識別したり、犬や猫を見分けたり、ホットドックかそうではないかを見極めるものなど、学習済みの深層学習モデルもセットされており、別途環境などを用意しなくても、誰でも10分以内に深層学習を始められるとしています。

詳細はよくわからないものの、学習済みモデルを使って推論に使うだけでなく、将来的には学習もクライアントだけで行えるようになるような雰囲気（？）ですね。スマートホームの”目”のポジションを狙った商品なんでしょうか。もう生活がラクで楽しくなるならどんなデータでも持っていっていいよAmazonさん（とgoogleさん）という気分。

⑤AIで声を取り戻したジャーナリスト

www.bbc.com

BBCの和訳記事。喉の病気で発話機能を失ったベテランジャーナリストが、自身の膨大なラジオ放送データを学習に使い、自身の声を合成する深層学習モデルで仕事復帰したという話。その肉声（？）が聞けるリンクがぱっと探した感じでは見つからなかったのが残念。

上でも挙げたフェイク動画や、第6号でも挙げたgoogleの電話予約AI”Duplex”のように、音声合成系の技術発展が最近加速度的にすごい。深層学習様様。

今では、ウェブサイトに載っている文章を録音すると、500ポンド（約7万3000円）で数日間で音声を生成してくれるようになった。

というように、膨大な音声データを必要とせず、少量のデータから効率的に学習する方法もビジネスとして確立しているというのが面白いですね。我々が初音ミクで満足しているうちに、世界もどんどん進んでいるのだ…

⑥”目で見えないもの”も予測するニューラルネット

japan.cnet.com

動く人の映像と、そのときの電波反射パターンデータを組み合わせて学習することで、カメラで写すことのできない壁越しの人間の動きまでニューラルネットで推測できるようになったという話。理屈もわかるし予想もできますが、やっぱりすごいなー。

ちょっと話は飛躍しますが、人間が知覚できるのと同じ可視光下の映像や音域のデータだけでなく、もっと広いデータを使えば、AI的なものは人間がいうところの”第六感”的なものも推測できるようになるのかもしれませんね。そういう実例を誰かが出してくれるのを密かに期待しています。”おばけ”的な不可視な存在がやっぱり存在するみたいだぞ、とか。

⑦面白かったARネタも貼っとく

ネイルのお試しをARで可能にするWanna Nailsを試してみました
爪のトラッキングがかなり早くしかも正確でビックリ
インスタシェアへの導線や購入への導線もしっかり用意されていてアプリ設計が良い感じです
今のARはこういうちょっとしたお試しとの相性がとても良い印象です#wannanail #ar pic.twitter.com/T3eRJxtd0T
— ARおじさん@heymesh (@AR_Ojisan) 2018年6月13日

Graffity相変わらず AR表現の安定感が凄まじい
ARKitでこれだけズレずに ARを表現してるのはきちんと社内で画像認識エンジニアを雇って独自に画像処理を研究してきた賜物だ pic.twitter.com/YMV3ijPs9b
— ARおじさん@heymesh (@AR_Ojisan) 2018年6月16日

⑧日本の人口密度分布図可視化

e-Statのデータから日本の人口密度分布図を作りました。1km平方に何人が住んでいるかという図です。平均は緑のところですが約700人。赤が平均以上、最大は約32,000人。青は平均以下。白いところは人が住んでないところ。 pic.twitter.com/pYBKjNeUrL
— tomo makabe (@mkbtm) 2018年6月13日

⑨機械学習で”画像を見ずに”細胞分類を超高速高精度に行うシステム “ゴーストサイトメトリー”が超かっこいい

www.jst.go.jp

100人の男に聞くと、100人がかっこいいと答えるであろう中二心をくすぐるネーミングセンス。いや、カッコイイのは名前だけじゃないのだ。

生物学領域の話ですが、人間よりも千倍以上早く細胞を識別して選り分ける機械学習システムのお話。産学連携・ハードウェア／ソフトウェアと様々な領域を越境して研究開発し、その成果はScience紙にも掲載されたそうです。

細胞を適切に分類する作業は、さまざまな診断や再生医療・細胞治療など高い安全性や信頼性の求められる医療に必須の技術です。しかし、人間が手作業で細胞の”見た目”から選り分けることは非常に難しくかつ遅いことが問題でした。その後、さまざまな自動分類技術が発達したものの処理速度と分類精度のトレードオフがあり難しい領域だったそうです。

ゴーストサイトメトリーは、人間が関与しない細胞分類システムとして、画像（人が認識するためのデータ形式）を作らずに、単一画素圧縮計測信号を直接機械学習モデルに判別させるというシステムだそうです。イメージ的には、人間が理解できる高級言語（画像）ではなく、1/0のバイナリ情報（圧縮したピクセル情報的なもの？）を直接学習させることでスループットと精度をあげている、という話だと思われます（怪しい）画像情報を使わずに情報のエッセンスを処理させるところを”ゴーストを見ている”と表現しているネーミングセンスに嫉妬。

これによって、大きさも同じで人の目で見ても形の似た細胞でさえも超高速・高精度に分析・判別できるようになったそうです。ハードウェア的には、超微細な蛍光標識データをどう検知するか、ソフトウェア的にはリアルタイムイメージ情報処理手法の開発が重大な課題となっていたところ、光・流体・電気ハードウェアと機械学習ソフトウェアを密に結合することで、両課題を一挙に解決したそう。

日本の誇るべき技術！と言いたいところですが、競争の厳しさはもちろんサイエンスの世界にもあるわけで…

論文出たので、あとはここからは追従してくる海外勢との戦い。この技術の市場価値は数兆円と今のところ予想している。我々は技術的には相当先行しているが、海外グループは予算規模も違うのでうかうかしていられない。様々な方面からのご支援を賜りたく。
— パパ Ph.D. (@issei_sato) 2018年6月15日

⑩ AI・データ活用案件の進め方指南書が経済産業省から公開されたぞ！

www.meti.go.jp

データ分析活用やAI開発案件には、データや機械学習が内包する特性を理解した上で、一般的な受託分析やシステム開発スキームとは異なるスキームで契約や進行をすることが多いです。

「偉い人からの命令とお金ならあるんや！」という豪胆な企業もあるものの、そもそもどこに発注すればいいか、どういった要件定義が必要か、何を考慮しておかないと失敗するリスクがあるかなど、なかなか把握しにくい部分があるのもたしかです。具体的な実例が少ない「データ・AI案件」に対して、「案件やるならこういった項目を検討しないと大変だよ」というガイドラインを経済産業省と有識者が作ってくれたそうです。

内容は以下の2点について。

データ編
データの流通や利⽤を対象とする契約について、各契約当事者の⽴場を検討し、⼀般的に契約で定めておくべき事項を改めて類型別に整理した上で列挙するとともに、その契約条項例や条項作成時の考慮要素を提⽰。

つまり、データの受け渡し・共有が発生する契約のときに気をつけておくポイントなどが書かれた指南書。

AI編
AIソフトウェアの特性を踏まえた上で、開発・利⽤契約を作成するにあたっての考慮要素、当事者の適切なインセンティブ形成の⽅法、トラブル予防⽅法等についての基本的考え⽅を提⽰。

つまり、AIシステムを作る仕事を契約するときのハマりポイントを教えてくれる指南書っぽい。

本文はPDFで356ページにも渡るものでこちらはヤバイのですが、それとは別に概要をまとめた7ページのものもあるので、AI案件をやらないといけない人たちは一読の価値ありだと思われます。

⑪数枚の2D画像から3Dモデルを生成するGQNがすごすぎてもうよくわからない

GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する。空間モデルを潜在変数とする潜在モデルで最適化する。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言っていいと思う https://t.co/JLnATeQB99 https://t.co/h8b48prcft
— Daisuke Okanohara (@hillbig) June 15, 2018

PFN岡之原さんが「この1~2年内の最大の進歩」という話。ゴゴゴゴ。。。

deepmind.com

人間の場合、たとえそれが初めて見る彫刻だったとしても、一方向からそれを眺めるだけで「反対から見るとこういう形だろうな」「厚みはこれくらいだな」「真上から見るとこうだろうな」という”立体感”を当たり前のように想像することでできますが、機械の場合、限られた方向からの画像を数枚見せたくらいではそういう推測はもちろんできず、実現するためには膨大な教師データと学習が必要でした。

それを新時代の神ことDeepMind様が「出来たよ」と発表したのがGenerative Query Network（GQN）という新技術。

教師データ無しで！しかも異なる視点からの数枚の画像だけを元に！3Dモデルを生成する！という驚くべき技術。機械がこのレベルまで3D空間を再現ができるようになると、いよいよ言葉通りの”人工知能”じみてきた感。

最近は当たり前のように2次元画像だけから深度センサー無しに深度（対象までの距離）を再現できるようになってますが、（それだけでも未だにめっちゃすごいと思うのですが…）、ついに距離だけではなく立体物までも再現できるようになってきました。現在は単純な形のオブジェクトしか生成できないとしているものの、もっと複雑なものも構成できるのは時間の問題でしょう。はー、すごい。

■「WEEKLY人工無脳」は、筆者がSNSや日頃の雑談で知ったネタを独断と偏見でまとめているブログです。
■「WEEKLY人工無脳」は、筆者がその話題を知ったタイミングでまとめているため、「記事公開自体は先月」といった可能性も十分にあり得ます。速報性よりも話題性を重視していることをご了承ください。（ですが、できるだけ直近の話題にフォーカスしてます。）
■「WEEKLY人工無脳」は個人の余暇で運営しているため、調べが足りないこともあります。誤りがあれば優しく教えてください。
■「WEEKLY人工無脳」は「独断ニュース（http://dokudan-weekly.hatenablog.jp/）」に刺激を受けて書き始めた、独断ニュースのデータサイエンス・人工知能業界版です。飽きるまで適当に続けます。