WEEKLY人工無脳【第3号】(2018.4.16~4.22)
「分析チームと機械学習チーム」は「内科医と外科医」の関係、になるほど。
世の中の企業が、「AI部署をつくらないと」「データ分析官を雇わないと」「でもどういったスキルセットの人を雇えばいんだ」と言ってる中で、やはりメルカリのデータ活用に関するノウハウや組織論は頭1つも2つも抜けている気がする。データ分析チーム(BIチーム)と機械学習チーム(MLチーム)を「内科医と外科医」と例えて両者の対象領域の違いを説明していてわかりやすい。
水樹奈々はビジネス書
PFN社長がモーニングサテライトに出たと思ったら、他社の社長がビジネス書を紹介してるコーナーで水樹奈々推しまくっててめちゃ笑ったわw
— 職業、イケメン。テラモナギ (@teramonagi) 2018年4月16日
インタビューワーも若干引いてるしw pic.twitter.com/225leDimte
PFN社長の西川さんが水樹奈々ファンであることは有名であるが、朝からビジネスマンを混乱させるのやめてあげてw
それでも水樹奈々はビジネス書と言い張るビジネスマナードットコムぐぅ強い。
「機械学習に必須な数学知識はどれくらいか?」という新たな宗教戦争
機械学習を独学で学ぶ人が増えた昨今において、「数学勉強し直したいんですが、ミニマムで必要なのはどのあたりまで?」という議論は、EmacsVim戦争の裏で着々と新たな戦線を拡大している。数学原理主義派はいつも涼しい顔をして「詳しければ詳しいに越したことはないけど、これくらいわかってないと困るぞ」と言いながら難解な数学専門用語の話をしてくるが、迫害を受ける我々のような哀れな子羊はだいたい「とりあえずこの本でも読んどけばおk」というあたりで解散帰宅となっている気がする。
この新たな戦争に対して、我々は誰もが幸せになれるもっと素敵な回答を常に求めいている
— 丸の内OLおじさん (@econometror) 2018年4月16日
Pandasの基本をサクッと学べる記事を書きました!
手前味噌ですが拙書記事です。データの前処理でよく使うPandas関数を手を動かしながら体系的に学べる記事を書きました。
自分が4年前に初めてPandasを学び始めた頃も、Pandasについてまとまった情報はこの本くらいしかなく、しかしこの本は分厚い・読みにくい・内容が古い、と初学者が参考にするにはなかなか適切ではない感じでした。なので@sinhrksさんのブログなどに非常にお世話になっていたのですが、2018年の今でも、最低限必要なPandasの使い方をサクッと学ぶための良いページがないなと思い作成しました。割とよくまとまっているのではと個人的にも思っているお気に入り記事です。お役に立てば幸いです。
音声データでもCNNは有効らしいぞ
楽曲の特徴をメル周波数スペクトログラムとして可視化し、それを画像分類問題とみなして、楽曲のアーティスト分類や、類似アーティスト推定などを行っているブログ。おおむねF値で7,8割ほどの精度が得られている。
画像に限らず、時系列や自然言語、ここで紹介されている音声データなどの他種類のデータも、CNNで精度良く解ける例はいろいろとでてきている。パターン認識問題にさえ落とせればCNNが解いてくれるはず...という期待感が高まる。
深層学習で医師の作業をサポート。こういうのを待っていた!
これは未来のデバイス…かっけぇ…
医師が操作する顕微鏡で見えている視野に対してリアルタイムでARのように情報を補足することで、医師の意思決定(ここではがん細胞の発見)をサポートするAR顕微鏡!がん細胞の特徴を学習済みのモデルでリアルタイムに推論を行っているらしく、その推論速度は1秒間に10フレーム。このスピードなら医師がサンプルを変えたり視野をズラしたりしても大きなストレスなく操作できそう。しかも一般的な顕微鏡にアドオンする形で機能追加できるらしい。Google様が開発。日本語記事はこちら。某IBMの某ワトソンみたいな小難しい”AI”サポートはいいから、こういう実用的でセンスのある機器で医師の業務をガンガン効率化・高精度化させてほしい。
メルカリ分析部に惚れる人が続出
事業会社における分析部の仕事について、「分析資料作成の努力は意思決定者にとって重要ではない」「意思決定が変わらないなら分析する必要はない」「社員に愛されるダッシュボードを作るべし」「ゆるふわBI」「Query Recipe」などなど、多くの名言が飛び出すメルカリ分析部の良記事。分析部の仕事がいかに有用なものかが外部の人間でもひしひしと感じる。一見の価値あり。
リアル世界をデジタルアーカイブする活動はきっと未来で重宝されるはず
現実世界の文化遺産建造物がデジタルアーカイブされていくことには大賛成。単純な文化遺産保全の意味でも十二分に価値があると思うし、機械学習の文脈では、強化学習用のリアル空間のフィールドとしても良さそう。 それにしても、この活動をしている非営利団体CyArk(サイアーク?と読むのか?)のネーミングの中二感が良い。
機械学習基盤の運用についての議論はまだまだ続く...
従来、「システム」というものは一度仕様が決まって運用が始まればその処理自体は変わること無く、数ヶ月(ものによれば何十年も)続けるものでした。ただ、システムの内部で機械学習の計算も入るようになると、システムの実行環境やリソース要件が頻繁に変更される可能性がでてきます。そんな機械学習基盤(MLOps)の運用課題はKubernetesのようなコンテナオーケストレーションによって解決しやすいかもね、ということを良い感じにテキスト化してまとめてきれている記事。
現状、機械学習基盤の構築はなかなか難しく、その理由は網羅的な知識を持っている人がほぼいないこと、機械学習を行いたい対象のサービス種がまちまちすぎて一概にベストプラクティスが言えない(無い)ことが大きそう。しかし機械学習を使わない大規模ウェブサービスはほぼ無くなると思われるので、この分野はこれから益々盛り上がるのだろう。
カオス理論は機械学習にとって「なにそれ美味しいの?」状態になるのか
我々がカオスだと考えていることは所詮ヒト脳が処理できない次元だというだけで、膨大な次元数を物ともせずパターン認識できる機械学習にとってはたしかにカオスでも何でもない「解ける」問題なのかもしれない。機械学習が私達の知らない「世界の秘密」を教えてくれることに超期待。
受託分析の仕事のツラみがTLでプチ盛り上がりする
分析案件を受託する
— マスクド・アナライズ (@maskedanl) 2018年4月18日
↓
顧客がなかなかデータを提出しない
↓
出てきたデータが汚すぎる
↓
前処理に時間はかかるが納期は変わらない
↓
納品前に徹夜と客先常駐で分析
↓
顧客「わざわざ金払って分析したのにこの結果?」
↓
(以下削除)
もちろん対策はしますが、避けられない悲劇もあるのです。
単純な比較は出来ませんが、僕の場合データ分析のスケジュールは必ず「前処理済みデータ受け取り時」もしくは「データを受け取ってから前処理が完了した時」を起点に〇〇日間みたいな引き方をして、それ以外は受け付けないようにしてます https://t.co/bcG86tSrXK
— TJO (@TJO_datasci) 2018年4月18日
受託分析の仕事の肝はまさにこの一連のツイート通り。そして手が動く優秀な分析官は昇格してPMとなるも、仕事はお客さんとの期待値コントロールとスケジューリングばかりになり、「ワイは分析がしたいんや…」と言い残し事業会社の分析部に転職するところまでがお約束。
機械学習アルゴリズムの性能を引き出すために、改めてハードウェア企業に注目すべき
コンクリート表面のひび割れを深層学習で自動検知する仕組みを総合建設会社の大林組と富士フィルムが作成した話。その精度は幅0.05mm以上のひび割れを100%検出できるほどらしい。0.05mmのひび割れってマジか。
大林組の特殊な高性能カメラで撮影した精細な画像をデータとして学習しているのが肝だと思われる。 機械学習によってソフトウェア側で補正を掛けて綺麗な画層を撮影することは可能になったが、こういった機械学習用の学習データとして質の良い画像を得るには高度なハードウェア技術が重要であり、そういった意味で高い技術力をもったハードウェア企業の存在感は高まっていると感じる。日本企業にもこのあたりで頑張ってもらいたい。
エンジニアの新しいお小遣い稼ぎ。技術記事は有料noteに書く時代が来つつある?
noteを使った技術記事の販売の試み。コードを売ったり教育記事で、生計が立つエンジニアさんが何人か生まれて欲しい。https://t.co/IWisshfP6t
— 深津 貴之 / THE GUILD (@fladdict) 2018年4月10日
かの有名なUIUXデザイナーの深津さん(@fladdict)がジョインして改善が進められ、利用者が増えていると噂のブログサービス"note"なんですけど、"有料記事配信"はこれまでにもたくさんのブログサービスが挑んでは散っていく中、noteでは一定の売上や定着を見せているようです。中でもツイッターで深津さんが言及されているようにIT系技術記事は有料noteとも相性が良いようでポツポツと盛り上がりを見せているように見えます。
ちょうど技術書典が今週末にアキバで開催されていますが、わりとお安い値段で面白そうな本がTLに流れてくるので気になる...そういったものもnoteのような集金できるプラットフォームで公開され、お手軽に買えると個人的に嬉しいなと思ったり。今後の盛り上がりに期待。
■「WEEKLY人工無脳」は、筆者がSNSや日頃の雑談で知ったネタを独断と偏見でまとめているブログです。 ■「WEEKLY人工無脳」は、筆者がその話題を知ったタイミングでまとめているため、「記事公開自体は先月」といった可能性も十分にあり得ます。速報性よりも話題性を重視していることをご了承ください。(ですが、できるだけ直近の話題にフォーカスしてます。) ■「WEEKLY人工無脳」は個人の余暇で運営しているため、調べが足りないこともあります。誤りがあれば優しく教えてください。 ■「WEEKLY人工無脳」は「独断ニュース(http://dokudan-weekly.hatenablog.jp/)」に刺激を受けて書き始めた、独断ニュースのデータサイエンス・人工知能業界版です。飽きるまで適当に続けます。