教師データ作成ソリューション(LabelBox社)について調べてみた

はじめに

COOの億田@okudamasakichiです。 GWはあっという間でしたね。 GWは胸・肩・背中・足腰と毎日部位を分けて筋トレできて幸せでした。

普段はできない分割法を試してみて、
胸肩 → 背中 → 足腰でローテーションの毎日でした!

【胸】
フラットベンチプレスからインクラインにディップス
【肩】
ショルダープレスからサイドレイズ、フロントレイズ
【背中】
ベントオーバーローイングから懸垂、ローイングマシン、ラットプルダウン時々ワンハンドローイング
【足腰】
バーベルスクワットからランジ、デッドリフト、レッグプレス
【腹筋】
アブドミナルクランチマシン、サイドベント、ハギングワイパー

本ブログの私の立ち位置は筋トレ情報をぶっこみつつ、レトリバのCOOとしてどんなことを考えているかをブログにしたためていきます。

第一回のテーマとしては米国ベンチャー企業を調べてみました。 対象企業はLabelBoxです。

LabelBox

なぜLabelBoxに興味を持ったか

当社のようにAI活用を提案しているとき課題の一つとして上がるのが教師データの準備です。 プロジェクトではラベル付けを始めとした教師データ準備はかなりの工数と情熱を要します。 良いアルゴリズムを持っているAI企業でもデータの準備は避けられないのが現状です。 イメージは腕の良い料理人(アルゴリズム)がいても、材料(教師データ)がなければなにも作れないんですね。 AI技術のオープンソースの動きも加速していますが、それは教師データがあっての話!

そこで、LabelBoxという会社の紹介です。 こちらは機械学習/深層学習アプリケーションのためのデータ・セット作成/管理ツールを提供しています。 ラベル付けのためのインターフェースとして、ラベル付け作業のツールや管理ツールを提供しています。 これによって、スプレッドシートPythonスクリプトで処理していた部分を自動化することがコンセプトです。 機械学習プロジェクトの最大の課題のデータの量と質を管理に特化したSaasサービスとして、この企業を深掘ってみます。

LabelBoxについて

GoogleのAI専門ファンドGradient VenturesやKPCBが出資していて、2018年にステルスを脱したばかりの企業です。 ファウンダーはドローンや人工衛星企業出身で、画像のラベリングのプロジェクトに従事していた模様。 ドローンや衛星画像は何が写っているかのラベル付けが肝なので、こういうサービスを欲した原体験は分かる気がしますね。

HPのトップには下記が書かれています。 「The best way to create and manage visual training data」

Techcrunchからの転記ですが、CEOのsharma氏の声明は下記。 「Labelboxはモデルの開発時間を大幅に減らし、データサイエンティストたちが自力ですばらしい機械学習アプリケーションを作れるようになる。新たな資金でデータラベリングのインフラストラクチャをさらに強化して、機械学習のチームに強力なオートメーションとコラボレーションとエンタープライズ級の機能を提供していきたい」

画像処理中心で、ラベル付け作業の負荷を低減して付加価値の大きいアプリケーションづくりに顧客が集中できるようにするといったことが志向ですかね。

ビジネスモデル

例によってフリーミアムでの提供ですね。 誰でも無料で使えますが、利用料が一定閾値を越えると課金になります。

Community(Free)プランは下記 5,000 labeled assets Bounding Boxes & Polygons Lines & points Image Classification Image Segmentation

ProプランはCommunityプランに追加して下記が利用可 Custom labeled assets Bulk data import Labeling service Custom Interfaces On-premise data API access Chat support Standard TOS

EnterpriseプランはCommunityプランに追加して下記が利用可 Custom projects Custom users Full on-premise Single Sign On Custom TOS & SLA

ProとEnterpriseは個別見積もりとなる模様。 Communityでは個社対応は一切せずにファンになってもらうことが目的。 ProやEnterpriseはファンがより利用しやすくするための機能提供をするといった、Saasビジネスのテンプレに乗ったモデルです。

事例

Lyft 車載カメラの画像解析を行って危険運転の検出に活用

出所:https://blog.labelbox.com/lytx-using-data-to-help-save-lives-on-our-roadways/

・Genius Sports 詳細は不明なものの、スポーツデータ解析に活用 シンプルな利便性を訴求して選択したと記事には書かれています。

出所:https://blog.labelbox.com/genius-artificial-intelligence-transformation-of-pro-sports/

・CondéNast 画像からファッションアイテム検知のラベリングに活用 CondéNastは大企業であり多様なチームが存在しているため、全社の品質を揃えるツールが必要であった。 自社ツールの開発を企画したものの規模の大きさから断念し、LabelBoxと出会った模様

出所:https://blog.labelbox.com/conde-nast-ai-for-world-class-media/

所感

触ってみた所感としてはプリセットでデータが用意されているため、遊んでみることは容易。 (なので、興味を持った方はぜひ登録してみていただきたい)

ダッシュボード ログインするとオブジェクト(データ・セット)に対して統計が表示されるダッシュボードへ遷移する。 ラベルの統計やラベル付作業の統計が表示されるのは便利ですね、

・ラベル付け ラベルタグでデータ登録ができ、個別データをクリックするとラベル付作業画面へ行く。 ざっくり下記を繰り返すイメージでして、触った感じは簡単でした。

1:ラベルを選部 2:マウスクリックで該当の画像の外郭をクリックして囲う 3:登録

・パフォーマンス チームごとのラベル付作業活動状況が可視化されます。 どのチームがどれくらいのラベル付を行っていて、どれぐらい活動してくれたかをみることができます。

・エキスポート(ラベル付データの出力) JSONCSVに対応 ラベルのジオメトリタイプはXYとWell Known Text

・設定 データセットの設定:登録データセットのアップロードや管理 ラベリングインターフェース:登録するラベルの設定 メンバ:チームメンバーの管理 Quality:同一データへの複数のラベラーによるラベル付けからコンセンサスを設定 Danger:データセットの削除

私としてはQualityのアプローチが参考になりました。 大規模にラベル付をして、複数人でチェックするとなるとこういったアプローチは重要ですね。

参考:https://support.labelbox.com/docs/how-consensus-works

まとめ

LabelBoxのような企業が生まれてくることがAI産業においては追い風だなという印象です。 全方位的な企業が生まれ、盛り上がってくると個別領域の最適化に特化していくと言った流れはあらゆる産業で共通のため、 AI産業もこういったアプローチが生まれるようになってきたんだな〜という感慨です。 プロジェクトの成否を分ける教師データの質と量の課題をクリアするスタートアップとしては注目です。

レトリバではデータ量や品質のアプローチもしますが、教師なしの手法やデータセットの工夫なども取り組んでいます。 こういったアプローチの企業も含めて今後もウォッチしていきます。

では、また。