Predictorの導入事例紹介 ~AIを用いた名寄せ支援~

こんにちは、カスタマーサクセス部の鈴木です。

「レトリバは自然言語処理に力を入れているらしいけど、それって具体的にはどういうこと?」という具合に、具体的に何ができるかイメージがつかない方もいらっしゃると思います。そういう方に、ぜひ私たちが具体的に取り組んでいることを知っていただければと思ってこのシリーズを始めます。

今回は、株式会社シップデータセンター様の「AIを用いた名寄せ支援」をご紹介します。

使用製品は、Predictor[プレディクター]という、テキストデータを自動分類するAIエンジンです。

導入先企業紹介

株式会社シップデータセンター様(以下、ShipDC)は、船舶の運航データを収集蓄積して利用者にデータ提供するための共通基盤となるデータセンター(Internet of Ships Open Platform:IoSオープンプラットフォーム)の運営をおこなわれています。

海事業界全体のデジタル化促進のため、船舶のビッグデータ活用を最大化し、イノベーションの創出を目指されている企業です。

f:id:retrievasales:20200821094940j:plain
IoSオープンプラットフォーム

導入の背景

Predictorは、共通基盤(Internet of Ships Open Platform:IoSオープンプラットフォーム)において、船舶毎に異なるセンサーデータ名称の課題解決のために導入されました。

船舶業界では、同じ造船所、機器メーカであっても、センサーデータの名称が異なることが常で、データ活用の障壁となっていました。

例えば、エンジンの回転数を表すものでも、「Revolution」、「Speed」、更には略号や表現の違いなどもあります。

f:id:retrievasales:20200817164626g:plain
データ名称が異なることが活用障壁に

IoSオープンプラットフォームに船舶の運航データを登録する際、同じセンサーの情報でありながら船舶ごとにデータ名称が異なると、データの利用者にとって利便性が悪く、正しい統計処理などが困難となります。

導入先の課題(データ名称を統一したい)

これらの名称課題を解決し、データ活用を促進するには、機器のデータ名称の統一(以下、名寄せ)が必要でした。 具体的には、一般社団法人日本舶用工業会のスマートナビゲーション研究会で策定されたISO19848に基づく標準名称の辞書を採用し、IoSオープンプラットフォームに保管されるデータ名称をこの標準名称に変換することでした。

f:id:retrievasales:20200817164646g:plain
標準名称への名寄せイメージ

この名寄せ作業は、船舶プラントの知識を持った方でなければ、どの機器であるかの判断が困難であるため、対応が難しいと言った課題があります。更に、船舶のセンサーデータ数は800~3千点にも及び、1隻あたり1.5日~3日程度の作業負荷を要するものでした。

船舶プラントの知識を持った要員が不足していたため実施が困難な状況でした。

レトリバのアプローチ

レトリバは、この課題に対してPredictorを使用し、次の2つのステップでアプローチすることにしました。

f:id:retrievasales:20200717134059j:plain
アプローチ概要

ステップ1)

ステップ1では Predictorによって、ある名称に対して標準名称が存在するかどうかを自動分類させ、標準名称への名寄せの必要がある名称だけを抽出します。

f:id:retrievasales:20200820153641g:plain
ステップ1の処理イメージ

先ずは、Predictorに既存名称と正しい標準名称を組み合わせた幾つかのデータを与えました。 このデータのことを教師データ(正解データ)と呼びます。

Predictorは、この教師データを学習して、分類の法則を導き出しました。 この分類法則のことを分類モデルと呼びます。

分類モデルの作成には幾つかの定義があり、その定義のことを設定パラメーターと呼びます。 Predictorでは設定パラメーターを一括して作ることができるため、手間なく複数の分類モデルを作成しました。

その中より最も優れた(精度の高い)分類モデルを導き出し、既存名称に対して、標準名称が存在するかどうかを分類させました。 精度の高い分類モデルとは、教師データ(正解データ)とPredictorの分類結果が合致した割合で判断します。

f:id:retrievasales:20200728194430j:plain
Predictorの処理フロー

ステップ1の処理により、標準名称に該当する既存名称のみに絞り込むことができました。

ステップ2)

ステップ2では、ステップ1でPredictorによって絞られた既存名称に対して、標準名称(844項目)が付与できるかを自動分類させ、Predictorが算出するスコアの高い順にTOP5まで選定しました。

f:id:retrievasales:20200717184747j:plain
ステップ2の処理イメージ

成果

既存名称に対して、正しい標準名称を1位で選択し正解したものが60%でした。 更にスコアの高い順にTOP5まで選定し、正しい標準名称が含まれ正解したものが90%を超えました。

この結果より、Predictorの分類モデルを用い標準名称への名寄せ処理を概ね自動化する目途が立ちました。

運用としては、Predictorが標準名称を付与し、その結果Predictorの「確信度」が低いものに対して担当者が確認します。 確信度とは、Predictorの指標のひとつで、1位と2位のスコア差が小さい場合に低くなります。

TOP5に出ている標準名称を確認すれば大部分は事足りるため、844項目の名称を探す代わりに5つの名称候補を見れば良くなり、大幅な効率化へ繋がりました。

f:id:retrievasales:20200721171704j:plain
導入後の成果

最後に

シップデータセンター様の事例紹介は以上になります。

この事例では、統一されていない船舶の機器名称を如何に整えるかと言った問題を、テキストデータを自動分類するAIエンジンであるPredictorで実現しました。

この事例のように「名寄せしたいが、名寄せの対象となる元の名称が多岐に渡り、傾向が掴みきれていない」といったケースや、より汎用的なニーズとして「テキストデータが大量にあって、それを整理して有効活用したい」といったケースで、Predictorを使ったアプローチがマッチするかと思います。

皆さまの周りにも同じような課題をお持ちの方がいらっしゃいましたら、下記よりご連絡をお待ちしております。

https://retrieva.jp/contact/