EC名寄せエンジン
「JANコードによるEC商品の名寄せ自動化」

・目的

こちらはECのデータベースを保有しているが、表記ゆれなどで商品を一意に管理できていない方向けのプロダクトです。
「名寄せ」とは、上記のような状態からデータベース上に存在する商品の情報を基に、同一の商品に関するもののみの情報を集約する作業のことを言います。例えば、amazonや楽天など、複数のプラットフォームの同じカメラの値段をデータから比較しようとしても、どの情報が同じ商品を指しているかわからない状態になります。課題を技術の力を解決するためのアルゴリズムがこのソースコードです。

・問題のむずかしさ

この問題のむずかしさは、分類すべきデータと割り当てる項目の数が多いことです。
実際にテスト時点で商品データが1000万件以上のデータが存在し、その中から名寄せしたい商品別に分類しないといけません。このような状態では、分類時に複数のデータが重なり合って結果が一つに絞れなくなります。その結果、正しく商品を集約することができなくなります。

・解決方法

弊社は商品自体を直接比較して分類するのではなく、商品のJANコードから入手できる情報と、検索する商品の価格、ジャンル、モデル番号、商品名などの様々な種類のデータをそれぞれ分析し、JANコードの情報と商品データそのものの類似性を計算、その結果をもとに商品を集約しています。このアルゴリズムは学習データにて87%の精度を達成しております。

・価格

1000万円

・お問い合わせ

info@9dw.jp

ソースコード一覧へ