利益の最大化モデルとは?

利益最大化モデルとは、強化学習と呼ばれる技術を用いて自動的な価格の変更を可能にしています。

強化学習は機械がデータから取った行動とその行動から得られた結果を学習し最適な行動を推測し選択するというものです。

そのため、使えば使うほど精度が高くなるという特徴があります。

  • 本モデルでは強化学習の中でもExpected Sarsa法と呼ばれる手法を用いて、商品の売価と利益額を学習させることで最適な価格を推定しています。
  • プログラム内では、設定した上限金額と下限金額内で価格を導出するために上限金額と下限金額の間に複数の目盛りを作成し、作成した目盛りに価格を割り当てます。

その後、商品のコストから利益額を算出することでどの価格で販売すれば最も多くの利益を得ることができたか学習し、現在いる目盛りの価格からどのように行動すれば良いか(上の目盛りへ移動すべきか下の目盛りに移動すべきか現在の目盛りに留まるべきか)を判断し、離散的な状態遷移をしています。

また、本モデルのプログラムでは機械の学習が十分にできていないとき(モデルの開始直後やコスト変更時)で最適な行動がわからない場合には、プログラムはランダムに状態遷移をして情報を収集します。

しかしながら、これに対して何の対策も行わないと問題が生じる可能性があります。例えば上限金額を40000円 、下限金額を10000円と設定していた場合、ランダムに状態遷移を行うと上限金額と下限金額の差が大きいことによる状態遷移の振れ幅が大きいため事業者の利益に大きな影響を与える可能性があります。


throoughの機能一覧

機能1

処分したい在庫を期日までに段階的に値下げして、利益確保を目指します。

詳しくみる
機能2

ある一定期間売れていない商品を自動検知して値下げを行い、キャッシュフローの健全化を目指します。

詳しくみる
機能3

自社内在庫が残り僅かになったら、値段を上げて利益を確保します。

詳しくみる
機能4

機械学習の一種である「強化学習」を用いて、最適な価格を自動で探索し、利益の最大化を目指します。

詳しくみる
機能5

販売実績に連動して価格を上げ下げするモデルです。販売実績とは その期間の販売数 / 在庫のあった日数 として算出しています。また、在庫のあった日数が0日だった場合は価格の変更を行いません。

詳しくみる
機能6

指定された期日までに利益を最大化しつつ在庫が0となるよう機械学習を利用して価格を調整するモデルです。
注文が入るたびに学習を行いリアルタイムで価格を変動するモデルとなります。

詳しくみる
機能7

利益実績に連動して価格を上げ下げするモデルです。利益実績とは その期間の利益額 / 在庫のあった日数 として算出しています。また、在庫のあった日数が0日だった場合は価格の変更を行いません。

詳しくみる