利益の最大化モデルとは?
利益最大化モデルとは、強化学習と呼ばれる技術を用いて自動的な価格の変更を可能にしています。
強化学習は機械がデータから取った行動とその行動から得られた結果を学習し最適な行動を推測し選択するというものです。
そのため、使えば使うほど精度が高くなるという特徴があります。
- 本モデルでは強化学習の中でもExpected Sarsa法と呼ばれる手法を用いて、商品の売価と利益額を学習させることで最適な価格を推定しています。
- プログラム内では、設定した上限金額と下限金額内で価格を導出するために上限金額と下限金額の間に複数の目盛りを作成し、作成した目盛りに価格を割り当てます。
その後、商品のコストから利益額を算出することでどの価格で販売すれば最も多くの利益を得ることができたか学習し、現在いる目盛りの価格からどのように行動すれば良いか(上の目盛りへ移動すべきか下の目盛りに移動すべきか現在の目盛りに留まるべきか)を判断し、離散的な状態遷移をしています。
また、本モデルのプログラムでは機械の学習が十分にできていないとき(モデルの開始直後やコスト変更時)で最適な行動がわからない場合には、プログラムはランダムに状態遷移をして情報を収集します。
しかしながら、これに対して何の対策も行わないと問題が生じる可能性があります。例えば上限金額を40000円 、下限金額を10000円と設定していた場合、ランダムに状態遷移を行うと上限金額と下限金額の差が大きいことによる状態遷移の振れ幅が大きいため事業者の利益に大きな影響を与える可能性があります。