2019瓦格纳奖获得者:基于强化学习的滴滴打车订单调度

秦志伟,唐晓成,焦燕,滴滴研究美国,山景城,加州
张帆,徐哲,朱红土,叶杰平,滴滴出行,北京,中国

订单调度(或订单匹配)对于像滴滴这样的大型叫车平台的市场引擎至关重要。由于供需的动态性,网约车订单调度问题在长期内是一个非常具有挑战性的问题。

增加复杂性的是系统性能和多目标的考虑。在本文中,我们描述了我们对这个优化问题的方法的演变,从一个短视的组合优化方法到一个包含半mdp模型和深度强化学习的长期优化方法。


Baidu