【联盟年会】长安大学李彬:基于交通大数据挖掘的商用车辆市场与技术研究

在新能源汽车国家大数据联盟2020年会“新能源客车安全出行和大数据应用”分论坛上,长安大学汽车学院车辆工程系副主任李彬博士通过在线方式进行了《基于交通大数据挖掘的商用车辆市场与技术研究》主题演讲,重点就客运售票数据、公交刷卡数据,交通量调查数据,专项调查数据,高速公路大数据的具体应用展开了讲解。

李彬:我今天分享的是基于交通大数据挖掘的商用车辆市场与技术研究。我汇报四个方面,第一是车辆自身产生了哪些大数据资源,因为刚才都做了非常详细的介绍。虽然我们这一块也做了大量的相关性研究,就想换一个话题,看能不能跳出车辆来看车辆,在大的交通系统来看一看客车、货车该如何发展。第二交通行业既然要做大数据分析,我们有没有这样的基础,基础来自哪里?第三,现在的数据怎么用,用到什么情况?最后分享一些我们自己已经做过的实际应用案例。


单个车辆产生的数据资源,在最初可能是单车,在行驶过程中产生的速度、加速度、减速度、扭矩、油耗、功率等,这个采集应用可能已经比较成熟,一个简单的接口就可以收集。但是问题在于这是对于单车数据的采集,很多普适性的结论不太好下。所以一些企业自建品牌性的数据平台,在这里可能拥有单个品牌汽车在行驶过程中的动态数据,本身车辆自身的静态数据。比如说什么样的车配置如何,以及基本参数,动态数据就包括行驶过程中产生的一系列数据,如果是电动车,还包括了电压、电流、温度等这些数据,以及行驶轨迹的情况。这些都是单一品牌的车辆运行情况,我们还是不容易看清全貌是如何。当然这里不包括新能源汽车国家大数据联盟所包括的所有新能源车辆,各个品牌的静态、动态数据都有,这就提供了非常好的平台,怎么把平台里的数据用好,可能是我们下一步需要做的事情。

到了第三个层面就是车路协同智能网联环境下,车辆自身的动静态数据,视频、微波、激光雷达等各类融多源传感器数据,V2 V、V 2 X 之间信息交互数据融合以后怎么用?在驾驶行为分析上,在无人驾驶上都有很多应用。这一天正在到来,但是当理想还没有完全照进现实的时候,有没有可能通过类似于车路协同的交通数据,把握一下车辆研发的方向?这可能是我们当下所要思考以及能够做的一些事情。


那么问题来了,对中国而言,交通行业大数据有这样的基础吗?答案是肯定的,我们有这样的土壤和环境。我国高铁、高速路、航道等交通基础设施规模都是全球第一,铁路、机场以及总的公路里程数全球第二,有这样交通基础设施规模,才能带来我们运载工具施展的空间,而运载工具的施展空间就带来了时间与位移的改变,带来了数据。对于不同的车而言,只有更好的路才有各种车辆能够行驶,能够发挥施展空间,才有了能够利用的数据资源。
在交通领域比较成熟的数据资源很多,简单分成几类,当然还有一些没有完全包括进来。首先是客运售票数据、公交刷卡数据,可以通过它们来实时把握不同区域、不同线路、不同城市、不同市场的走势,热点怎么变化。第二是交通量调查数据,主要集中在普通公路,可以看到普通路的运输情况是如何变化。第三是专项调查数据,主要是营业性客车和货车的抽样调查,在这里可以得到营业性客货车运输是怎样,从而能够有的放矢决定车辆的设计该如何迎合市场运输的变化。最后是高速公路大数据。到目前为止,每年高速公路上产生的客货车的通行数据非常丰富。

通过这些数据能够给我们带来什么?数据是死的,怎么变活?怎么用?怎么找场景?可能就是我们这些人所需要做的事情。从客运的数据,从这里这些年的变化我们可以清晰看到,这些年整个公路客运一直不太景气,不管是从客车的数量,客位数,售票数量都在降低。即使在这样一个情况下,它仍然占据了综合交通运输里面绝大部分的比重。从售票数据又可以反映出不同的运输市场上变化,大家知道受高铁的影响或者冲击,客运市场变化很大,运距也有所降低,具体降低到什么程度?动力系统该如何调整才能适应这样的变化?这都可以带来一些灵感。
还有一部分公交刷卡数据。将来市场越做越细分的情况下,可能不同的线路,不同的路径,不同的用车时间,甚至我们充电设施的不同,都有可能导致车辆应该有相应的差异性。当然,对于公交市场可能很多是投资换市场,可能一个区域就需要某个品牌的汽车。现在正在由市长主导变为市场主导,这个路还很长,但是大方向不会变,谁先做好准备,谁先把客户研究得更清楚,可能将来的企业就会走得更远一些。所以针对不同的公交刷卡数据,把握它的运行,替公交公司去考虑很多事情,可能我们的车就会卖得更好一些。
第三部分是交通量调查数据,主要关注的是普通路,特别是县内运输,农村客运运输规律是什么,运输特性是什么,根据这些就可以有针对性设计农村客运。
还有一部分是专项调查数据,专调数据是对全体营业性客货运车辆的抽样,无论大数据发展到什么阶段,抽样调查永远不能缺席,因为我们的大数据一定在满足大的需求方面是没有问题,但是一些细的情况我们还是需要抽样了解实际。在这里我们也会看到,对于客运来讲,这里很清晰的能够看到跨省的运输情况,跨地市的运输情况,它的变动怎么样,以及不同的运输类型,像班线客运,包车,这些在不同运输情况下的实载率变化,座位数变化的分布,都可以为客车企业的研发提供最基础一线的数据支撑。举个例子,前些年很多企业都上13.7米系列的客车,这些年我们发现,很多车企这些13.7米系列的车辆,包括尺寸长度从13米多下降了半米。这些变动大部分是被动变动,很少有主动变动。据我们去客运企业调查,客运企业提到了现在上座率不够,需要把整车长度减下来。
最后是我们应用最广、也是最多的高速公路大数据,这也是我们做得时间比较长,比较成熟的一块。2002年我们就开始做通道性的运输研究,当时最早是从京沪之间,看看京沪之间的运输是怎样,特别是不同的轿车、客车、货车,不同车的类型运营数据有什么特性,对于车辆的性能有什么需求。2004年我们通道研究得差不多,想着在区域内是什么样,就拓展到江苏全省,当时苏南和苏北分成两个局域网研究。2006年以后开始了全国性高速公路运输量研究,再往后频次越来越高,不但面积增加,频率也增加,2010年开始每个季度做分析,到了2014年至今开始进行月度分析,来把控不同运输热点和运输区域的变化情况。
高速公路的客车我们分成了四种车型,一型车,新的规定小于等于9座,二型车是10-19座,三型车20-39座,四型车40座以上。对于商用车而言只能是二三四型,他们在区域特征、运距、运输规律、出行时间变动,都有着非常大的区别。中国这么大,各个省之间相差也非常大,就想到了这个时候对于运输特性的不同,对于车辆有哪些不同的需求。货车在这里根据轮胎数量、轴数,以及是否并装,比如说双连轴,双胎,三连轴,三胎,进行研究。
高速公路上的数据对于中大型客车而言,每年运输量占到了全社会55%,一大半的江山都在这上面。对于货车,占据了43%,最关键的是这些数据都是我们的收费流水数据,它的精度极高。如果你知道了一半的社会上运输的情况,而且这个数据又非常精确,你就可以判断下一步我们大的运输市场的走势,以及这样的运输市场对于车型不同的需求。

下面分享一下我们已经做过的事情,有一些案例。首先这里看到可以对全国性的运输,所有的高速公路有一个运输密度图。在这里其实可以很清晰的得到,南北纵向的高3、高4,不同的大的通道上,不同的运输密度有着非常明显的差异性。横向也一样,横向通道的客运、货运都有着不同的差异,同时我们再把时间维度给出来,就能判断出来运输市场热点的转换。
这里是用了十几年的数据做的省域,某个省区域性的公路客运车销量与高速公路上营业性客车的运输量的模型,这个模型建立出来还是非常出乎我们意料,尝试各种各样不同模型,带入不同的参数。开始效果很差,但是随着对于算法不断的提升,对于数据不断的清洗、处理,最后得到了非常喜人的成绩。
我们发现在省域公路客车销量和省域公路客车销量与高速公路营业性客车行驶量相关系数0 . 9 5,这已经是非常高的相似性。我们就可以通过高速上运输量的变化,提前知道将来可能在哪个区域,哪个省域内销量会有怎么样的变化。为什么这么讲?对于运输的周期性,美国很早就有研究。美国研究的结论是什么?运输量要早于经济周期半个到一个周期,当然这样的结论可能还有一些争议。但是在我们国家,我们研究将近20年的数据发现,高速公路上的运输量要早于我们的经济周期的一个周期,同时也早于销量的变动情况。其实道理很简单,比如说有了运输需求,有了这么多人,乘客要运,有这么多货要运输,有一些自备的运力,当运力不够的时候再去调配,调不来运力的时候才会新增运力。在每年新增的市场里,新增销量里,一部分是旧车的自然淘汰,一部分是反映到了运力变化,这些数据,特别是对于大型客车企业尤其重要。小的企业可以看大的企业,你怎么做就怎么做,我们只能看市场,还要预判市场如何发展,才能知道哪个市场热点,而这些我们已经有了坚实的数据支撑,对于货车而言货车销量和高速公路上的运输量相关性也非常高。货车对于不同的车辆因为有机动数据,可以看到轴荷在实际使用过程中,轴荷变化也不一样。我们也跟一些企业交流,和他们的想象差别还是很大,我们想当然的认为空驶的情况轴荷怎么分配,满载的时候轴荷怎么分配,但实际过程中空驶率的情况,轴荷变化的情况和设计的时候相差极大,这时候如果不能充分考虑实际使用情况,那我们设计出来的车辆性能可能会大打折扣。
刚才讲的是对过往的分析,同时我们又做了一些关于预测方面的算法研究,在这里尝试了很多,比如说参数模型、非参数模型,传统的机器学习以及基于人工神经网络的机器学习,其实做了很多试错性的试验或者模型。最后发现并不是说我们的算法越高深,越先进,精度就一定很高,这是一个误区。只有找到适合它的场景,找到适合它的数据,可能这个模型才能更好的预测精度更高一些。刚才我们对于历史数据的分析发现,他们之间的相关性很高,同时我们的运输波动又早于实际销量的波动。如果想更早的知道将来会怎么样,就要通过我们建立相应的预测模型来实现。刚才也提到了,我们在研究预测模型的时候也做了大量的相关性试错性的工作,一系列的模型发现预测精度到了最后的阶段,你再变换不同的模型其实精度提升很有限,5%-10%之间。而反过来又回到对原始数据的深加工和清洗,以及调整不同的因子会发现,它起到的效果反而会更好一些。

今天是新能源车大数据联盟,我们回到新能源这一块,特别是乘用车的新能源,一般情况下都是很难出城,不敢跑远路。因为一旦出去,就面临着远距离出行上高速的情况,上午姜主任也提到了城市里面新能源违章很多,城市之外很少,可能更多是因为我们不敢出城。如果我们要出城该怎么办?那就回到了刚才王澍教授提到的,充电站如何布局,这时候对于高速路上也是一样。我们国内南方某个省份提出来,已经实现了主要高速服务区的充电桩全覆盖,但是实际考察效果并不好。因为他们认为主要的服务区可能并不是真正需要的服务区,而我们乘用车在省域范围内运行的情况,分布的情况,以及他们对于电动车出行以后的需求是怎么样的,可能就需要用数据说话。在这里我列出了一型客车出行分布的特征,这时候我们在高速上建充电站的时候,就不可能是撒胡椒面,一开始就想着所有服务区都建充电站,这是不现实的,这时候我们如何确定权重,如何选点,就要用现在传统乘用车出行的特征去考虑充电站的布局。
我们都在谈大数据,确实大数据已经来了,我们该如何做?回到我们联盟的本身,大数据是需要不同维度融合,价值才会更高的,就像加法和乘法一样。只有更开放的合作才能够促进大数据真正的发展,我们现在已经有了很好的基础,有了这样的联盟,我们可以有一些共性的研究,一些个性化的研究,都可以提出来。
最后以一首诗来结题,横看成岭侧成峰,远近高低各不同,不识庐山真面目,只缘身在此山中。大家都耳熟能详,把它放在这里是什么意思?我想我们做车辆的能够跳出车辆看车辆,跳出市场看市场,站到一个大的交通背景下做市场,做技术研发,可能会发现不一样的东西,这些成果可能会更客观,也可能会给我们企业的研发,企业的发展提供一些不一样的动力。
 谢谢大家,可能有一些观点不一定很正确,需要交流的,大家后期可以做进一步交流。