01
“点数据”与“线数据”
如何让解决停车问题搭上共享模式的便车呢?
如何让提高停车场现代化管理水平低成本地推进呢?
答案其实很简单
更全面、准确的停车需求预测
当我们在做停车预测或规划时,往往更多关注的是需要提供多少个停车位,或者说停车场的规模是什么样的。这里需要特别强调的一点是,我们所说的停车场规模其实是一个“点数据”的概念。它说的是一天中停车场里最多有多少辆小汽车同时停放,或者说实际在某个时间节点上小汽车停放了多少辆。而对于后面这种为表示在某一时段的车辆停放量,通常称其为“线数据”。你可以简单地理解为“点数据”就是某一个时刻的指标值,而“线数据”就是由多个“点数据”构成的时间序列。以下图为例,停车场上午8点钟的停放量为73辆,这是我们所说“点数据”的概念,而由全天各个时间停放量组成的图中的这条曲线,则是“线数据”的概念(这种“XX值”随时间变化的曲线一般简称为“XX值”时变曲线)。
在停车分析中,“线数据”的时间跨度往往以一天为单位,累计多日的“线数据”就被称为面板数据。“点数据”其背后暗含着停车保障能力的意思,即停车场最大能容纳多少辆小汽车同时停放,而“线数据”则更侧重于被保障停车需求的变化情况,两者是相互联系、不可分割的。
在传统的停车需求分析中,由于采集停车数据会遇到诸多阻碍,我们可能更多地只能进行相对简便的“点数据”提取。而随着采集存储技术的发展,停车数据更加开放和精细化,逐渐开始了对“线数据”或面板数据的分析。在对多个停车场“线数据”和面板数据分析后,发现原来在传统“点数据”的研究与分析中一直存在着一个很有意思的现象,或者说是数据匮乏的“无奈之举”,而这一现象即使是在现在的“线数据”分析中也经常被忽略或被默认。
所以,今天我就来跟你说说它。
在此之前你需要知道一个事儿
方便理解咱们下面将要说到的内容
说到停车需求分析,那就不得不提到一个名词——停车需求特征指标。通常,我们为了描述一个事物的发展情况,会采用一些指标来进行量化。例如,为了描述一个国家的经济发展水平,通常会用国民生产总值GDP来衡量。在停车需求分析中也不例外,常用停车需求特征指标共有9个:实际(累计观测)停车量、停车(场)供给能力、停车周转率、停车场利用率、平均停车时间、停车集中指数、高峰停放比率、停车到达率和停车驶离率。在后续的内容里,这9个指标不一定都出现,你只需要了解它们都是有“点数据”和“线数据”表示方法就可以了。
02
“未解之谜”
未经验证的停车需求代表性与同质性
接着之前说的内容,由于人工采集手段的局限,传统停车需求特征分析往往以一天的调查数据为样本进行分析,并将由此获得的停车需求特征指标作为停车需求预测、配建指标制定、以及停车管理的重要依据。由于数据的粒度和广度很难达到研究的深度要求,导致所获得的停车特征信息比较粗糙。更重要的是,在停车需求特征指标的实际应用中隐含了两个重要的潜在特性:一是基于样本分析的停车需求特征具有代表性,二是基于样本分析的停车需求特征具有同质性。代表性不难理解,简单地说,就是你认为某一天(抽样)调查的停车场运行情况可以代表该停车场大部分时间(或全年时间里)的运行情况。在过去,人工调查耗财费力,这样类比的方法有很大的实践意义,但是实际上,由于调查日期往往是凭历史经验确定的,并且缺少纵向对比的条件,样本的代表性其实是存疑的。而停车需求特征的同质性又是什么呢?同质性是说,通过样本调查所获得的停车需求变化特征并不会随着抽样日期的变化而发生显著变化。换句话说,在每一个正常工作日都会保持相应的需求特征不变。例如,某个停车场的停放量在过了上午9点后就呈现出下降的趋势,这样一个特征是不会随着抽样日期的不同而发生显著的变化。简单来说,代表性更注重于“点数据”绝对值的相似,而同质性更注重“线数据”线形的相似。然而,这种需求特征的同质性从未得到过验证。例如,一些学者在研究停车设施的共享资源匹配方法时,就将片区停车需求时变规律作为前提假设来处理;同样,在一些关于综合体的停车需求预测模型研究中,实际上背后也蕴含着停车需求同质性的假设条件。由于对这两个潜在特性(代表性与同质性)一直没有进行过验证,不能明确这些假设在多大程度或是什么条件下可以成立,正是这样一个“未解的谜”限制了这些方法在实际工程项目中的推广应用。
停车需求特征的同质性与代表性是停车规划与管理重要的应用基础。值得注意的是,这里的同质性概念与有些学者所提出的“同质性”并不一样。有些学者建立了相关的停车需求特征模型,并通过数据拟合度的形式来说明停车需求“同质性”的存在,认为如果拟合度高就代表“同质”。然而,对于同一停车设施在不同日期的停车特征是否相似,随机选取某一天的数据所获得的停车特征能否代表停车总体特征,停车特征是否具有季节性差异等问题并没有进行真正的解答。
因此,笔者将在“线数据”的分析基础上,探索一下这个“未解之谜”。
03
同质性与代表性真的存在吗?
根据上述提到的问题,这些经常被默认的同质性和代表性真的存在吗?让我们随机选取个停车场实例来一探究竟。一般地,停车需求特征主要集中在三个方面:停车到达驶离特征、停车时长分布特征和停车需求时变特征。随机选取某办公类停车场(甲级写字楼和区政务中心,总面积为23万平方米,有632个泊位)1年的停车数据进行分析。对于商务办公场所而言,停车矛盾主要出现在工作日,因此在数据处理及筛选过程中,剔除了节假日及中到大雨条件下的数据,最终获得了一共223天的正常工作日数据(有效样本数,如表1所示)。
表1. 某办公类停车需求每月样本数据情况
从图1中不难发现,该停车场每天的停放量曲线形状非常相似,并且各月中每天的停放量时变曲线重合度很高,只是在不同月份之间,曲线在高度(停放量大小)上呈现显著差异。利用聚类分析方法,对这12个月的数据进行分组,最终可以将其分为5组(3~6月,1、2、7、8月,9、11月,10月,12月)如图1(图1中黑实线代表每组每日停放量时变曲线的特征拟合曲线)。同样,到达驶离需求曲线也出现类似的特征,线型相似但大小不同,按聚类分析可以划分为3组类型(2月,1、3~8月,9~12月,如图2~3)。
图1 停车场每日停放量时变曲线
图2 停车场每日停车到达量时变曲线
图3 停车场每日停车驶离量时变曲线
显然,传统按“点数据”的分析思路来提取停车时变特征和到达驶离特征,并不存在假设中的代表性。尽管曲线形状呈现出一定的相似性,但是曲线大小随着时间的变化呈现出了不同程度的差异,这也很难从主观上就能认定这些停车需求指标的变化特征存在同质性。
这无疑是让人沮丧的,因为这说明一直以来,用“点数据”的分析结果(由同类型停车场抽样调查数据计算获得)来代表某类停车设施停车需求特征的做法存在着很大的问题——只能片面地反映抽样时间内的停车需求特征,而不能对整体情况进行全面的反映。另一方面,对于新建停车设施的停车需求预测,也很难获得比较丰富的基础数据,这也导致了“点数据”的分析困难。但是,能不能有一种方式可以提取到停车需求的同质性和代表性呢?
04
同质性与代表性的显现
抓住高峰比的钥匙
为了尽量消除外部动态环境对于停车时变特征和驶离特征的影响,我们发现,通过对该停车场单位时间内的停放量和到达驶离量进行高峰比指标(停车高峰比是指每单位时间停放量或到达驶离量与当日最大停放量的比值)的转换处理后,不同曲线之间的差异被有效抑制,其代表性和同质性特性开始出现(如图5)。此外,将每日停车时长分布(统计间隔为30分钟)拟合成平滑曲线后,曲线间也呈现出高度相似的特性,振幅范围较小且比较稳定(如图4)。为了进一步证明看到的事实,我们接下来将会应用统计分析方法进行相应的检验。
图4 停车场每日停车时长分布曲线
对该停车场223天停车样本数据(如表1)进行停放量高峰比时变特征的代表性和同质性检验。为有效分析工作时间段停放量高峰比时变特征,选取每天早8点至晚19点的停车数据,并利用MATLAB平滑样条曲线拟合对各日停放量高峰比时变曲线数据进行拟合,其拟合结果如图5中黑实线所示。
图5 停车场停放量高峰比时变曲线拟合
根据同步统计推断法的检验,分别对每日的曲线与拟合曲线(黑实线)进行检验,发现所有组的检验统计量均小于临界值,说明了该停车场每日停放量高峰比的时变曲线在停车容量5%的振幅范围内同时具有代表性和同质性特征——简单地说,尽管某些时刻上的“点数据”值(比例关系)可能是不满足这条拟合曲线相应时刻上的数值要求,但是从全局来看,“线数据”是呈现出完全匹配的关系,那一个“点数据”的差异完全可以忽略不计。进而,证明了停放量高峰比的时变特征是具有代表性且是同质的。我们可以发现,也就是通过高峰比指标转换这把钥匙,证明了在某些条件下,代表性和同质性的存在,回答了我们一开始说到的那个“未解之谜”。
同样,对停车到达与驶离量高峰比特征的代表性和同质性进行检验,在全天停车驶入与驶出总量高峰比的1%振幅范围内,如图6(a)(b)所示,除春节期间2月份以外,其他各月份到达与驶离量高峰比特征均满足代表性和同质性条件,说明该停车场的日常停放量高峰比的到达与驶离特征同时具有代表性和同质性。对于停车时长特征曲线来说,也得到了相似的结论。同时,我们也对不同日的停车时长分布采用了非参数检验,检验结果表明该停车场的车辆停车时长分布具有同质性(非参数检验的同质性检验结果也说明了时长分布转移的趋势是相似的,也可认为拟合曲线存在代表性)。
(a)停车到达高峰比分布曲线
(b)停车驶离高峰比分布曲线
图6 停车场停车需求到达(a)/驶离(b)高峰比时变曲线拟合
图7 停车场每月停车时长曲线拟合
05
总结与启发
我们通过某停车场数据实例,各停车设施的停放量和到达驶离量时变特征曲线并不存在假设中的代表性特征,而是根据月份不同具有聚类特征,这就说明了一直以来,根据某类停车设施某一天的停车需求数据所获得的停车需求特征指标作为该类停车设施代表性的特征指标的做法存在着很大的问题。与此同时,从中还会发现,如果只对“点数据”进行分析,将会割裂停车需求变化的时间关联特征,而在“线数据”的应用中——经过高峰比的转换,停放量和到达驶离高峰比时变曲线才出现默认条件假设中的同质性特征。
为进一步验证其他类型停车设施的停车需求特征是否也存在代表性和同质性,笔者也在其他研究中进行了相关的验证,发现这些停车设施的停放量高峰比时变特征、停车到达驶离高峰比时变特征以及停车时长分布均具有代表性和同质性——即在不同的正常工作日,这三大特征指标的变化曲线呈现出高度相似性,也因此对于某一天的“线数据”而言就具有了代表性的特征。
这意味着什么呢?我们不再用担心抽样调查数据在解释停车需求特征时会存在大量的偏误,因为我们根据高峰比这把钥匙打开了数据之谜,提取了停车需求时变特征的骨架。简单到,仅用一天的抽样数据就可以将它几乎全部的形态展示出来。
可有了骨架,那其余的那些血肉呢?同质性发挥作用的时候到了。因为同质性的存在,已有的数据在某一个“点数据”上都形成了一个可以被同等对待的分布形式。这样就可以用概率分布来表示每一个“点数据”取值的可能,为更加全面的停车需求预测提供新的思路。传统的预测与规划,往往告诉我们一个孤零零的数字,它的意义少之又少。运营管理者很难从这些简单几个枯燥的数字中全方面的掌握停车场的运行情况。在面对大量数据时,概率是最有效的表达方式。当有了概率分布后,我们可以知道停车需求在多大情况下会突破已有设施的承载能力,进而有助于我们提高停车设施的运营效率。举个简单的例子,概率告诉我们一个可以容纳100辆小汽车的停车场在100天的时间里,有85天以上的时间是可以达到90辆小汽车的最大停放量,这为共享停车的价格制定和共享规则提供了有效的信息支撑。在此基础上,我们只需要基于少量的抽样数据预测下一天的停车需求总量或最大停放量,即可获得全天的停车需求时变情况。也就回到了开篇提到的那些问题,更加敏锐地判断需求的增减,为共享经济打开一个新的窗户。