在本次研究中,研究小组通过站点和时间跨度组成的共变量来测算整个系统的规模。定义每15分钟t在车站i的入站数为Tit ,则:
{Tt ,i=1,2,…,268,t=1,2,...,96}。
整个系统整周内所有入站量的总和为:
T= ∑tTt = ∑iTi = ∑i∑tTt
(即一周内17,908,628 次总入站量)。
图1表示了主要车站的出入站总规模大小。每个枢纽车站的出入站总量是系统里空间和时间数量的总和。
图2 显示取样时间内站点的入站总量。这些数据呈现出类似于幂律分布的特征:少数的几个车站拥有庞大的客流量而大多数的车站只有小部分的客流量。工作日和周末都是如此。
如果单独对时间规模进行排序,则Tt :
Tt(1) > T(2)τ > ..... > Tδ(96)
将整个系统作为研究对象,则图3(a)显示Tt 入站总量在24小时内的分布情况;图3(b)显示Tt 入站总量的大小排序情况,其幂律分布均匀度不如预期;图3(c)为Tt 入站总量的对数函数图,进一步显示每15分钟入站总量分为两个部分:拥有大量客流,或者几乎没有客流。
目前为止,“牡蛎卡”大数据描绘出的伦敦轨道交通系统客流出行规律与世界上其他大城市的普遍规律具有一致性。若进一步探索差异性,则要引入区位熵模型,用以比较本地指标与全球指标。
首先计算某一车站在某时间段内的入站量占该车站所有时间段内入站总量 的比例,再计算整个系统(所有车站)的相应比例,用来检验整体系统中的单一对象的相对集中程度。如果模型系数大于1 ,则说明被检验对象的集中程度大于整个系统。该方法类似于区位熵,本研究称其为伪区位熵(pseudo-location quotient)。区位熵由Haig在《纽约的区域规划1928》中首先提出,用来反映地区产业的集聚水平。伪区位熵的系数可以表示如下:
图4 分别显示了以时间段和站点为检验对象的系数差异。两幅图中的基准线为系统平均值。出于可读性考虑,图4仅显示了部分数据。图4(a)为入站量最大的5个车站和最小大2个车站。随着时间推移,5个车站的集聚程度越来越大,另2个车站则相反。图4(b)显示7个车站在时间上的波动性。依图,最大程度的集聚和分散都出现在了早晨,中午前后较稳定,而傍晚波动较大。