——城市交通大数据分析平台建设的技术路线讨论
当城市交通大数据平台建设成为热点之后,不同技术背景的参与者在平台设计构想中实际上存在显著差异。如果从技术主线来说,可以分为“摸着石头过河”和“认识论/方法论导向”两大类型。当然,现实中许多系统并不能绝对泾渭分明地划分,但是实践中还是处处体现出两条主线的不同程度影响。
城市交通是一个不断发展的复杂适应系统,许多问题是在发展的过程中逐步提出的。由于设计阶段完全不可能固化未来的全部决策分析作业需求与流程,因此支持城市交通决策分析的信息系统,不能采用基于固化的工作流来确定功能需求。因此,很多设计者采用了现实主义的技术路线,在构建一个基础性数据系统时,强调先把数据资源汇集起来,并通过主题方式组织相关的数据查询。至于利用这些数据资源来完成决策分析工作,则留待未来逐步完善。这种处理方式对于一般数据仓库系统来说是没有问题的,但是对于城市交通大数据分析平台来说却是存在明显的缺陷。
城市交通大数据分析平台不能采用摸着石头过河的方式进行设计,其主要原因正是在于“大数据”!
作为一种大的数据资源来说,其存储容量和管理远远超出了一般人的想象。例如百万路级的视频数据,一个月的数据量就可以达到EP级。但是一个月对于许多交通行为和模式变化规律来说,只是一个很短的观测时间片段,无法满足研究演化规律的需求。显然,我们不可能也不应该将全部的海量数据存储起来等待以后使用,而是需要将海量数据划分为原始数据级、基础数据级、轻度抽象数据级和高度抽象数据级,设计相应的存储和管理方案。既然是抽象就要去粗取精,这就有赖于认识论/方法论的指导,确定各个级别的数据内容与结构。这种涉及数据仓库结构的数据模型,需要在系统设计阶段就加以明确,否则会出现后期使用才发现数据资源细节不够等问题,甚至具有导致系统崩溃的可能性。
大数据分析平台不意味着不加选择地向其中收纳数据,但是同时也需要注意到历史数据的缺失是不可能通过回溯方式加以弥补的。因此在系统设计阶段必须对城市交通大数据分析平台需要收入的数据加以确定,既要避免不加选择地膨胀系统,也要避免有价值数据的缺失。为此要以城市交通的认识论/方法论为基础,确定观察研究对象的方法,以及由此产生的数据观察要求。城市交通大数据绝非简单的量大,而是强调从多角度、多层次、多方式进行连续观测。对于问题认识的不正确,往往会遗漏重要的观察角度。
城市交通发展的复杂性,来源于适应性主体不断根据环境和外部条件的变化调整自己的选择行为,这就要求我们必须关注于具有社会属性的“人”的信息,包括习惯、偏好和态度等。传统的意愿调查可以获得不同类型人群的选择行为信息,但是受到样本数量局限很难把握不同类型人群的空间分布。对于这类不可或缺的信息,需要确定小样本调查数据与大样本观测数据的概率映射关系。也就是说,在数据平台建设的同时,需要制定相应的补充调查机制,以及建立数据间链接的方法,以保障信息的相对完整性。
现实中可以明显地看到城市房价空间分布对于职住关系产生重大的影响,大数据平台如果不能将有关数据纳入其中,将来使用时就难以解释某些职住空间关系的产生原因。房价的空间分布情况受到多种因素的影响,且不断发生变化,相应的数据采集方法和规则,也是城市交通大数据分析平台建设初期必须加以确定的问题。
相关研究表明,人的空间活动行为还需要从时间轴上加以解释。我国尚未建立定期按照一定采样规则进行的居民生活时间分配调查的制度,使得对于城市交通与居民生活质量的关联,以及交通网络与公共服务设施的协同等问题,难以获得有效的数据支撑。必须补充建立调查制度,并建立数据间关联信息的问题。
城市交通的理论和方法不是一片荒芜之地,数十年来大量的研究工作、调查分析和规划设计实践,积累了宝贵的经验和资料,也形成了非常有价值的理论与方法。大数据所带来的变革,需要在尊重已有规律认识,以及建立与历史认知关联的基础上展开,轻易否定已经形成的理论、方法、经验,重打锣鼓另开张地构建毫无相关性和继承性的新体系,这并不是一条正确的技术路线。这就需要基于已有研究成果,对系统运行特征进行分析,判断研究对象的系统属性。例如,对于不确定性的成因,究竟是随机系统属性,还是混沌系统属性,由此导致的分析要求和对策设计方法均有巨大的差异。
简而言之,城市交通大数据分析平台的构建,需要针对一个具有复杂适应系统特征的研究对象,建立一个包含历史变化追溯能力、行为主体社会属性说明能力、空间行为观测能力的多维观测体系,以适应系统控制、需求管理和系统规划等方面多样性的需求。缺少对于观测体系框架科学合理的判断,简单地将已经获得的部分大样本数据塞进数据仓库构建而成的信息系统,很可能犹如跛脚巨人,并不能对城市交通对策体系产生革命性影响。在系统设计过程中,认识论和方法论的作用,是指导我们正确地搭建多维观测体系。