在城市交通大数据分析中,聚类/分类是一个重要的工具。例如,基于空间活动特征的用户聚类/分类,其本质是对空间活动模式划分,是简化个体活动属性表征的一种方法。而个体空间活动模式的识别,则是为了确定其类型归属,以便于讨论不同个体活动的差异。
概括地说,将研究对象分成不同的类别,其主要目的包括以下几个方面。
① 通过分组来降低研究对象构成的复杂性——与问卷调查等获得的信息不同,以移动通信数据、公交IC卡数据为代表的大数据,由于个人隐私保护的考虑,无法提供个体相关社会经济属性信息,自然也具无法根据个体的社会经济属性来进行分组,观察不同组别的行为差异。但是我们可以通过个体空间活动特征来进行适当分组,假设在同一组别中个体的社会经济属性相对单一,进而研究不同组别的行为差异判断与社会经济属性之间可能存在的关联性,来补充相关信息的缺失。
② 简化属性表征以便于关联分析——通常,从原始数据集经过初步加工会得到一些包含低层概念的信息,而数据挖掘并不需要细化到这样的程度,借助“物以类聚”的特点,进行概念分层,利用高层概念替代低层概念,克服大数据产生的维数灾难给研究带来的负面影响,从而为关联分析创造条件。
③ 分类归并以便于案例剖析——由于城市交通呈现纷繁复杂的状态和变化,对个别案例进行的深入调查研究得到结论,往往难以确定其普遍意义的程度,也就是所谓的“选择性偏差”。根据大数据对整体结构的分析,将现实情况归结为有限类型,则有助于正确地选择需要深入深入剖析的案例对象,并说明案例分析结论的代表范围。这就是所谓的“宏微观嵌套”分析框架的基本处理问题方式。