之所以强调这一问题,源于在交通大数据应用研究中所发现的问题。这里所谓处理逻辑,涉及数据处理获得特征值的处理规则和假设。
事实上,交通大数据分析所获得的一些属性特征并非依据“直接信息”完成统计分析后得到的信息,而是经过推论所获得的“间接信息”。在传统的交通调查中,居住地、工作地、出行、出行目的等,均是居民出行调查所获得的直接信息。但是在利用移动通信等数据所获得的这些属性特征,是数据分析师在某些假设的基础上,通过推论而得到的。例如,居住地一般是利用一段时间内夜间停留地点的次数和时长推断而来,工作地是通过用户在工作时间内空间停留地点的规律推断而来。表面来看,这种推断似乎是逻辑正确的,但实际上其中却存在很多陷阱。例如,无论联通或者移动的手机数据,都存在按照省来进行数据处理的情况(只不过联通跨省数据具有保持个体ID一致性的可能性,而移动数据至少目前很难做到跨省ID一致性追踪),即存在省域边界断链或者截断后连接的问题。这时的处理规则如果不能与出行特征相一致,将出现在省域边界个体活动异常增多的情况。还有,在城市内部交通的大数据分析中,往往将个体在某一区域(地理栅格)停留超过一定时间阈值定义为在这里产生了一次活动,即识别为“活动点”,以区别于“途经点”,但是在城市群的流动分析中,个体会在对外交通枢纽停留一定时间,这类活动点是城市间流动中的一种特殊“活动”,实际上是一次城际出行中的特殊停留,而不应将其识别为两次出行。再有,识别居住地和工作地的数据时间长度是否一致,如果拿半年或者一年的数据识别居住地,拿其中一个月的数据识别工作地,往往出现对于具有一定流动性的进城务工人员的职住关系误判(我们在长三角城市群的相关数据分析中曾经出现无法解释的上海与苏北地区间的职住联系集聚,应该是由于这种原因所产生)。
正因为存在上述之类的问题,因此在交通大数据分析中就出现了用于推论的规则、或者称为数据处理逻辑,会对特征属性产生极大影响的情况。在目前的交通大数据分析中,使用者与数据分析师之间缺少对于数据处理逻辑的约定,从而出现协作障碍。需要再次强调,交通大数据的处理规则或者处理逻辑,是一个需要在使用者和数据分析师之间加以明确的工作“界面”。在没有建立相关标准之前,数据分析师应该对此做出明确的说明,只有这样才能够获得可信数据。
交通大数据应用中的另一个问题是数据应用逻辑,这是指在获得可信数据后如何有效加以使用,从而真正将大数据资源转化为决策能力提升的问题。对此将在后续推文中加以讨论。