4月6-7日,由赛文交通网主办的第五届中国智能交通市场年会在上海成功举办,在年会的分项活动交通大数据共享与应用论坛中,北京市交通信息中心工程师杨雪发表了北京市交通行业大数据应用示范的演讲。
以下是演讲实录。
各位来宾上午好,今天非常高兴能够有这个机会跟各位分享一下大数据技术在北京交通行业的应用。下面我将从三个方面开展介绍,向大家介绍一下北京交通大数据应用和发展。第一个部分分享我们在基础设施上面的建设成果,第二个方面大数据在重点领域应用案例分享,第三个是我们目前正在探索和摸索的方向,在可视化方面的研究。
先介绍一下基础设施的建设,这是我们关于交通行业的15年的规划和建设历程。分为3个阶段,第一个阶段是数据采集和存储的阶段,是从无到有的阶段。从09年的开始,探索建设交通行业数据中心,也是前面专家讲过,这个数据收集过程是非常困难,我们也是克服了很多的困难,包括跟各个部门交流和沟通,收集了大概包括交通委内部,行业内部和外部约20个系统数据,这个时期的存储特点主要还是以关系数据为主,主要实践的功能就是数据接入和共享,通过接入的数据,初步梳理了信息的资源数据标准,形成了一个初步的资源管理平台。随着数据中心逐步的应用,我们也逐步意识到我们在数据管理和应用上的不足。
在“十二五”期间,我们也在管理和应用上进行加强,升级数据中心,为交通行业的大数据中心,实现大数据的存储计算,在检测和管理上面更为智能,引入了一个更为规划化的管理体系。实现了初步化的定制化服务和数据服务。截止到目前位置,前面两个阶段是目前已经实现的工作,未来5年我们想加强平台化的数据服务,全面打造开放的数据平台。因为现在对外共享的方式,还是以搬家式的方式为主,我们希望未来更强调服务的形式,打造三大平台:一个是数据服务开放平台,定制可视化平台,还有信息资源服务资源平台。

下面的介绍就是交通行业大数据中心,会做非常详细的介绍。我下面的介绍可能跟前面的博康专家介绍有一些重合,但是我会从用户的角度,介绍一下我们对功能是怎么样的思考和思路。这是对交通行业大数据中心的理解,我们觉得大数据中心是以接入、管理、应用大数据为主,用户不管是行业监管部门还是行业企业,还是面向公众服务,最终呈现的产出物就是一个服务。服务是整个系统的核心,我们也希望能提供多样化的存储,达到较高的处理和存储水平。要达到高质量的水平,技术和管理是缺一不可的支撑。因此在建设大数据中心的过程方面,在技术、管理、服务三个方面都进行创新,在技术方面打造更为集约化大数据中心,优化整体框架、实现分布式存储与处理平台。管理上实现可视化的管理,还有全流程的规划化管理,服务上提供资源目录,经常服务的一些接口。
这个图是目前北京交通行业大数据的整体架构,下面部分是构成我们数据中心的5个方面实体,包括大数据存储平台,大数据分布式计算平台,共享交换平台,应用服务平台,还有管理支撑平台。这5个实体,本质上就是一堆服务器和后台程序,一些存储,对于用户来讲是非常不直观,看不见,也摸不着。我们针对用户,提供不同类型的客户可视化的入口、包括面向检测管理入口,规范化管理入口,面向资源用户的入口,以及后面的大数据信息服务的入口。
在技术上,另外一个创新在虚拟化平台的应用,其实虚拟化平台也就是云计算平台里面基础设施进行服务里面。在交通委出于交通安全的考虑,划分了很多的网络的安全域,不同的应用,在安全域里面是互相物理隔离的。比如说外网,如果是面向互联网应用的,就应该是在互联网域。对于用户来讲,只要知道自己在哪一个域,就不用考虑主机的购买和网络的附属问题,他只需要像虚拟化平台,申请服务,提出他对服务器的CPU、内存还有存储,以及系统的要求,就可以得到服务器的资源,进行自己的应用附属就可以了。大数据的平台,前面这个部分有我们共享交换平台的前置金银,还有应用服务平台的应用服务器,发布平台的计算服务器,都是用了虚拟化的平台当中的服务,就使服务器的利用率达到很高的水平,管理更加精细。
技术上另外一个创新是在存储上进行很大优化。我们当时在建设数据中心的过程中,采用比较单一中心数据库存储方式。在第一期建设中,在经历过两次的灾难性的颠覆以后,对这种方式的弊端体现特别深刻。就是曾经第一次进行灾难备份恢复,因为数据非常大,我们大概前后经过了20天的时间。而当时数据中心的用户还是比较多的,其中有一个部门对我们数据依赖很大,他们再一个月当中几乎不工作了,等着我们,所以压力真的很大。所以在第二期建设当中,我们对存储进行合理的划分和功能定位。根据存储的特点,把经常使用的一些数据放在业务库,把不常使用的放在历史库,把业务库的规模控制在6个T以内,这样即使出现一些崩溃,需要恢复时间也不会很长。而在业务库里面放经常用的半年以内或是一年以内的数据,同时我们也会根据数据生命周期,做一些存储的直划管理。在经常使用的的数据放到高速的存储上,而低速和中速存储上放一些不常使用的数据。比如说在历史库或者备份库,使用这种低速的存储设备,最大化利用空间资源。
第三种把文件存储方式统筹进行管理。除了用传统的管理数据库以外,还会用文件的存储,也是根据他们的特点,一些统计型的,指标类型的计算结果数据,还有在前端展现的,尽量是用关系型数据库,对一些遥感、GPS数据量比较大的数据,我们就用文件的方式。
我们的创新也是根据主流的架构,构建了大概有20多台服务器的计算平台,也就是用了一个开源平台,进行一些关键技术的研究,希望未来用大数据的时候,给他们提供一些基础。

下面我讲一下在管理方面的创新。大家现在看到的片子,是最初进行数据运维的时候用的手段。比如说运维时候,运维人员手工填写数据表,如果有数据接入的时候,在EXCL表里面回复这些数据,甚至包括一些主机的维护都放在EXCL表里面,在数据接入的时候,用一些图形化的方式,展现数据管理,很大的程度上依赖于运营人员的本身的职业素养和工作精细化水平。而且文件数据,很多的数据是掌握在不同的人手里,每个人手里都有认为比较重要的运维的数据。作为数据中心的管理部门,如果想知道这个数据中心目前有多少数据,到底给哪些共享,在最开始都让运维人员先去梳理,得到一个准确的数据。对于运维人员来说,他们也不是很方便。数据中心大概接了40多个数据,每天持续向37个系统和单位进行共享。每一个通路,如果数据有问题,都需要运维人员,如果一条一条检查,那工作量非常大。所以在前期只能保证对一些重要的系统做一些重点的保障,很多的问题都是用户直接反馈给我们而被动解决。所以这种被动式的运维方式,对用户的服务体验非常糟糕。
我们就引入了可视化的精准管理,这上面的很多的图片大家很熟悉,我就不一一介绍了,刚才专家都非常详细的介绍了每一个功能。比如说这是整体的运行监测图,可以知道我们整个数据的情况,如果有故障可以帮助运维人员发现故障和解决故障,然后共享交换的配制,对于硬件配制,对CPU,内存,如果有一些异常,在这里通过埋探针的方式进行检查。以及存储的配制,包括数据空间管理,还有存储的管理,通过这种仪表盘的方式,快速的收到我们存储,帮助运维人员快速进行处理。
管理另外一个方面就是制度的优化,我们这边也参考了业界比较流行的关于IT服务,结合自己的运维的流程,结合数据中心的实际,梳理的我们的流程,形成了规划化的管理体系。在2014年4月通过了ISO2000认证,在实际运维当中,通过线下审批流程,和线上规范化流程是相结合的方式。线下审批流程也是我们单位的工作特点,领导还是需要通过签字的方式,确认这个数据能否分享给哪一方。所以如果有用户方需要数据,首先要走共享的审批表,经过申请以后,提交到我们这边,我们在线上规划流程发起申请,给我们运维工程师进行处理。这也是帮助对服务提供商进行考核,有了规划化流程以后,所有的运维行为都有记录,实现了对他们非常量化,客观的考核方式。同时在这个规划流程,并不是自己独立的,在每一个最后结尾的时候,如果需要对前面的流程有配制项的更改,在后面都必须有运营人员进行配制,这样的话,流程最终完结,使我们可视化的检测管理,行程可持续的状态,也就是形成闭环的结构。
这是我们服务的创新,这个图片我就不一一讲里面的功能了,我讲一下从用户的角度,怎么用我们的平台。首先我讲一下目录平台。用户想用数据中心的数据,他得知道有什么数据,通过这个资源目录平台,可以快速查找他需要的数据。除了提供这种数据查询的之外,还可以通过关键字全文解锁的方式,就知道数据源的结构,我们还提供了100条左右的数据的样例。如果用户知道有什么数据以后,要使用的话,那么就可以使用定制化服务。比如说监测和行业管理部门,可能想对数据进行查看,通过工程师的简单配制,就可以提供查询和在线分析的模块。
第三个部分是大数据的开放平台,我们提供的功能有大数据公共秩序,也就是存储在大数据里面的数据查询,我们也会对一些流程做一些实例介绍。我们希望客户有一些数据平台有一些应用需求,可以把他们的应用放到平台上,用我们的资源,找出他们的结果我们也提供二次开发,目前在上面大概做了两个数据开发。也就是对出租车任意时段的历史轨迹查询,调用我们的接口,就可以在系统里面实现功能,不需要考虑数据存储的问题。还有是针对执法检查和投诉,有一些乘客在北京坐出租的时候,有可能东西落在车上,但是又没有打车票,这时候可以用我们这个服务,你可以提供从哪走,什么时间走,我们就可以提供很多可疑车辆的查询。

第四个信息发布平台,针对APP应用,如果行业企业,现在只针对行业内,行业企业需要开发自己的定制APP,我们这边提供了公交的一些到站,还有停车场实时的数据,他们要这些服务,就可以在APP里面进行发布。我们也是通过授权的用户,才可以使用这些数据。
下面我讲一下在数据应用上的一些案例。第一个讲的案例是出租方面的,这个主要针对我们行业主管部门,出于对出租监管的需要,北京从13年开始,就对出租行业的监管加强了,他们更需要一些数据的支撑,计算行业内的运营指标,小时出车率,当时出台了很多的政策,如果这些考核指标不合格,可能减他们的指标,所以对数据的准确性和计算的及时性要求比较高,在计算出租车的运营指标的时候,主要涉及到全北京市有6.67万辆车,GPS交易数据,还有司机合同数据,运管局人车部的技术审批数据,以及电商数据。这个总数据量是1.1-1.2亿条每天,在之前是按月出的考核指标,在之前用传统的方式,计算需要20个小时,而把它部署到我们大数据平台之后,就缩短到20分钟,提高了60倍。
第二个分享的案例是地面公交。这个应用主要针对公众服务,提供公交的到
站预测。我不知道在座有没有在北京共同和生活的朋友,我们现在已经发布了北京市公交的APP,如果你们在北京可以下载APP,坐公交可以实时查询我要坐的公交车下一辆车什么时候到,方便出行。我们做公交预测的时候,也经历了一个首先要算实时公交实时的运行速度。对于一些数据缺失,就用到历史的停止算法,我们现在也做了一些算法进行改进,现在做3万个路口的、交叉口的延误模型,让我们的预报、预算更加准确。
右边的图是通过几条路的对比,分析旧算法和新算法的准确率的对比。这套模型,也是跟公交集团进行合作,他们也在APP上进行发布的实时公交到站,也用我们这套模型。目前我们时实公交覆盖了北京3万多个线路,2万多站点,随着我们的基础设施、GPS的设备安装的全覆盖,我望把时实公交做到全市的全覆盖理念。
下面的案例是移动信令的分析,刚刚薛院长也分析了一个,跟他那个也类似。我们这个主要是用于交通政策的一些决策支持,处理的数据量每天有100G,完成出去OD、出行时空的分布、分析,实现居民出行的自动、及时,准确获取。
第三个是跟大家分享一下可视化的研究,这是我们目前探索的方法,为什么要做可视化?无非是四种原因,一种是对数据的呈现更直观,我们能够快速发
觉之间的关联,增加数据呈现的艺术效果,实现用户与数据的交互。这是我们对数据可视化平台的架构,底层是交通行业大数据中心的数据,地铁客流分布数据,中间是我们使用的技术,最终是在数据空间中,描述城市交通。这块我们也在这几个方向做尝试。上面的图是公交全网运行速度的展示,这是审计客运的分布,从北京出发的车,都到全国哪些地方,最下面是公共交通客流的展示。我们也是希望以后通过WEBGIS技术进行开放,实现用户的自配制和展现。以上就是我分享的全部内容,也感谢组委会给我们这次的给大家交流和学习的机会,谢谢大家。
来源:赛文交通网
————————————
分享最新交通资讯
交流互动热点话题
关注啸谈阡陌
关注交通·科技·人·生活