数据是智慧城市必需的部分,常常被用来辅助决策和政策的制定以及帮助与市民交流和商业沟通。这篇文章回顾了我们建立城市数据的软件应用来检验审视数据的准确性及其校验的过程。公开数据通常并不能保证其准确性,连续性或者联结性。因此往往也会导致数据提供者会分享一些有错误、缺失和偏见的数据。这些质量问题会在系统中进行传播并且导致最终数据应用的低效和决策的不可靠。在这篇文章里,我们展示了数据科学家以及开发者是如何以数据护卫者的身份对数据的清理、解析、验证和转换。这需要一定的精力、知识和技巧,但却很少人知道。因而我们建议使用众包的机制对不同用户的观察和使用过程进行记录,从而在开放政府平台中提升数据的质量。
我们拥有越来越多的城市数据。这些开放数据将会促进创新,提供管理的原材料,促成城市间的比较,帮助决策制定,以及最终形成一个可持续、弹性的和民主的城市。但我们却常常忽略庞大城市数据的准确性。这篇论文展示了在两个大数据应用中我们如何校验数据的质量。这两个应用分别依靠不同数据来源:一个是作为交互工具的实时数据仪表板,这种仪表板用城市政府和机关产生的数据来为市民展示都柏林正在发生的事情;另一个是通过爱尔兰人口调查和政府部门搜集的数据建立模型来模拟都柏林的交通情况。这种仪表板使用了最先进的实时数据展示技术,而这个模型则综合了时空数据,在最佳的空间维度上利用个体的出行行为来进行丰富而细致的预测。这两个都是“大数据”。一般情况下数据中间处理者对于数据的清理是一个黑匣子,数据提供者和最终使用者都不知道这个过程。而此文则是要揭开这个黑匣子,告诉使用者数据是如何被分析、清理、解析和验证的,从而使用者能够对这个过程产生信任。
我们使用众包的方法来评估不同领域的数据质量。这个方法将会用到Wikipedia和Open Street Map常用来收集和整理数据的的“创造、讨论、编辑“的模式。下边,我们就来看一下我们这一方法是怎样在上述的两个案例中应用的吧!