杨晓雯 博士麻省理工学院经济系地理信息数据分析专家美国美吉居地产大数据公司创始人
杨晓雯 博士
麻省理工学院经济系地理信息数据分析专家
美国美吉居地产大数据公司创始人
城市规划师可能对空间数据视觉化并不陌生,但是在经济领域里,还是一个很新的内容,每次看到这类可视化的研究成果,经济界的同仁都会倍感新奇。以泰国为例,当时我在做这个讲座时,坐在下面的都是泰国央行的官员,我就问他们:你们是否知道泰国人口迁移具体模式是什么样?大家想了一下还真不是特别清楚,于是我们就现场进行了演示。这张地图(图1)显示出泰国从80年代开始的人口变化模式。每个点就是一个省的人口,点大小就是人口规模的大小。红色点表示人口在增加,蓝色点表示人口在减少。我们可以看到,泰国的人口在迅速地向少数几个省份聚集,这几个省是泰国经济最发达的省份。在图上也可以看出,大部分省都在流失人口,只有少数的经济最繁荣的省如泰国的首都曼谷、清迈、和最繁荣的旅游区人口在增加。
图1:泰国人口变迁图
经济学界普遍有这样的一个概念,你做的事情要能够提高效率才有意义,现在我们做的这件事情就是要大幅提高效率。在过去,即使依靠最熟练的研究人员,做一个这样的分析,并得出结论,也至少需要一个星期,而现在你只需点开我们的网站,几十秒就可以看到。
这里还要特别强调,我们现在看到的视频是都是电脑屏幕的实时图像。换句话说,任何一个人在美国打开我们的网站,看到的网页更新速度和这个视频是一样的。对比现有的GIS网站,其最大的共同缺点就是速度慢。如果一个非专业用户,看到一个数据要在5秒钟之后,那么他就没有耐心去等了。
同时,我们还做了美国、巴西、中国的数据。图2是我们正在建的中国数据网站,泰国也很重视与中国的合作,尤其是工业部分,所以选择了这个数据。这个展示的是工业人口占人口的比例。通过这张图,任何一个对中国完全不了解的人,马上可以得出两个结论,第一个,人口密度最大的地方是东南沿海这个区域。第二个,中国的工业制造中心仍然在东南沿海地区,包括广州和上海这些城市及周边的省市。上海已经不算是区域制造业中心了,上海周边的城市和区域才是目前最重要的工业制造业中心。
图2:中国工业人口占总人口比例图
图3是巴西的数据,也是用同样的数据系统建设出来的,这张图与中国的数据是同样的逻辑。人口密度最高和经济最繁华的地方也是东沿海部分,首都圣保罗是巴西的经济核心。巴西和泰国都很像,只有一个大城市是整个国家的经济中心。
图3:巴西家庭收入图
我们的团队叫做MIT Lab for EconomicAnalysis and Design(麻省理工的经济分析与设计实验室),同时也与MIT的STL地产实验室合作。在中国,目前是与北大政府学院共同合作建立这个网站(图4)。在巴西是与他们的气候政策局合作,在美国主要是与Raj Chetty合作。Raj Chetty原来在哈佛经济学院经济系,现在刚刚去斯坦福经济系,是年轻一代经济学家中最出色的学者之一。他有一个自己的GIS团队,但是在建设公共数据方面,仍然决定与我们合作,说明对我们GIS网站建设能力的充分信任。
图4:国际合作单位
这里要强调这个网站的受众是需要迅速的了解数据和时空分布规律的人,而并不是专业的GIS研究人员。GIS有各种制图分析功能,我们从来不认为我们的网站可以替代GIS软件,所以我们没有开发各种复杂的空间统计分析功能,比如networkanalysis 等等。我们重点关注数据可视化(date visualization)。
下面是关于这个网站主要功能的介绍:
搜索功能
例如如果你想知道泰国人的工资是什么情况?我输入一个关键词(wage)后,网页上就会显示所有与此词相关变量数据,可以实现在不同的数据源里进行搜索。先搜索哪里有这样的数据,然后是哪年的,最后明确是到什么空间单位。这样一个流程下来,即便很熟练的专门做经济分析的人也要至少花一个星期的时间来研究。运用这个网站,可以为大家节约时间,这里已经把所有数据都整理好了,并具备搜索功能。比如统计每年的人口普查、或者每年的工业普查,在哪个数据源里,是哪年,在那一年可以精确到哪个数据单位,有时只能精确到省一级,有时可以一直精确到最下面的级别。出于隐私保护,我们数据单位最低是到相当于中国的“镇”这个级别,也就是在每个空间单位里至少有几千人,显示的数据都是做过聚集分析,避免能推测个人信息。
图5:搜索功能演示图
重叠功能
如果我们想知道不同指数之间的关系,例如想知道工资收入与当地工厂分布之间是什么关系?工厂越多工资越高?还是越低?或者不同类别的工厂对工资收入的影响,私营企业和国有企业对工人工资收入变化的影响是否一样?我们就提供了一个重叠功能,可以选定企业的类型,比如我们选定的是私营企业,每个圆环代表投资规模,根据网站显示就可以看出,投资越多的地方,工资越高。
图6:重叠功能演示图
下面这个是我们研究小组在做的一个项目,我们组在泰国搜集到了20多年的农村入户数据,有这些农户每月收支平衡表,以及是否发生结婚、生子、迁移、受伤等事件。对一个人一生中出现什么事情,农户会是什么反应,经济情况如何变化,全部可以画出来。做这种研究的意义何在呢,如果有人在泰国,像在中国一样给农村发放小额贷款,这个数据就能起到预估当地农民的信用、预估信贷风险的作用,试错成本会很低。同样是工资收入,上面是国家的问卷调查统计分析出来的数据,现在可以也看到其他形式的问卷调查,利用同一个指标不同的数据源进行对比。
动态演示
如果仅仅是一张统计图,有意义,但是通过不够大,如果能够知道同一个指标的时间变化、时间迁移,其意义就会大很多。通过下面的分析图,我们可以看到泰国各省经济发展的时间顺序,基本是从首都曼谷向外扩散的,1998年时颜色开始下降,也就是很多省的GDP数据在下降。这个如果与同样时间段的人口迁移放在一起,就可以看到经济发展与人口迁移发展的模式,尤其是它们之间的互动关系。GIS软件可能只能提供一张地图,我们这个软件还提供打印和输出、下载功能。
图7:泰国各省经济发展动态分析图
我们网站最大的作用是对于没有GIS软件背景的人提供一个快速的数据空间分布显示,并且节约时间。它的目标用户是需要做大量商业分析的人。以前很多人知道我们的数据很丰富,发email来问,这种支持对于我们说也是一个巨大的负担。所以我们就把所有的数据都放在网上,有需要的人自己下载、自己制图打印。还有一种目标用户是就是公共政策制定人员,他们可以迅速的看到人口,资源的分布,据此制定相关政策。
2000年左右大家一直在Internet GIS这个方向努力,但是一直没有造成很大的反响。最主要的原因就是速度慢,在速度和数据量之间是很难兼得的。如果网站很快,可是只能提供3-5个变量的数据,如果能够提供很多变量数据,那就慢得不可思议。我们的网站所含的数据量超过20万个数据量,主要来自四个源头,这个数据是通过80年代到现在整整20年的统计,并用统计软件进行了分析,在中国可以看到省、地区、镇级别的相关数据。但是我们提供了这么多的变量,却并没有牺牲我们的速度。
我们与美国世行、美联储、美国国家统计局的GIS网站进行了比较。通常评价GIS网站有三项:第一项是精度,能够提供什么级别的空间单位,像中国一共有行政五级,如果我们网站可以提供到四级,那么就可以看到很丰富的数据;第二项是能够提供多少变量,如果这个网站只能提供10个变量,那大家对这个网站的兴趣也就有限了;第三项是速度,所有的网站都需要速度。精度上看,我们的上限是8000个单位,在目前GIS网站里是最大的。在美国我们可以提供到郡这个级别,大概有4000多个单位的数据,美联储与美国统计局网站现在可以达到这个精度。世行一共只能发送200多个单位,不在一个数量级上。
在数据变量的多少上,世行、美联储的网站结构都是可以提供无限量数据变量,代价是速度慢。而美国统计局的网站速度很快,但是只能提供10多个变量。我们的网站在精度,数据量,速度这三个纬度都很好。就会有人问,你们在MIT,是不是你们用了很多电脑资源呢?不是,我们用的是一个很小的一个虚拟机,基本就是一台台式电脑的配置,而且这个虚拟机把4个国家相关数据都放在上面了。
图8:精度、速度和数据量--其他类似网站的对比图
我们是如何做到上述的工作呢?又快又精准还用的资源少呢?
(1)选择合适的技术平台。
a)这个平台首先是我们自己能够继续编程的,如果你只需要显示3-5个变量,Mapbook是最好的。对于我们来说我们有上万的变量,那就一定要编程。其次这个技术平台一定要有足够大的用户量,所有的软件都会有bug。如果用户量太小,你会发现你总是第一个遇到bug的人,然后你与对方联系修bug,而对方什么时候可以修好还不确定,工作进程就会延后。所以我们要评估他有多少用户。
b)我们在每个国家的项目都和当地机构合作,要假设合作方基本没有GIS管理人才,就是一个普通的计算机维护团队。
c)MIT经济系的服务器资源很贵,服务费一点不比外面便宜。经费对于我们来说很重要。所以从架构设计开始,就要努力瘦身,节约资源。
当时是从Mapbook,Geoserver和ArcGIS三者里做选择。Mapbook这个软件最大的好处是容易上传,但是如果有上万的变量,就很难管理。Geoserver和ArcGIS上两个平台上,Geoserver是免费的,但是它缺了最重要的因素,就是只能做静态链接,不能做动态链接,最后只剩下了ArcGIS,它的客户群也足够大,对教育机构又是免费,所以我们就选了这个。
(2)数据库架构设计。我们传统的GIS软件数据结构是一层一层的,空间的部分占了重大的比例,而表格部分占的比例很小。但是在社会科学的GIS网站就反过来了,空间部分占的比例非常小。比如我们对这个网站做一下分析,你会发现,空间部分只需要4-5Megabyte就可以了,它的储存空间的主要是用在各种变量上,所以数据结构比例与普通的GIS网站是完全相反的。
图9数据库架构设计图
所以我们选定了这个数据结构,首先所有空间部分是区域、地点、企业地点等,在这层只有空间数据,所有剩下的变量都放到了另外一个数据库,每次客户用的时候,如果问了6个问题,你只需把6个变量提取出来和这个空间数据联系在一起然后发给客户就可以。其它的GIS网站,通常的管理方法是一层一层,你要先下载。比如你想看省的数据,一般每一层有6-20个变量,尽管你只要看其中的一个,但是它会把剩下的全部发给你,这就是为什么速度不快的原因。
(3)Cache。我们还做了一件事情,因为我们知道空间数据只有这几种,第一次下载会很慢,以后每次空间数据都已经在用户的电脑上,下次直接发给你表格数据然后动态链接,然后显示。这样就会把空间数据存在用户的电脑上了,这个是速度快的原因之一。
(4)提前计算。现在很多GIS网站显示最小值,它不是提前算好,而是现场算,在服务器上算。如果同时有100个人在算,那网站速度就会大幅下降。其实我们知道,大家常看的值一般就是最小、最大、平均值、中间指,总值,标准方差,那就写好程序,用统计软件自动把每一个算出来,然后上传就可以了。
过去GIS网站为什么不这么做?就是因为前面提到的传统的GIS数据管理是一层一层的,增加变量后管理上很困难。像我们这种模式对编程的要求很高,需要把从统计到GIS的规则写清楚。
网站的下一步目标是上传更多的数据,数据越充分,意义就越大。还有一个是把我们的系统从FLEX更新为JavaScript系统。我们的系统是5年前设计的,当时联储的网站还没有开始建设。我们比其它的世行、美国统计局的网站都强。现在有一个问题,我们之前用的系统是FLEX系统,现在因为苹果普及了,而苹果上大部分看不了FLEX系统,所以我们必须要所有写好的功能就像翻译一样翻成JavaScript系统,这个就要找外援。因为我们希望能把精力更多的放在数据上。
我们的目标是帮助公共制度、公共政策的制定,和经济学家来看所有的数据,我们希望通过了解他们所需要的功能,来帮助下一步开发研制。这个网站最大的作用就是节约时间、节约成本,同时帮助科研的人,启发他们提出更有意思的问题。
学习交流:http://townsend-gis.mit.edu
文章来源:上海同济城市规划设计研究院·培训办
经演讲嘉宾本人审阅和修改,同意发表。