本文由中国城市规划设计研究院信息中心与清华大学数据科学研究院校企合作“大数据实践课”项目成果整理而成。
作者:
刘千惠,沈一琛,张恩嘉,周 培,哈日桂,夏雨妍
信息中心实践导师:
于沛洋,金 银,贾鹏飞
1
POI核密度分析哪里不“科学”了?
城市POI数据(points of interest, 兴趣点)涵盖了城市各类设施的位置与属性信息,是城市研究的基础性空间大数据。其分布的密度、集聚趋势等特征也是城市中心识别,城市功能区评估的重要技术手段。其中,POI数据的分布密度是对空间现象的一种场表达。大到国家、地区甚至全球体系,小到城市、街道、社区,在实际的地理空间中,人类的社会经济活动在不同的空间尺度下,往往表现为若干节点的集聚,并在不同的空间统计单元中形成强度等级各异的集聚中心。因而,利用海量的城市POI数据的空间点位信息以及其相邻点间的空间关系,模拟城市地理空间的聚集强度是城市中心识别的核心思路。
事实上,这种距离越近的关联越紧密的密度分析法是地理学第一定律思想的表达。其中Rosenblatt和Parzen提出的非参数估计法,即核密度估计法应用最为广泛。该方法不需要相关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本出发研究数据分布特征的方法。因此,在统计学理论和应用领域均受到高度重视,也是相关研究中最常用的空间分析方法。
然而,受限于POI数据自身的属性特征。维度单一的POI数据往往只能反映城市各类设施点的地理空间分布,与实际的社会经济活动强度并不直接相关。为克服数据固有的缺陷,相关城市中心的识别多采用属性加权的方法进行弥补。
例如,在城市商业中心识别的有关研究中,研究者多采用商业设施的营业面积或营业额,作为密度分布估计的属性加权;在就业中心的研究中则采用就业岗位数量进行加权,但相关加权属性往往难以直接获取,大量的实地调研访谈工作也稀释了海量POI数据中固有的空间规律价值。加权属性中诸多的不确定性使得相关研究往往停留在对城市的个案观察,难以在城市中心识别研究中直接推广。
另一方面,研究者将核密度分析更多地视为一种即用性的工具,对算法本身有欠考虑。具体而言,核密度估计法基本形式是:
其中,M是数据点个数,h是带宽(即GIS核密度分析中的搜索半径),K是核函数。可以看出,在算法变量中带宽选择是唯一需要额外控制的重要参数。一般而言,地理模型作为真实世界的模拟,不同研究尺度会选择不同的带宽。例如,在研究城市运行的宏观规律时,较大带宽会忽略细节变化更易凸显城市的整体规律,反之较小带宽则局部极值较多,更易观察城市的局部特征。
不同尺度的POI选择
来源:Bertaud A. The spatial Organization of Cities: Deliberate Outcome of Unforeseen Consequence?IURD Working Paper Series[Z]. IURD Working Paper Series, 2004
对于相关问题的考量,研究者往往会选择多个带宽进行比较。然而,综述已有研究,选择合适的带宽(尺度)经验干预较大。合适的带宽参数选择往往会异化成如何选择最有利研究结论的带宽,表现出极强的主观性,进一步弱化了POI核密度识别城市中心的科学性。
表1 POI识别城市中心相关研究核密度分析带宽选取情况
2
如何让POI核密度分析更加“科学”?
研究方法
技术路线框架图
方法优化由四大部分组成:
(1)POI数据分类,以城市居民生活中不同类型活动空间集聚特征为着眼点,对地图服务商提供的POI功能类别进行重分类。
(2)手机信令加权,弥补POI难以体现社会经济活动强度的不足,通过对手机信令数据的挖掘,对活动强度高的POI点进行权重提升。
(3)核密度分析优化,在厘清概念与原理的基础上,挖掘POI本身数据集特点对核函数、带宽确定进行方法论优化,减少主观判断因素,避免次级中心的遗漏,这是本文的重点。
(4)数据校验,由于仅依靠经验无法准确得到较为客观的城市中心,主观行政意愿的城市中心往往与现实的发展程度不一致,以较为客观的夜间灯光数据进行校验的量化。在研究过程中,校验结果反馈于手机信令加权、核密度分析优化,进行迭代。
在实证研究部分,本研究通过对西安市域城市中心的实际情况进行分析,与过往城市总体规划、实际发展情况进行比对,再次验证的同时廓清西安城市中心的整体情况。
研究数据
1.西安POI数据,数据主要属性是其地理坐标与相应的功能代码,共295438条。
2.联通基站手机信令数据,数据基本空间单元为覆盖西安市域范围的250m网格,数据主要属性为分小时的手机信令识别的人口数量。
3.夜间灯光数据。数据主要属性为城市灯光亮度值。
3
数据处理与方法优化
POI数据分类:多重分类,特征简化
西安市域POI名称词云图
原始数据集对POI已有初步分类,对照POI名称分词的无监督词云聚类结果,人工对已标注的数据进行整合,将标签压缩为三类,即商业、就业、生活(三者可以互相重叠)。分类结果为商业217591条,就业277197条,生活91400条。
具体而言,标签着眼于各类活动在空间中集聚状态。即能提供就业岗位的就业类的POI取向就业类型;能提供与空间息息相关的消费活动的POI取向商业类型(1.去除线下商业活动频次过低或主要商业功能不发生在该点的POI类型,如保险公司、家政公司,2.去除存在消费行为但是商业活动并非本质属性的POI类型,如历史名胜、文物古迹);与日常生活活动相关的POI为生活类型,包括相关的商业(如美容、按摩店等)、公共服务设施配套(中小学)等。
POI分类表(局部)
? 手机信令加权:属性加权,见物见人
手机信令是运营商记录用户在移动网络中位置信息的数据,其自带的时空特征常被用于职住地的识别。不同文献对于职住地区的识别的手机信令数据筛选时段不同,但整体上通过白天的长时段识别作为工作地识别依据,晚上的长时段识别作为居住地识别依据。通过不同时段内人所在网格的数量统计来判断居住地及工作地。
相关文献的职住时间识别时段表
综合已有的研究,本文将居住地识别时间定为22:00到次日6:00,工作地识别时间定为9:00-17:00,娱乐地识别时间为11:00-19:00。具体规则为:
(1)计算每个网格工作日在22:00-6:00时间段内的平均人流量PoP1;
(2)计算每个网格工作日在9:00-17:00时间段内的平均人流量PoP2;
(3)计算每个网格工作日在11:00-19:00时间段内的平均人流量PoP3;
(4)计算每个网格周末在11:00-19:00时间段内的平均人流量PoP4。
各类用地判别:居住地判别:PoP1>PoP2, 工作地判别:PoP1<PoP2,娱乐地判别:PoP3<PoP4。
本研究选取的时间划分方式
最终得到的居住地的网格有8634个,工作地的网格有21598个,娱乐地的网格有17149个。POI点加权赋值结果:由于原就业、生活、商业加权值取值范围是0/1,职住娱的网格值取值也为0/1,因此,最终对应加权值有0/1/2三个值,为后续自适应带宽的核密度分析提供权重。
? 核密度优化:带宽自适应,中心不遗漏
核函数的选择有多种,包括均匀核函数、三角核函数、高斯核函数等。在核密度估计中,带宽的选取会对估计的结果产生很大的影响。已有研究表明,对于一般的问题,核函数的选择对核密度估计的结果影响不大(D.W. Scott,1992;B.W. Silverman,1986)。基于此,在本文的研究中,可以不失一般性地使用高斯核函数。
从数据的角度,带宽的大小决定了核密度估计结果的平滑程度,带宽越大越平滑。在POI的研究中,带宽的设置主要取决于分析尺度和地理特征。较小的带宽更适用于揭示核密度分布的局部特征,而较大的带宽反映的更多是全局的特征。在城市中心的模拟中,由于人群密集的城市地区的POI密度更高,乡村地区POI密度相对更低,因此不同的位置应当使用不同的带宽,才能得到合理的结果。自适应带宽的既有研究中,往往是基于一个经验公式确定一个初步的密度值,然后再根据这个密度值,以一个公式进行映射,模拟点稠密的地方带宽较小,在点稀疏的地方带宽较大的特点。
然而,这样的研究有一个明显的缺陷。即当研究范围较大,不同地区的POI密度差异较大,那么POI密度偏小且远离核心区的次级中心(比如乡镇地区)在初步估计中就会被忽略,在随后的迭代中也不会再出现。
因此,本文提出一种改进方法,可以避免上述缺陷。改进方法的计算框架如下:
改进方法的计算框架图
在新的框架中,并没有直接去统计点密度,而是先确定每个POI上对应的点个数n,再用经验公式确定带宽。而框架中的Scott (D.W. Scott1992)经验公式的对POI数量变化并不敏感;这样在POI的分析中,虽然高级别的中心和低级别的中心(比如城市和农村)之间的POI数量虽然有明显的差异,但都不会落入Scott公式对n非常敏感的区域,有效避免在大范围分析中,低级别中心因为带宽的选取而无法被提取到的问题。
为了验证本文的方法,随机生成了一组POI数据。生成方法是以坐标原点(0,0)为中心按照标准正态分布生成1000个随机点,再以(5,5)为中心按照N(0,0.3)生成100个随机点。下图给出了改进的自适应带宽KDE过程可视化示意图。
改进的自适应带宽KDE过程可视化
而通过本文的分析,已有的一些使用固定带宽的KDE分析作为自适应带宽初值的方法,在一些情况下会导致较小的中心不被发现。上述现象在下图中给出。
传统KDE和本文方法的对比
? 夜间灯光校验:反向叠加,校验优化
传统夜间灯光数据的研究中,城市亮度极大值的寻找往往是研究的核心。然而,寻找极大值的校验模式会削弱POI寻找中心的意义。根据常识,夜间灯光局部较暗的区域是城市中心的可能性较小,故本研究采取局部极小值排除不太可能为中心的点进行反向校验。
本研究中假定A为核密度分析结果局部极大值与灯光局部极小值重复栅格数,B为核密度分析结果局部极大值栅格数,则A与B的比值可以作为灯光数据视角下核密度估计的错误率。
灯光数据校验方法示意图
固定带宽核密度分析结果
经过校验,随着全局固定带宽的增大(1个栅格单元至15个栅格单元,即约500m至7500m带宽范围),误差整体呈现先减少后增长、最后随核密度分析结果的单中心化趋于稳定的态势。2000米是西安三类功能均适宜的固定带宽,5000米以上呈现明显的单中心特征,极值较为稳定故错误率也较为稳定。
固定带宽核密度分析结果错误率
下表考察了具有适度多中心特征下的500-4000米固定带宽核密度分析结果与本研究优化方法下的结果。其中,灯光数据对生活类POI的校验有效性不佳,此情况符合常识,居住区夜间灯光并非较强的城市区域。未加可以反映人口社会经济活动特征的手机信令权重的POI自适应带宽结果错误率与500-4000m固定带宽结果的平均错误率基本持平,但在加权后明显优于平均值。故从商业类、工作类POI的校验结果看,自适应带宽+手机信令数据权重优化的方法准确性较好,可以替代前期主观判断下的带宽与权重选取。
三类城市中心各方法错误率表
No.4
实证分析:西安城市中心的识别
? 商业中心
对本文优化方法得出的分析结果进行自然间断点法聚类,共计9类,去除等级最低的两类(数值下15%),识别出了6个不同等级的商业中心,下表为各组别商业中心地的个数及其具体商圈。
商业中心地的数目及商圈
商业中心识别结果
第Ⅰ级包括钟楼、北三环建材市场2个商业中心地。钟楼商圈商业密集度极高, 商业店铺林立。东南西北四条商业街各具特色。作为钟楼商圈最具特色的商业形式便是步行街, 其中最具代表性的有骡马市步行街和北院门步行街。而位于西安北三环建材市场商业中心地聚集了大批的建材商场,其中具有代表性的有三环大明宫建材家居批发市场等。
第Ⅱ级包括小寨、胡家庙(康复路)2个商业中心地。小寨商圈位于高校林立的南郊文化区,周边高校林立是长安路乃至城市轴线的一个重要节点, 西安市的经济文化副中心。康复路商圈是以服饰为主的专业型批发市场,涉及到服饰、皮具、鞋业、小商品、轻纺等类的市场。
结合西安城市总体规划及实际的业态与中心区识别的结果,可以将西安市六级商业中心地进一步总结划分为市级、次市级、街区级和区县级四个层级,结果如下表所示。其中,北三环建材市场因其业态的独特性、同时也因在总体规划中并未列为城市级商业服务中心,因此市级的商业服务中心列钟楼一处。
西安市四个层级的商业中心
? 就业中心
采用上述相同的方法,将校验过后的就业网格进行聚类,并识别出了六个不同等级的就业中心,下表为各等级的就业中心地的个数及其具体地点。
各等级就业中心地个数及圈层
就业中心识别结果
研究表明就业中心在市域层面呈组团式发展,而在中心城区层面呈现三中心集聚形态。就业地围绕三个中心形成圈层式结构,由中心到外围呈现明显等级化趋势。
市域层面:市域层面与商业中心吻合度较大,呈“组团式”多中心结构。
市区层面:就业中心较商业中心集聚程度较高。呈现三中心集聚形态。并且钟楼就业中心与小寨就业中心相连成片。围绕三中心形成圈层式结构,由中心到外围呈现明显等级化趋势。
? 生活中心
通过对校验过后的生活类数据进行聚类,识别出了六个不同等级的生活中心,下表为各组别生活中心地的个数及其具体地点。
各等级生活中心地个数及其具体中心地
生活中心与一主多副的城市建设规划目标相吻合,一主主要集中在钟楼片区。而小寨、胡家庙(康复路)、高新与韦曲等四个片区相连绵成片并形成了第二层级的生活中心。而作为第三层级的鱼化寨、经开区、航天城等地区被划分的较为清晰。在区域层面的六个区县中,临潼区生活中心等级最高。周至县、鄠邑区、阎良区位于其次。高陵区、蓝田县的生活中心等级则最低。
生活中心识别结果
No.5
基于POI的核密度分析是规划领域中经典的大数据应用。但POI数据的自身局限以及核密度分析中固定带宽的主观选取,使其分析结果的可信度饱受质疑。
利用融合多源数据的视角,本研究将POI的地理特征与人类活动的时空特征相结合,在一定程度上弥补了POI数据的不足。另一方面,本研究优化了传统核密度分析的算法,提出了带宽自适应的方法。通过密集与稀疏处不同带宽的选取,强化了人类活动与空间功能上的互动关系。
从结果上看,改进后的核密度分析法兼顾了整体与局部特征,能发现传统方法所忽略的次级中心,摆脱了主观选择带宽的分析流程,对多等级的城乡中心密度的估计效果更好,是一种较为准确、可操作性较强的分析方法。
主要参考文献
[1]Friedmann J, Miller J. The urban field[J]. Journal of the American institute of Planners, 1965,31(4):312-320.
[2]苑振宇. 基于空间点模式方法的城市商业网点空间特征研究[D].南京大学,2014.
[3]张珣,钟耳顺,张小虎,王少华.2004-2008年北京城区商业网点空间分布与集聚特征[J].地理科学进展,2013,32(08):1207-1215.
[4] 史宜,杨俊宴.基于手机信令数据的城市人群时空行为密度算法研究[J].中国园林,2019,35(05):102-106.
[5]杨朗,周丽娜,张晓明.基于手机信令数据的广州市职住空间特征及其发展模式探究[J].城市观察,2019(03):87-96.
[6]钮心毅,谢琛.手机信令数据识别职住地的时空因素及其影响[J].城市交通,2019(03):19-29.
[7]邹戴晓,过秀成,樊钧,潘敏荣,郑美娜.基于手机信令数据的苏州市域职住空间和通勤出行分析[J].现代城市研究,2018(12):16-21.
[8] D.W. Scott, Multivariate Density Estimation: Theory, Practice, and Visualization[M]. John Wiley & Sons, New York, Chicester, 1992.
[9] B.W. Silverman, Density Estimation for Statistics and Data Analysis[M]. Vol. 26, Monographs on Statistics and Applied Probability, Chapman and Hall, London, 1986.
[10] B.A. Turlach, Bandwidth Selection in Kernel Density Estimation: A Review[J]. CORE and Institut de Statistique, Vol. 19, pp. 1-33, 1993.
[11] D.M. Bashtannyk and R.J. Hyndman, Bandwidth selection for kernel conditional density estimation[J]. Computational Statistics & Data Analysis, Vol. 36, pp. 279-298, 2001.
[12] Gray P. G., 1969, Journal of the Royal Statistical Society. Series A (General), 132, 272
[13] Yu Wenhao, Ai Tsinghua, Yang Min, et al. Detecting "Hot Spots" of facility POIs based on Kernel Density Estimation and spatial autocorrelation technique. Geomatics and Information Science of Wuhan University, 2016, 41(2): 221-227.
[14] Zhang J. GeoSoCa: Exploiting Geographical, Social and Categorical Correlations for Point-of-Interest Recommendations Categories and Subject Descriptors[J]. 2015.
[15] Bin Liu and Hui Xiong, “Point-of-Interest Recommendation in Location Based Social Networks with Topic and Location Awareness”,2013 SIAM International Conference on Data Mining (SDM 2013), Austin, Texas, USA, May, 2013.
有关POI