考虑到手机端阅读的特点,我们特地邀请作者撰写了文章精华版,与全文一起推出,方便读者在较短时间内了解文章内容。对该主题感兴趣的读者,可进一步阅读全文。在此感谢在百忙中抽出时间撰写精华版的作者,你们的努力让学术论文的阅读体验变得更好。
——精华版——
问题提出
Hey,朋友,你几线的?每年总有媒体推出一、二、三、四乃至十八线城市的界定。这类关于城市地位、发展机遇、房产保值率的白皮书总是能吸引大众的热烈讨论。在周边人群津津乐道眼花缭乱的城市排名时,城市研究者总会思考与此有关的关键科学问题:如何科学界定城市规模,以及如何划定其等级(图1)。
图1 城市位序规模/齐普夫曲线
自然城市
美国经济学家蒂伯特(Charles Tiebout)曾指出人们 会“用脚投票” (voting by foot / vote by foot)。人的聚集强度反映了城市的真实规模。由人类活动强度自然划定的城市也可称为为自然城市(图2)。
图2 用脚投票——基于人类活动强度的城市规模定义
研究切入
在传统城市研究中,GDP、人口等社会经济统计数据常被用于界定城市规模,但其时效性和准确度不足。随着大数据环境的日益成熟,灯光遥感、人工覆盖、道路网络以及社交网络位置(LBSN)等数据亦被用于界定城市建成区边界与规模。北京城市实验室(BCL)曾开放了以上述数据划定的不同城市边界,但不同数据划定的边界差异较大。城市规模的界定仍需要选择比较、选择和验证数据和相应的模型方法(图3)。
图3 基于多源数据的城市建成边界
图片来源:作者根据BCL开放数据绘制
数据选择
城市系统具有复杂性,人口分布密度并不均匀,谁又能知道人口密度的高低呢?我们猜测可能路边摊老板或者小吃店老板可能更清楚。因为开小吃店的老板可能知道哪里人多,哪家店隔壁还能再开一家。换句话说,某区域人口密度越高,开设的餐饮店越多(图4)。志愿者地理信息(VGI: Volunteer Geographic Information)和兴趣点(POI: Points of Interests)记录了成千上万家餐饮店老板所掌握的人流强度信息,是一种反映了城市复杂性和自下而上的人类活动的数据。
图4 餐饮POI分布的密度变化
模型方法
本研究采用瑞典耶夫勒大学(University of G?vle)江斌教授(Bin Jiang)提出的TIN-H/T 方法。首先利用POI构建三角形不规则网络(TIN: Triangular Irregular Network)作为城市人口分布基本地理单元;其次,利用H/T断裂点法( Heat/Tail breaks ,也被称为“掐头去尾法” )对具有长尾特性的数据进行自动迭代自动分级,基于Zipf验证后提取第一级基本单元作为自然城市区域;最后,基于所提取的全国城市自然城市区域以H/T断裂点法进行自动分级(图5)。
图5 基于POI划定城市边界
注:上文未标注来源的图片均为作者绘制。
——全文——
【摘要】城市规模等级及边界研究一直以来都是城市研究的重要内容。仅凭传统的人口与经济规模统计数据通常无法精准界定,越来越多的研究开始引入灯光遥感、手机信令、道路交叉口以及基于位置的社会网络(LBSN)等新数据界定城市边界,以自下而上的方式测度城市规模,但仍然存在数据表征性不强和缺乏分级标准两个问题,因此有学者通过H/T断裂点法来进行城市规模等级划分及边界界定。研究以反映丰富经济活动的兴趣点(POI)为数据,构建不规则三角网格(TIN),引入H/T断裂点法分级方法,对中国大陆城市的自然城市规模进行了测度和等级划分。通过与传统社会经济数据、开放数据的对比,以POI-TIN城市刻画方法和H/T断裂点法生成的自然城市边界反映了相对真实的聚居规模,遵循了位序—规模的齐普夫(Zipf)分布规律,为具有长尾序列和分形结构的城市规模自然分级提供了科学方法。研究验证了该方法在自然城市规模测度和分级中具备推广性,在精度及真实数据获取性方面有较大优势,对城市边界划定和规模分级有重要的研究和现实意义。
1 研究背景
区域与城市的空间结构对社会经济和环境有着多尺度的影响,如资源需求增加、城市拥挤、生物多样性降低等。测度城市与区域中的聚居空间规模和分布形态,对区域空间结构和城镇体系的认知至关重要。
城市规模等级及边界研究一直以来都是城镇体系等级结构研究的核心内容。当前城市规模等级划定的标准是2014年国务院颁布的《关于调整城市规模划分标准的通知》,据此人口是规模认定和等级划分的标准,与之相呼应的“位序—规模”方法仍是当前城镇与等级模式界定的主要方法。大部分学者认同城市规模清晰呈现出幂律分布,即规模大的城市少,规模小的城市多的齐普夫模式,也被称为长尾效应。当前位序—规模的研究只能在排序中寻找规律,多为结合排名时间变化的分析测度,而无法找出合适的分级方法。城市规模研究需要更精细和准确的数据和新的分级支持。
当前的位序—规模的排序多以传统人口和经济数据作为依据,不能反映城市实际经济活动规模,而更开源和更新更快的数据有利于更实时、更便捷和更全面地了解城市规模,扩展自然城市的研究方法。基于实际经济活动规模的边界划定,对城市边界划定和判断有重要的现实意义,是增长边界划定的基础。基于边界划定而形成的等级分类则为当前城市群发展策略下的区域城镇体系内中心的划定提供依据。在当前的大数据时代背景下,涌现出越来越多的可用数据源,城市规模界定也呈现出更加多元的研究方法,例如通过灯光遥感数据、交通路网交叉口数量、交通连接度、手机数据以及社交网络位置数据等来重新测度自然城市的分布规模和等级。
自然城市(natural cities)的理念来自于“城市并非树形”,指空间上聚集的地理事件,认为城市是动态的、开放的半网络结构,提供了基于复杂网络的城市研究视角,其规模测度方法强调使用自然、真实的人居和活动数据。迈克尔·巴蒂以流、引力和势能来解释自然城市的形成与发展,以联系度和相关性研究来构建城市新科学。相对于基于统计渠道的传统的人口和经济数据,大数据刻画的自然城市更能全面和真实地反映人类聚居和活动的强度。人居环境内在的多样性和非线性动力,使得自然城市继承了城市分形的本质美学特征。在国家推进城市群发展战略的背景下,跨越国家和区域行政边界,以自然城市理念重新定义群内中心城市、郊区、城镇及村庄的空间和等级分布显得更加重要。
基于自然城市理论来刻画边界的方法仍然存在两个挑战:(1)上述大数据对社会经济和人居活动的表征不全面:灯光影像表征夜间活动强度、道路交叉口数据表征交通路网密度与规模、基于位置的社会网络(LBSN: location-based social network)和手机信令数据表征人群信息联系强度等,无法较好的反映社会经济活动强度,且部分数据开放性差;(2)所划定自然城市规模缺乏等级数目和等级范围的科学划分方法。
当前的开放数据中,易获取且数据量较为丰富的兴趣点(POI: point of interest)数据可弥补上述不足。POI数据不仅代表了城市各类服务设施的布局,亦能反映城市人群活动的强度。综上所述,本文引入瑞典耶夫勒大学(University of G?vle)江斌(Bin Jiang)教授的POI自然城市界定和 H/T 断裂点(head/tail breaks)分级方法,以中国大陆的362个城市为例,通过POI划定自然城市边界,并对城市规模进行分级。
2 研究方法
2.1 POI自然城市划定方法
随着网络电子地图等开放数据的发展,POI数据的应用发展迅速。利用POI数据进行城市分析,可以更好地自下而上地了解社会和地理结构及其时空变化。POI刻画自然城市的方法借鉴服务区划和高程建模的原理:POI点的形成与商业服务的服务区划有密切关系,服务人群越多,则POI点越密集;根据数字高程模型(DEM: digital elevation model)中Delaunay建模的原理,平面上的点总与其较近的点连接。
(1)通过连接平面中POI的所有点,尽可能地保证三角形的三个角都是锐角,三角形的三条边近似相等,最小角最大化,形成Delaunay不规则三角网格(TIN: triangulated irregular network)。(2)所构成的TIN网格中三角形的周长越小,表明此区域服务人口密度越大,城市化程度越高,显示出POI划定的社会经济活动强度分布。通过选择合适的三角形周长分级方法,可提取由POI确定的自然城市边界范围。
上述步骤可以在ArcGIS平台的3D空间分析中的TIN中按如下方法完成(图1):
图1 基于POI的TIN构建示意(以上海市局部区域为例)
(1)TIN构建:在ArcGIS平台导入上述数据,设置投影坐标,并基于POI数据构建TIN,形成自然城市聚居网络结构。
(2)TIN三角形构建:将TIN网格转换成三角形面要素,并计算每个基于POI数据的三角形的周长,周长越短,说明聚居程度越高,表征城市的可能性越大。
2.2 H/T断裂点法
数据集排列等级的划分存在两个重要的科学界定问题:等级的数目和等级的间隔。当前一系列的分级方法,如相等间隔、分位数、几何间隔、标准差等,均只适用于符合其分布特征的数据(表1)。而广泛用于统计绘图的Jenks自然断点法通过绘制数据值的频率,以方差拟合优度(GVF: goodness of variance fit)方法,确定数据中自然存在的断点,再将数据值分类到不同的类别中,构建数据自组织聚合的可能,做出分类方法上的优化。
表1 城市位序—规模的分类方法
但是自然断裂点法仍然没有解决Zipf模式下长尾数据分类的科学问题:(1)仍然无法在类别数目上刻画出长尾数据的大头和长尾数据特性;(2)类值间隔需要人工指定,具有较强的主观性。针对分级数目和分级间距无法划定的缺陷,瑞典耶夫勒大学的江斌教授提出了H/T断裂点法(head/tail breaks)。
H/T 断裂点法承认城市规模存在Zipf模式,强调分级以长尾特征为临界,将长尾数据以均值划分头部(head)和尾部(tail),再对头部数据作同样均值划分进行迭代递归,直到新的头部数据中不能再划分头部和尾部为止(尾部数据数量不再远大于头部数据数量)。
具体方法如下:
(1)设定长尾数据集xi,规模位序分布如图2;
图2 H/T 断裂点法示意图
(2)取所有xi的平均值,以获得第一个平均值M0,令所有xi中数值小于M0的尾部(tail)数据形成新的子集Y0;
(3)计算剩余头部数据的平均值M1,令此数据中数值小于M1的数据形成新的尾部子集Y1;
(4)以相同的递归方式,划分数据集,如在某个均值Mj 的划分中,均值上的头部数量不满足远小于尾部数量的阈值条件,则递归收敛,分级结束。
其中,递归收敛的阈值条件推荐设置为H/(H+T)=40%,即头部数据不再是长尾数据,其头部数据数量占比超过40%,不再远少于尾部数据数量。
所得数据分级数目被称为ht指数(ht-index),适用于表征分形或地理特征复杂性的分形维度的指数:ht指数越高,分形越复杂。除此之外,还有能够捕获分级轻微变化的CRG指数,以及反映尺度变化的RA指数等。
与Jenks断裂点法相比较,H/T 断裂点法可以更好的刻画出大数值和小数值在数量上的不均衡性,符合自然城市分形特点(图3)。江斌的相关研究中也以美国城市规模和瑞典街道连通度等级划分为例对此做出了论证。
图3 H/T断裂点法和Jenks自然断裂点法比较
图3左侧是乡村人口密度分布图的分类结果比较,H/T断裂点法则更凸显了密度高的头部数据少,尾部数据更多的长尾特征,图3右侧的美国城市等级图则可识别出更清晰的等级结构。
POI自然城市方法和H/T断裂点法不仅可以识别静态的城市分布,也可以用于分析虚拟城市的时空变化。如江斌以欧洲三国(法国,德国和英国)约200万个POI数据构建TIN,刻画了研究区域的自然城市分布(图4)。利用芝加哥和纽约推特(Twitter)用户的地理位置所包含的非常精确的时间信息,按分钟、小时的方式分割推文(tweets)位置数据,利用基于位置的社会网络数据刻画出自然城市的演进(图5)。
图4 基于POI的自然城市(左、中、右列分别为法国、德国和英国)
图5 基于LBSN数据的自然城市
3 基于POI数据的中国大陆城市等级划分
基于上述方法,以POI数据为基础,以TIN和H/T断裂点法为框架,重新测度中国大陆城市的聚居分布,并基于自然城市理论划定城市等级。
3.1 研究数据
(1)《2016年中国城市统计年鉴》提取的全国城市地区生产总值、年末户籍人口和建成区面积数据。(2)北京城市实验室(BCL: Beijing City Lab)提供的根据全球人工覆盖(global cover)、路网交叉口(road intersection)、灯光影像(DMSP/OLS: Defense Meteorological Satellite Program/Optical Linescan System)和人口密度(population density)划定的全国范围内自然城市边界数据。(3)利用网络数据爬虫软件抓取2016年百度地图POI数据点,挑选中国大陆地区所有医疗服务类POI点612 130个、餐饮类POI数据465 086个作为基础数据。
(4)国家基础地理信息数据:省域、市域和县行政边界图,主要为中国大陆的362个城市边界。
3.2 位序—规模的长尾模式验证
依据传统统计数据和位序—规模生成方法,将城市GDP、人口和建成区按照数值进行降序排列和依次排名,可获得位序和规模的对应数据集合,通过散点图作简单的分析(图6),则可以看到三者均呈现明显的Zipf分布模式,通过对数拟合曲线可以看到决定系数 R2 = 0.905?5,0.873?6和0.848?1,高拟合度也验证了城市规模的长尾规律。
图6 传统数据的城市位序—规模曲线
基于BCL提供的四种新数据,测度划定的城市建成区面积对于单个城市而言存在着较大的数量差别,全球覆盖、道路交叉口、灯光影像和人口密度所划定的城市建成区依次逐渐增大(图7左),且显然人口密度数据存在较大偏差,但仍可假设其适用于不同城市规模的比较和等级划定。在ArcGIS中对此四种面积数据进行市域层面的汇总,并按照前述方法进行排序和拟合(图7右),总体上均呈现同样的Zipf分布模式,可见开放数据所划定的城市规模同样可体现城市规模存在的幂律分布规律。但就拟合度而言,只有全球人工覆盖的拟合相对较好,而其他三种R2相对较小,说明基于灯光影像、交叉路口和人口密度数据的建成区规模提取仍需要优化和收敛;而基于人口密度划定的规模出现了断崖式的数据分布,从侧面反映了因为传统人口数据统计口径或空间转换方法产生的误差,使得输出结果产生较大的偏差。
图7 基于BCL开放数据的城市位序—规模曲线
3.3 基于POI-TIN方法的自然城市识别
在ArcGIS中导入行政边界作为分析基础,导入餐厅POI数据作为TIN构建基础(新建虚拟高度字段,统一赋值为1),设置投影坐标。
(1)TIN三角形构建:运行3D Analyst工具下数据管理中的TIN工具,以POI数据为点要素(高度为1),构建TIN面域;使用转换工具,将TIN转换成TIN三角形(图8左)。计算每个三角形的周长,统计中显示小周长的三角形有30多万个,而其他稍大三角形则非常少(图8右),形成了明显的Zipf分布模式。三角形的周长越短,表明聚居程度越高。
图8 基于POI数据构建TIN及其边长统计
(2)H/T断裂点法分级:使用H/T断裂点方法对三角形序列基于其周长进行头部与尾部数据的自动分级,可采用江斌提供的Axwoman插件,其中整合了H/T自动化分级插件,直接产生H/T断裂点法分级结果(图9左)。其结果分为9级,即ht指数为9,较高的分形维度也反映了数据和方法的适用性。不同层级也恰好反映了从城市到乡村的过渡。从中分别提取前三级TIN数据,赋予不同色彩,其表征聚居空间强度变化的模式更加明显(图9右)。
图9 基于H/T 断裂点法以周长划分TIN等级
高密度城市区域是聚居空间最高等级的分布形式,因此选取第一级作为自然城市的边界(图10左)。其三角形周长的统计显示出更明显的Zipf分布状态(图10右),表明所划定的自然城市边界仍然继承了长尾特征。
图10 基于 H/T 断裂点法分级的第一级TIN及其边长统计
(3)自然城市规模测度与等级划分:利用ArcGIS空间连接工具,计算每个行政市域内的自然城市区域面积总和,得到基于POI刻画的城市聚居规模(Si)。利用位序—规模方法对其聚居规模和密度进行排序(图11),排名(rank)与规模(size)幂律分布拟合拥有了较好的决定系数R2,表明POI在位序—规模上的适用性。但相对于餐厅POI划定的城市规模,医疗服务点POI的自然城市规模更接近年鉴中提供的建成区面积(表2),证明了POI方法的有效性。而医疗POI比餐厅POI更准确的精度表明了POI点的数量会影响规模的测度,而在采用医疗点、银行点做对比后,亦验证出POI点数据量越大,则城市规模的刻画精度越高。
图11 基于POI数据的城市位序—规模分布曲线
表2 不同数据下同城市规模比较
(4)自然城市的等级划分
传统的位序—规模因为缺少划分等级的标准,并不能划定城市的等级。当前城市等级多以行政级别进行划分。H/T断裂点法不仅可用于POI-TIN方法中自然城市区域的提取,同样可用于数据集合的科学划分,因而可用于基于城市规模的城市等级确定。利用Axwoman插件的H/T自动化分级插件,直接产生H/T断裂点法分级结果(图12)。结果显示:医疗POI划分了5级,ht指数为5,全球人工覆盖和交叉路口的ht指数为4,而人口密度由于数据本身存在较大误差,因此其ht指数仅为3,也没有反映出其他数据所验证的长三角、珠三角和环渤海城市群发展的态势以及区分出中心城市,总体上反映出医疗POI数据展现高维度特征以及等级划分的适宜性。
图12 基于医疗POI数据的城市规模H/T断裂点等级划分
在POI所确定的等级中(表3),无论在数量上还是核心城市所处的层级上,长三角、珠三角和环渤海城市群均呈现明显的领先优势,成渝城市群的成都和重庆亦在第二层级,而中三角城市群的中心城市武汉、长沙和中原城市群的郑州是仅有的进入到第三层级的城市,可见POI所刻画的城市规模和层级在一定程度上反映了当前我国城市发展的真实状况。
表3 基于医疗POI数据的中国大陆自然城市等级划分
4 总结与讨论
信息开源、数据量可获取性强、时效性好的POI数据,不仅能够反映城市服务设施的分布,更通过其密度的疏密模式体现全域空间内的聚居规模和强度。通过POI数据以自下而上的方式来刻画自然城市边界,相对于传统的基于人口和经济数据的方法,为城市群发展态势、城镇体系结构提供了更真实的测度方法;相对于其他如路网交叉口、夜景影像数据、LBSN数据等大数据的界定方法,POI又具备了更全面的社会活动特征表达。
本文主要采用的技术方法是连接每个POI点构建TIN,以TIN边长的长短来判断此区域的聚居强度,是传统商业服务密度与服务区划分理论的应用。H/T断裂点法则利用Zipf分布的长尾模式,以自动迭代划分头部和长尾数据的方法,为TIN边长以及城市规模的等级划分提供了科学的分级方法。H/T断裂点法以不平衡、自相似的方法解构城市复杂系统,可帮助研究者更好的理解城市真实的社会经济空间结构。
研究基于传统统计年鉴中的人口经济和城市规模数据,验证了位序—规模的Zipf长尾分布模式,进而将POI数据和BCL提供的夜景灯光影像、交叉路口、人口密度和全球覆盖开放数据所划定的自然城市规模进行位序—规模验证,其较好的拟合曲线证实了POI数据刻画城市规模的有效性。对于不同类型POI,其数据点越多,则所刻画城市规模的精度越高。基于精度相对较高的全球覆盖所刻画的城市规模与年鉴建成区数据的比较,证实了POI数据在更高精度和细节上计算城市规模的适用性。研究还以H/T断裂点法进行了分级,对当前城市群的城市规模和级别形成了呼应和验证。利用易获得的POI开放数据来进行城市边界提取的做法,具备推广性,在精度及真实数据获取性方面有更大优势。
尽管方法原理简单,但仍存在部分有待深入挖掘的问题。
(1)POI数据选取问题。POI种类繁多,样本量大小不一,选取不同的POI所刻划的城市边界不一样,选取全部或部分数据的结果也不一样。样本越大,刻画的自然城市越真实,但合适的POI选取也是需要考量的。在本文研究中,仅采用了样本量大的餐饮数据和服务区划分影响明显的医疗服务点数据。
(2)TIN网络边界刻画问题。在大尺度的分析中,TIN可以显示较好的空间层级分布。但随着样本的变小,网格变得稀疏,城市边界精度会降低,因此TIN方法在样本量小的小尺度研究上会形成障碍。另一方面,TIN是三角形,提取后的自然城市边界呈现锯齿状,尽管作为对比研究和总量分析不存在问题,但如果进一步作为城市的真实边界研究,则精准度不够。
(3)H/T断裂点法的分级设定。以数据的长尾特征和Zipf分布为基础,以头部和尾部数据的固定比值迭代划分,其比值的确定(本研究选用江斌教授推荐的4:6)没有得到更多、更精准的数据验证,需要进一步研究和确定。例如,比值是否一定是固定的?什么样的比值是合适的?
后续笔者拟从以下几方面继续开展工作:(1)利用多源POI数据解析自然城市所得结论之间的验证和比较,以及和时空变化相对应的解析方法;(2)以POI构建城市聚居区的更多方法的提出和验证;(3)H/T断裂点分级比例的精准对比研究等。
作者:刘凌波,博士,武汉大学城市设计学院,讲师。lingbo.liu@whu.edu.cn
彭正洪,武汉大学城市设计学院,教授,博导,副院长。pengzhenghong@whu.edu.cn
吴昊,博士,武汉大学城市设计学院,讲师。wh79@whu.edu.cn
延伸阅读
基于GIS平台的大尺度空间形态分析方法——以特大城市中心区高度、密度和强度为例
尺度重构下的国外首都特大城市地区空间规划分析
《尺度——增长、创新、可持续性的普遍规律,以及有机体、城市、经济和公司的生命步伐》
编辑:张祎娴
排版:徐嘟嘟
本文为本订阅号原创
欢迎在朋友圈转发,转载将自动受到“原创”保护