我们把这一数据集看作开创性的一步,基于此,可构建起更为丰富的历史的、全球的城市层面的人口数据库。尽管当前数据集存在时间和空间的数据缺口,然而数据集却提供了全球尺度城市人口数据的空间对应的漫长历史时期的记录。这是当前唯一的此类经过地理编码的数据集。所以,这一数据集可供作为基础,在此基础之上,可建立起整个历史进程城市人口数据的更为丰富全面的记录,可以创建其系统化的、全球人口数据,从而在长时间尺度上量度城市的发展。
但是,我们为数据集的使用者提供关于本数据集的以下所列局限性和其他详细信息,作为提醒:
1. Chandler所使用的某些数据内插方法,包括他所使用的乘数,用士兵数量估算城市规模,以及使用当前来看过时的考古学记录与方法,在之前已经进行了批评与讨论。
2. 对于相同的地点和时段,有其他人口估算数值,需要加以考虑,特别是Paul Bairoch所进行的估算。
3. 自1950年以来空间直观的城市人口估算数据目前已经在 United Nations World Urbanization Prospects中提供。这些数据也应进行考虑。这些数据易于获取,使用了不同参数,限定了其城市面积 (因为不同数据集中关于城市定义不同,因而无法用来进行时间系列分析)。因此,这些数据在本数据集中未纳入。
4. 城市经度和纬度点的有效数字的位数存在不一致,因为提供经度和纬度数值的不同地理编码服务提供的数位有所不同。有效数字的位数从2到8不等。
5. 我们在此只按照所使用的地理编码数据库中2至8个有效数字为城市点位置提供经度和纬度。我们并没有城市地点关于城市范围的数据。这样的欠缺,导致使用本数据集可开展分析的类型受到了限制。
6. 城市点位置在不同地理编码数据库之间,甚至在同一数据库内部都可能存在差异,比如 GeoNames。尽管 GeoNames 使用了城市点水平的数据,但是有的时候这些点是几何计算得到的质心,而有的时候,这些点仅仅是在城市范围之内的普通的点。
7. 因为需要采用多个数据编码经销商/技术,从而达成满足要求的城市百分比,并降低数据不匹配城市的数量,不准确匹配的发生以及不准确的不匹配结果的出现。我们无法针对经验性误差提供统计分析,无法进行验证,也无法提供空间置信度。
8. 尽管我们建立了一个可靠性评分,但有些数据点的地理位置仍然不确定。
9. Chandler 和Modelski关于城市的定义,与当前城市定义有所不同。Chandler认为,1962年之后,城区外部的郊区人口也属于城市人口的一部分,但Modelski并不这样认为。Modelski的现代城市人口(AD 2000) 估计使用了UN 2000 人口年报 中的数据,但并未列出城市群人口数据。Modelski的AD 2000 人口估算之中,所有中国城市都使用的是1990年统计结果。因此,Chandler最后一年数据 (AD 1975) 中,有些城市人口数值减少,而另外一些在增加。Modelski在 AD 2000的现代数据,如附表7和8所列。AD 1950之后的年份中,UN Urbanization Prospects(联合国城市化前景)的数据也应考虑在内。
10. Modelski 在其古代数据集中,有时会为估算人口达到或超过10000人的城市加注‘E’ 这一标记。而有时候,他会在其他城市人口数目之前或之后加注‘E’ 的标记。因为这样显著的不一致,我们在最终数据集中把加注E标记的人口数据排除在外。因此,Modelski古代数据集中有 51个城市人口数字被略去。
11. Chandler和Modelski的数据集中,针对多个城市地点,都缺少所在国家的名称。我们对数据集中所有城市地点最有可能对应的国家名称进行了补充。所有数据集中,使用的现代国家名称都来自于 United Nations World Urbanization Prospects (联合国世界城市化前景)。
12. Chandler和Modelski 还为某些城市提供了其他名称。这些名称包含在 最终数据集的“其他名称”列中。我们还补充了更多的其他名称,其他拼写方式,以及地点信息,比如美国城市所在州的名称。城市其他名称采用分隔符隔开。
13. 我们的可靠性评级,仅仅对地理编码的城市地点进行了评定。为了确定Chandler和Modelski人口估算数值的可靠性,请参见原文本。Chandler所做出的估算,在其著作中采用了下划线标出,而Modelski针对 ‘可靠性存疑数据’ 则使用 ‘x.’进行了标注。我们在这一数据集中并未对人口估算数据进行更正或者确认。我们意识到可能在人口估算数值中存在错误。比如,针对蒙得维的亚在公元2000年的人口数量估计为13,303,000,这显然太多了,但我们并未就此进行修订。我们并不希望未作计划就随意开始对人口估算数值的修订,尽管某些看起来显然有误。我们开展的研究,目的在于对这些数据加以空间化处理,从而能够让使用者对这些数据进行验证,以提升数据集的准确性和可使用性。附表8 把Modelski针对公元2000年的城市人口估算数值与UN World Urbanization Prospects 的数据进行比较,用以强调两者存在的差异和不一致情况。
14. 有的时候,针对同一个城市,在不同时段其可靠性评级有所不同。 这是有意为之。如果某一城市在特定的时段使用了存疑的其他名称,或者是原数据集的作者为其提供,或者是由我们所确定,则我们就会把可靠性评级调整一个等级(也就是,从1 调到2,或者从2调到3).
15. 城市的名称经常会随着时间发生变化,比如土耳其的君士坦丁堡改名为土耳其的伊斯坦布尔,或者日本的江户更名为东京。在这种情况下,所有数据集中都使用了最新的城市名称。
16. 在可能的情况下,对3个数据集中原城市名称的拼写进行了更新,从而与联合国数据库中的城市名称相匹配。某些古代城市以及历史考古地址并没有当前的城市与之对应。在这种情况下,Chandler和Modelski 的数据集中的原名称得以保留。
17. 我们并未完成额外的空间分析,从而把城市群中邻近的城市点进一步结合在其中。只有城市其他名称以及城市随时间更改的名称被纳入其中。使用者可基于这一数据集进一步开展邻近空间分析。
18. 在古代时期,Chandler 和Modelski的人口数据有时候对同一城市同一年份的估计也存在差异。比如,Modelski所列的伊斯坦布尔(君士坦丁堡) 在AD 500的人口为500,000,而Chandler所列其人口数值为 400,000。最终的数据集中,两个数据都保留,让使用者自行判断选择哪个数值更为准确。对于所有呈现200 BC至AD 1000期间数据的图和表而言,如果Modelski 和Chandler针对同一城市在同一时期记录的人口数据有所不同,我们使用的是Modelski的数据,因为他的工作重点在于古代时期。
19. 仅仅基于我们的数据集开展长时间尺度上的全球分析相当困难,因为数据点具有时间和空间的分散性特征,如图5图6和表1表2所示。
20. 最后,我们希望提醒这一数据集使用者的是,对人口增长和人口聚集的量度仅仅是城市化过程研究中的一个组成部分。
未来将开展的研究包括,使用更新的数据集,比如联合国人口数据集,考古数据,或者Bairoch的研究成果,填补缺失的人口数据,从而让这一数据集得到补充与提升。不准确的或者缺失的地理编码地点,也应得到改进。