新一酱发布了“2016新一线城市大榜单”后,邮箱、电话、微信后台、知乎等各个平台都收到了很多问题。新一酱很高兴大家不仅关心榜单结果,更关心榜单背后的逻辑,以及想知道我们到底是如何制作这份大榜单的。
新一酱之前受邀参加镝次元数据传媒实验室的线上沙龙,很认真地和数据新闻爱好者们分享了做这个大榜单台前幕后的事儿。以下是详细的分享记录,如果你还有问题,欢迎发到xinyixian@yicai.com接着问,新一酱会定期回复所有好问题!
社会经济迅速发展,每一座城市都在发生变化。除了“北上广深”这样的一线城市,哪些城市是晋升一线城市的潜力股呢?第一财经旗下的数据新闻项目“新一线城市研究所”在针对338个中国地级以上城市,通过160个品牌的门店分布和14家互联网公司的用户数据分析后,重估中国城市的商业魅力,为中国城市再分级,综合统计出15个新一线城市。你所在的城市上榜了吗?听听新一线主编沈从乐解读城市再分级。
“新一线”是第一财经周刊在2013年首创的一个概念,把它念成“新一线”比较好理解其意义——我们寻找未来哪些城市最有可能成为新的一线城市。扩展一下它的概念就是泛指发展中的中国二、三线城市。
三年前我们提出这个概念,是因为如今中国很少有贴近大家生活的城市分级指标。通常来说,中国城市是按照行政级别划分,或通过统计局口径的GDP、人口这些宏观经济规模数据对城市进行划分。但是,因为这些指标大家都在用,分析的结论相似。而且,宏观经济跟真实商业生活情况存在一定差距,不能体现人们生活体验的真实性,尤其对于商业领域的大公司来说,在中国城市寻找发展机会和更多参考指标的时候意义没想象中那么大。作为商业杂志,我们认为应该按照工商业的繁荣程度来进行分级,而我们又有商业媒体的基础,所以应该做这件事情。
2013年,我们根据城市魅力——大公司对城市的关注度,对中国400个城市进行了分级和排名。我们找了140多个不同的消费类品牌,按照餐饮类、服装类、汽车4S店或零售类等标准对网点和数据进行了分析。在对城市进行分级时,我们还纳入了航班、外国领事馆、高校数量,评选出了15个新一线城市,分别是成都、南京、武汉、天津、西安、重庆、青岛、沈阳、长沙、大连、杭州、厦门、无锡、福州和济南。榜单出来后反响不错,很多城市都对我们高度关注,包括市政府和很多公司在做决策时也有借鉴我们的指标。

(作品链接:2016中国城市商业魅力排行榜)
2013年我们在做评选时,移动互联网的发展还没有进入大数据时代。而现在,淘宝每年年底会公布账单,滴滴也做过办公楼超时加班情况的数据,这些都给我们一个很好的启发——我们也可以用互联网上大家留下的真实信息、足迹等数据来衡量一个城市的年轻人的具体活跃状况。
所以在2015年的时候,我们做了一个“年轻人感到最幸福的城市排行榜”,主要集合了淘宝、京东、大众点评、滴滴和去哪儿网等十家互联网公司的线上数据,对城市的幸福感进行了排名。
今年,我们结合了过去做线下数据和去年做互联网数据的经验,开创出一个新方法——全面衡量一个城市的线上线下的所有数据。所以,在今年四月份,我们发布了全新的新一线的榜单,它依然是从商业魅力的角度对城市进行再分级。但这次商业魅力不仅是大公司对于城市的关注度,还包括年轻人在城市里的活跃度。从这两个大的方向中,我们提炼出了五项指标,在对中国的338个地级以上的城市进行了再次的评选后,我们分出了一线、新一线城市,二线、三线、四线和五线城市一共六档城市。与2013年相比,福州和济南不在榜单之列,苏州和宁波进入了本次新一线城市榜单。
这次排行榜主要用了五个维度指数来讨论,分别是商业资源集聚度、城市枢纽性、城市人活跃度、生活方式多样性和未来可塑性。

商业资源聚集度是从城市的规模来讲的,比如不同城市的商业资源是如何集聚的。例如,我们拿了160多个消费品牌在城市入驻的数据,然后去衡量这些品牌在这些城市中的门店总数。另外,我们也加入了这个城市所有餐饮店、影院、超高层的数量以及一些宏观数据对指标进行了解读。
城市枢纽性指数,即交通通达度指数。主要是指航班、国际航班、机场吞吐量、准点率,还有高铁的数据。
我们对12306的高铁数据进行了处理,对不同城市通过高铁可以连接的城市数量、列车频繁程度进行衡量。我们也用到了物流指数——对快递公司的数量和他们的价格的系数、网点数量进行了分析。
在这项指数里面,还有一个比较有趣的指数——消费品牌的区域优势指数。例如在华中地区,把郑州、湖北、湖南等省份放在一起比较,把这个数据算出来,给每个城市加上去,根据商业资源的分配去看所有城市在这个区域里的核心地位。例如,武汉地区有多少家星巴克,它占华中整个地区所有城市星巴克的比例是多少,这个指数也可以拿来去衡量一个城市群的发展状况。例如华东、华南的珠三角地区城市发展相对均衡,而在北方尤其是西北和华北这两个地区,太过于聚焦发展核心城市。
较为常用的是互联网公司提供的用户活跃行为的数据。比如智能出行的指数,我们参考了滴滴订单量;职场活跃指数,我们用的是LinkedIn上面的用户数量和活跃度;电商购物指数,我们结合了京东上的订单数量和订单的客单价之类的数据;手机设备的活跃度指数,我们用到了Talkingdata提供的每个城市平均手机设备日均激活量的数据。
这里还用到一个相对静态的活跃指数,即地铁的活跃指数。主要是地铁首班车和末班车的时间,例如哈尔滨晚上末班车九点半就结束了,而北京上海地铁首班车早上五点不到就已经出发了。因为地铁的城市运营的客流量数据并不是那么容易获得,我们就用了供应量数据来反映需求量。

这个部分涉及到生活方方面面的数据,比如通过“去哪儿”看出行的状况,根据十一黄金周每个城市有多少人购买机票出行,可以看出其旅游活跃度;通过“咕咚”跑步里程的数据,看各个城市运动的活跃度。广电总局也会统计每个城市的票房数据,“优酷”也提供了他们的播放量和播放时长甚至还有会员占比的数据。
在这个指标里面,比较好玩的是,我们借用了生物多样性的算法去对每个城市的餐馆二十多个菜系进行了多样性分析。生物多样性的原则是,不同物种生物数量越均等,它的生物多样性会更好。
同样的道理,我们会觉得不同城市不同菜系的餐馆,数量越平均可能对于这个城市的餐厅生态最合适。厦门的多样性最好,与成都的多样性进行比较,成都会在火锅和川菜上偏高。
餐厅多样性还可以看出一个特点,就是旅游城市的多样性要更好一些,可能是这些城市要接待五湖四海的游客的缘故。除了厦门之外,三亚的数据也挺高。

我们用了知乎、nice给我们提供的数据,来反映年轻人活跃的状况。知乎可能代表了一些知识群体在城市的生活状态,而nice比较偏90后的方向,他们会给城市贴标签,通过nice我们可以看到特别年轻的群体对于这个城市的认知状态。
在这个指标里我们还用到了商业活力城市的排名,这个排名主要通过LinkedIn上的城市登记公司数量,在36氪上获取到创业城市数据——包括创业公司数量、融资案例的数量和融资规模,对于城市的创业程度进行衡量。
最后,这个指标里还加入了211和985大学在每个城市的数量,做一个综合的考评。我们认为,尤其是受过良好大学教育的年轻人,是这个城市最大的人才库之一。
这项指标里还包括城市商业消费的指标,我们叫它消费性格。我们将城市消费价格的数据和这个城市的收入状况作参考,是因为在之前的调研中,我们发现很多人提出“长沙是一个人口袋里揣着两百块钱,但是会想花掉两百五十块的城市”。因此我们会想,这种超前的消费率对于城市未来的商业发展可能会有一定的刺激作用,所以我们做了这样一个指标。
另外我们也加入了优良空气天数指数。
我们大概花了半年的时间来制作这份榜单,是因为前面提到160个品牌的城市门店数量的数据是使用爬虫抓取的。公司网站各自都不一样,抓取也是我们边学边用,所以这个过程相对花了更多时间,而真正集中全团队之力专门做这个榜单的时间大概是一个半月。
做榜单的过程主要分为以下三步:
首先,确定数据获取的方案。这里的数据分为两种,一种是自己抓取,一种是和互联网公司合作。我们先确定大概需要哪些指标,这些指标应该如何以指数化的结构呈现。同时,我们也要定大概的方向,比如宏观经济的方向除了统计局提供的那些数据之外,我们还需要交通类、消费收入类或者是像高楼数量这种规模类的数据。这些数据有的可以直接抓取或搜集,有的则需要跟互联网公司或者数据库平台合作获取。
第二步是获取数据并处理数据。与互联网公司合作数据是一个等的过程,除此之外我们会统一抓取其他的一些数据。之后,我们会对这些数据先解构再结构,把数据做成一个更有体系性的指数。解构完之后,把不同的数据指标分配到五个大维度里,做几个小维度。在如何把小维度解构出来的这个过程中,我们团队花了很多时间进行讨论。做完数据处理的同时,我们的文字团队也采访了一些大公司,希望获得他们过去三年对于新一线城市的态度,了解他们都看到了哪些新的机会。
第三步是数据的可视化。最后我们呈现在杂志上一共是有26P的内容,大部分都是图表,数据量非常大。我们按照省份来对城市进行排行,做了一个很长的像五线谱一样的折线图。


在制作过程中,我们和美联社的周优游合作了一个预热的H5——“你真的了解你所在的城市吗”。其实,这个H5是我们做数据时的一些边角料。之前我们就想,我们没有那么大量的数据,要如何去形成一个交互的产品吸引大家的注意力,但同时又不是很枯燥?我们找到做数据过程中那些最吸引人的数据项,然后把它扩展到338个城市,每个城市都有16大问题,形成一个交互产品,反响不错。

(作品链接:你真的了解你所在的城市吗?)
其实我们还有大量的数据没有让大家看到。现在这个数据库也在不断沉淀,尤其是商业资源——门店分布的数据库。我们接下来会做一个真正的数据库,并希望定期更新。
这些数据的最大价值在于,可能三年之后,我们能够看到这个数据的变化。因为要查当下这个城市有多少家某种类型的门店很容易,但是去追溯它三年前的状况就很难了。因此这样的数据库积累下来是更有价值的,这也是我们接下来要做的工作。
本文根据镝次元数据传媒实验室线上沙龙内容编辑而成,欢迎个人转发分享,其他公众号或机构转发引用请联系镝次元微信公号(dyclub-org)后台。
