人口数据是我们在各项研究中最常用的数据之一。人口数据的主要来源是我国每十年进行一次的人口普查,最近一次的人口普查是2020年进行的第七次人口普查,简称七普!很多小伙伴对七普数据翘首以盼,最近《2020中国人口普查分县资料》终于出版了,有些公众号也发布了该资料的PDF版本,为了方便大家使用我们在PDF的基础上处理成了excel和shp格式的数据分享给大家!

我们之前分享了《2020中国人口普查分县资料》的表1——人口基本情况(可以查看之前的文章)和表2——分年龄、性别的人口(可以查看之前的文章),本次分享的是表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口!

该表统计了我国省市县三个行政等级的指标!具体指标包括:各年龄组人口占总人口比重(0-14岁、45-64岁、65岁及以上、15-49岁育龄妇女)、有65岁及以上老年人口的户数(合计、有一个老人、有两个老人、有三个及以上老人)、户口登记地在外乡镇街道人口(本县、本省其他县、省外)。为了方便大家使用,我们花了大量的时间对数据进行了整理,形成了excel和shp两种格式的文件!整理出的数据缺失港澳台地区。对于数据整理的细节我们会在下文详细介绍!大家可以在公众号回复关键词 1108 按照转发要求获取数据!以下为数据的详细介绍:

01 数据预览

下面我们来预览下数据,首先是excel格式的数据,如下图!省市县三级的所有指标在一个excel中,省市县的数据通过不同颜色分割,方便大家可以在excel中按照颜色选取不同等级的数据!每个指标的单位也标注在列名中!

人口普查户籍注销(有老年人的户数)(1)

人口普查户籍注销(有老年人的户数)(2)

下面我们再来看看shp格式的数据!分为三个shp文件,分别为省份地级市区县三个行政登记的数据!

1.省份的各年龄组人口占比、有老年人户数、户口登记在外人口情况

我们以全国各省份的0-14岁人口占总人口比重(%)有65岁及以上老年人口的合计户数(户)两个指标为例来预览下,数据不包括港澳台,剩下的所有省份均有数据,如下图:

人口普查户籍注销(有老年人的户数)(3)

全国各省份的0-14岁人口占总人口比重(%)

人口普查户籍注销(有老年人的户数)(4)

全国各省份的有65岁及以上老年人口的合计户数(户)

2.地级市的各年龄组人口占比、有老年人户数、户口登记在外人口情况

我们以全国各地级市的15-64岁人口占总人口比重(%)户口登记地在省外人口(人)两个指标为例来预览下,数据不包括港澳台,剩下的所有地级市均有数据,如下图:

人口普查户籍注销(有老年人的户数)(5)

全国各城市的15-64岁人口占总人口比重(%)

人口普查户籍注销(有老年人的户数)(6)

全国各城市的户口登记地在省外人口(人)

3.区县的各年龄组人口占比、有老年人户数、户口登记在外人口情况

我们以全国各区县的有一个65岁及以上老年人口的户数(户)户口登记在本省其他县人口(人)两个指标为例来预览下,数据不包括港澳台,剩下的所有区县均有数据,如下图:

人口普查户籍注销(有老年人的户数)(7)

全国各区县的有一个65岁及以上老年人口的户数(户)

人口普查户籍注销(有老年人的户数)(8)

全国各区县的户口登记在本省其他县(市、区)人口(人)

02 数据整理说明

本数据来源于《2020中国人口普查分县资料》,想得到最终的excel和shp数据,需要做两个工作,第一个是将数据电子化,形成excel格式的数据第二个是将excel数据矢量化,得到shp格式的数据!

对于将PDF电子化,主要是要选择合适的视图软件,在这儿推荐wps(识别数字比较准确)和全能扫描王(识别汉字比较准确),在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口 女性人口来检查这三列数据有没有错误!

我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,在经过对比后,我们使用了‘锐多宝的地理空间’公众号分享的行政区划shp数据!有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面,这一步会有很多错误,需要一一检查,我们依次来看一下!

1.将省份层级的excle数据矢量化形成shp数据

由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

2.将地级市层级的excle数据矢量化形成shp数据

我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的,没有重复,所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

3.将区县层级的excle数据矢量化形成shp数据

相比于省份层级和地级市层级,区县等级的处理要复杂的多,需要大量的工作!主要包括如下几个方面:

①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区,有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上,这样区县名称就是唯一的啦,就可以进行连接了!

②我们使用的‘锐多宝的地理空间’公众号分享的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划,行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:

另外,在《2020中国人口普查分县资料》中还统计有大约100个地区在行政区划shp数据里面没有包括,比如比如石家庄高新技术产业开发区、河北唐山芦台经济开发区、唐山市汉沽管理区、荆州经济技术开发区济南高新技术产业开发区等!我们观察下来这些数据基本都是开发区、产业园区,而行政区划shp数据里面没有统计这些开发区、产业园区!对于这些开发区也很难找到精确的行政边界,所以在最终的shp数据中我们直接忽略了这些数据。excel版本的数据中是包括了这些开发区、产业园区的,大家如果想要使用这些数据请使用excel数据,特此说明!

03 数据获取

人口普查户籍注销(有老年人的户数)(9)

人口普查户籍注销(有老年人的户数)(10)

,