2020年初省市县数据
# 数据获取
https://www.shengshixian.com/pages/d35ae5
# 背景介绍
行政区划数据是重要的基础地理信息数据,但目前市面上能使用的行政区域数据问题颇多。这里列出几种大家常用的行政区划数据供大家参考:
名称 | 时间 | 优点 | 缺点 | 来源 |
---|---|---|---|---|
国家基础地理信息的行政区划数据 | 2019年 | 权威 | 缺乏属性、时间序列 | ngcc.cn |
中科资环行政区划数据 | 2015年 | 权威、准确 | 数据老旧、矢量错误多 | resdc.cn |
天地图爬取的矢量数据 | 不统计 | 权威、准确 | 仅能按省份下载 | tianditu.gov.cn |
民政部区划数据 | 2018年 | 权威、准确 | 非公开下载、仅线矢量 | dmfw.mca.gov.cn |
gadm数据 | 2022年 | 下载便捷 | 地图不完整、非权威 | gadm.org |
高德行政区划数据 | 2022年 | 及时性 | 非权威、缺乏属性、下载不方便 | datav.aliyun.com |
爱好者整理(数读城事) | 2018-2022年 | 属性完整 | 非权威、非公开下载 | 公众号 数读城事 |
加州伯克利大学行政区划数据 | 1949-2013年 | 长时间序列 | 不权威、不准确 |
基于上述问题,我想基于权威的行政区划数据,制作一套长时间序列的、具有符合民政部属性的、开放获取的行政区划数据。目前最权威的区划数据是国家基础地理信息中心于2022年1月发布的国家基础地理信息,该数据的现势性为2019年,但该数据也存在诸多问题。
因此,基于1比100万的行政区划数据、民政部地名数据以及其他矢量数据,我制作了2020年初的行政区划数据。接下来一段时间,我将基于这套2020年区划数据与民政部历年来行政区划资料,陆续更新2015年-2022年的行政区划数据。
# 数据处理原则
(1)尽可能少地改动矢量数据;
(2)国界、南海诸岛的矢量绝不修改,一律以国家基础地理信息2022年发布的数据为准;
(3)各地属性、统辖信息一律以民政部2019年的数据为准;
# 制作流程
# 基础地理信息数据的处理
我之前写过一篇博客用来处理该数据库,具体参考:1:100w基础地理信息数据的镶嵌(zhuanlan.zhihu.com/p/458211981)
上述步骤处理完之后,数据是分块的。
进行县名称的数据融合,以消除下面的方块状组合,再最后选择中国区域,获得的行政区划数据如下所示。
# 属性匹配
写到这里,首先感谢公众号数读城事继续几年的区划数据更新,这套数据的属性信息是最全的,而且是和民政部代码相契合的。这里我直接使用了这套数据进行了基于县名称的空间连接。由此我们的区划数据初步具有了各县的属性信息。
# 区划矢量修改
# 数据修复
由于这套数据存在多处数据的矢量拓扑错误,我们首先使用arcgis自带的修复几何功能进行修复。然后不能修复的位置,我们进行空间地位,通过编辑矢量功能进行修复。
# 无矢量区域
在制作过程中,也遇到了民政部有行政代码,但并国家基础地理信息数据无矢量的情况,比如深圳的坪山区。如果遇到这样的问题,我会首先参考天地图行政区划、民政部的矢量区划,如果没有则参考高德地图的适量区划。比如深圳的坪山区并无矢量:
又如没有勾画的区域,比如胡杨河市、昆玉市等。这些地方就直接勾绘相关矢量并添加属性。
# 矢量多余区域
另外,也遇到了民政部无代码,但有矢量的情况,比如说甘肃太子山天然林有区划矢量,但行政级别上又属于几地管辖:
又如莲花山风景保护区无行政区划代码,参考高德地图区划数据,并入康乐县:
另外比较特殊的地区是台湾省,有县级矢量,但在民政部的行政区划中只有省级代码。为保证本数据的所有属性数据以民政部为准,这里对台湾省的所有县级数据进行了合并,只保存省级矢量。
# 属性数据修改
这部分也是耗时最长的步骤,即使在大部分数据有属性数据的情况下,依然问题较多。
# 代码、名称等错误
与民政部的区划代码进行300余个市级别的对比,若有不同行政区域,则找相关原因。有可能市字段匹配错误,比如石家庄的新华区、沧州市的新华区字段匹配错误(这种最多)。也有可能是被遗漏掉了,比如温州市的龙港市。
# 地级为空区域
另外就是我国还有一些特殊的行政单位,比如省直辖市、省直辖县行政级别上属于县级单位,但又无地级单位。
比如湖北省的潜江市、天门市、仙桃市,河南的济源市, 海南的临高县、东方市等,具体分布图如下所示,这部分区域统一将地级属性命名为空
# 县级为空区域
还有一些比较特殊的地区,是地级市,但截止2019年末,该地区又无县级行政单位,比如海南儋州市、广东东莞市等。这部分区域统一将县级属性命名为空。
地名 | 县级 | 县级码 | 县级类 | 地级 | 地级码 | 地级类 | 省级 |
---|---|---|---|---|---|---|---|
儋州市 | 不统计 | 0 | 不统计 | 儋州市 | 460400 | 地级市 | 海南省 |
东莞市 | 不统计 | 0 | 不统计 | 东莞市 | 441900 | 地级市 | 广东省 |
嘉峪关市 | 不统计 | 0 | 不统计 | 嘉峪关市 | 620200 | 地级市 | 甘肃省 |
三沙市 | 不统计 | 0 | 不统计 | 三沙市 | 460300 | 地级市 | 海南省 |
中山市 | 不统计 | 0 | 不统计 | 中山市 | 442000 | 地级市 | 广东省 |
海西蒙古族藏族自治州直辖 | 不统计 | 0 | 不统计 | 海西蒙古族藏族自治州 | 632800 | 自治州 | 青海省 |
# 省级为空区域
这个地区叫中朝共有领土,在国家基础地理信息数据上有该矢量,但民政部没有相关区划代码,且不能修改,因此该地区的所有相关属性皆为空,仅保留矢量信息。
# 数量检查
# 检查前提
在进行检查前,首先普及一下我国大体的行政区划级别。
林区,是中国行政区划之一,行政地位与市辖区、县级市、县、自治县、旗、自治旗、特区相同,属县级行政区,现仅有一个,为湖北省直辖的神农架林区
特区,这里指六枝特区属六盘水市辖区域,位于贵州省西部,现仅有一个。
因此:
省级行政单位有:省、直辖市、自治区、特区
市级行政单位有:地级市、自治州、地区、盟
县级行政单位有:区、县级市、县、自治县、旗、自治旗、直辖县、省直辖市、林区、特区。
此外,还有省直辖县、省直辖市。在民政部的行政区划等级中不属于任何地级行政区划代管。属于县级行政区,不经地级行政区代管或管辖,由省级行政区直接管辖,独立于地级行政区之外单独建制,由所在的省或自治区直接领导和管理。因此省直辖县、省直辖市无地级行政区,也属于县级行政区。
基于此,我们查询相关的2019年民政部的行政区划统计如下表所示:
合计 | 行政区划单位 | 合计 | 行政区划单位 | 合计 | 行政区划单位 |
---|---|---|---|---|---|
34 | 4直辖市 23省 5自治区 2特别行政区 | 333 | 293 地级市 7 地区 30 自治州 3 盟 | 2846 | 965 市辖区 387 县级市 1323 县 117 自治县 49 旗 3 自治旗 1 特区 1 林区 |
# 县级数量检查
逐个省份进行县级数量检查,检查表格如下:
地区 | 县级数量 | 地区 | 县级数量 |
---|---|---|---|
北京市 | 16 市辖区 | 湖南省 | 36 市辖区 18 县级市 61 县 7 自治县 |
天津市 | 16 市辖区 | 广东省 | 65 市辖区 20 县级市 34 县 3 自治县 |
河北省 | 47 市辖区 21 县级市 94 县 6 自治县 | 广西壮族自治区 | 41 市辖区 9 县级市 49 县 12 自治县 |
山西省 | 26 市辖区 11 县级市 80 县 | 海南省 | 8 市辖区 5 县级市 4 县 6 自治县 |
内蒙古自治区 | 23 市辖区 11 县级市 17 县 49 旗 3 自治旗 | 重庆市 | 26 市辖区 8 县 4 自治县 |
辽宁省 | 59 市辖区 16 县级市 17 县 8 自治县 | 四川省 | 54 市辖区 18 县级市 107 县 4 自治县 |
吉林省 | 21 市辖区 20 县级市 16 县 3 自治县 | 贵州省 | 15 市辖区 9 县级市 52 县 11 自治县 1 特区 |
黑龙江省 | 54 市辖区 21 县级市 45 县 1 自治县 | 云南省 | 17 市辖区 17 县级市 66 县 29 自治县 |
上海市 | 16 市辖区 | 西藏自治区 | 8 市辖区 66 县 |
江苏省 | 55 市辖区 22 县级市 19 县 | 陕西省 | 30 市辖区 6 县级市 71 县 |
浙江省 | 37 市辖区 20 县级市 32 县 1 自治县 | 甘肃省 | 17 市辖区 5 县级市 57 县 7 自治县 |
安徽省 | 44 市辖区 9 县级市 52 县 | 青海省 | 7 市辖区 4 县级市 26 县 7 自治县 |
福建省 | 29 市辖区 12 县级市 44 县 | 宁夏回族自治区 | 9 市辖区 2 县级市 11 县 |
江西省 | 27 市辖区 11 县级市 62 县 | 新疆维吾尔自治区 | 13 市辖区 26 县级市 61 县 6 自治县 |
山东省 | 57 市辖区 27 县级市 53 县 | 香港特别行政区 | |
河南省 | 53 市辖区 22 县级市 83县 | 澳门特别行政区 | |
湖北省 | 39 市辖区 25 县级市 36 县 2 自治县 1 林区 | 台湾省 |
在检查过程中,将错误的县级类型属性改为正确的,最后我国县级类型分布图如下所示:
# 地级数量检查
这一步是在数据合并完成后进行的,是对逐个省份进行市级类型检查,主要注意几个无县级行政区的地级市,以及直辖市无地级行政单位。最后我国市级类型分布图如下所示:
# 数据合并
在检查完矢量与属性信息之后,使用数据融合工具进行地级和省级的数据合并。
我国的市级数据如图所示:
我国的省级数据如图所示:
# 英文属性添加
参考GADM属性信息,给矢量数据添加数据的英文属性,各个属性名称对应的名称如下:
中文 | 英文属性名 |
---|---|
地名 | NAME |
县级 | NAME_3 |
县级码 | GID_3 |
县级类 | TYPE_3 |
地级 | NAME_2 |
地级码 | GID_2 |
地级类 | TYPE_2 |
省级 | NAME_1 |
省级码 | GID_1 |
省级类 | TYPE_1 |
地名的中文拼音标注 | VAR_NAME |
县级的中文拼音标注 | VAR_NAME3 |
地级的中文拼音标注 | VAR_NAME2 |
省级的中文拼音标注 | VAR_NAME1 |
省市县的类型英文名对应为:
中文名 | 英文名 | 中文名 | 英文名 |
---|---|---|---|
县 | County | 地级市 | Prefecture City |
县级市 | County City | 自治州 | Autonomous Prefecture |
自治县 | Autonomous County | 地区 | Prefecture |
市辖区 | District | 盟 | League |
旗 | Banner | 直辖市 | Municipality |
自治旗 | Autonomous Banner | 省 | Province |
林区 | Forestry Area | 自治区 | Autonomous Region |
特区(县级) | Special District | 特区 | Special District |
不统计 | NULL |
另外,考虑到汉语拼音是表述普通话语音的拼音系统,后被用作对外宣传的拼写法则,这也就是我们看到大部分省市英文为拼音的原因。也有部分地区是非拼音,使用的是邮政式拼音。例如广东、广西、福建有一部分地区的地名已经有了拉丁字母的习惯拼法,例如Amoy(厦门)、Canton(广州)、Foochow(福州)等。
但考虑到我国一直使用的拼音代表地名,联合国也于1977年起正式改用汉语拼音拼写中国大陆地名,因此本数据全部采用拼音系统代表地名。但单个字的地区,比如广西横县、山西临县等,保留县名称,再命名。带民族的,保留民族的英文名字。
自此,我们获得了完整的具有英文属性的省市县行政区划矢量数据。
# 数据获取
2020年初全国省市县行政区划数据矢量 百度云 链接:https://pan.baidu.com/s/1rXzkX8pNBhmxJQ_QZP6sQw?pwd=4444 (opens new window) 提取码:4444 阿里云 链接 https://www.aliyundrive.com/s/RFUJzXQ76vA (opens new window) 提取码: 8ve5
# 写在最后
我为什么会选做这样的事?是因为我在搭建自己的网站(landcover100.com)中,经常遇到行政区划数据的问题。到底该用哪一套行政区划数据深深困扰着我。天地图数据?不完整。中科资环数据?太旧。高德地图数据?属性不够。所以一开始我是打算用数读城事版的区划数据,因为这套数据完整且质量高。但这套数据有两个问题,第一个问题基础数据不统一,使用了基础地理信息数据,后面又使用了高德地图数据。第二个问题是这套数据不开放获取。但这套数据又是目前市面上能见到的质量最好的中国行政区划数据。我制作这套数据也是站在了"数读城事"巨人的肩膀上,在此再次表达敬意。
因此,我准备自己做一套能够使用的数据。最开始有两个思路,一个是使用民政部的区划数据,该数据的边界精度非常高,且没有数据加偏。但该数据有个问题,民政部并未发布该数据,数据来源的声明不太好写,难道说是通过爬虫获取,哈哈哈。另外一个数据就是该文的思路,基于国家基础地理信息中心发布的县矢量数据,这个数据虽然精度不高,但胜在权威,且可以声明数据来源。
因此我打算基于该数据,参考民政部历年行政区划变化情况,做一套长时间序列的行政区划数据。2020年初(截至2019年12月31日)的行政区划数据是基础,将以此为扩展,在半年内构建2015年-2022年的行政区划数据,欢迎持续关注。
# 参考
国家基础地理信息中心.https://www.ngcc.cn/ngcc/html/1/index.html
中国科学院资源环境科学与数据中心.https://www.resdc.cn/
公众号 数读城事(2021年度行政区划调整的数据更新与分享(省市县截至2021年12月31日).https://mp.weixin.qq.com/s/KtYlB2jA67jvdcE9fKyEPQ
公众号 点点GIS.2022年7月5日最新全国行政区划数据.https://mp.weixin.qq.com/s/KJnHD45QdqXdmHVuHZA9d
2019年12月中华人民共和国县以上行政区划代码.https://www.mca.gov.cn/article/sj/xzqh/1980/2019/202002281436.html
中国国家地名信息数据库.https://dmfw.mca.gov.cn/index.html
gadm.https://gadm.org/
datav.http://datav.aliyun.com/portal/school/atlas/area_selector