思路:
- 查询POI分类名称及对应编码
分类代码一览表:https://wenku.baidu.com/view/fc0805ed51e2524de518964bcf84b9d528ea2c1f.html - 对研究区域进行网格切分
- 设置请求参数(组合成一个完整的链接)
矩形搜索高德API参考文档:https://lbs.amap.com/api/webservice/guide/api/search#polygon - 逐网格请求服务
- 解析文本内容并保存
代码:
import requests # #http请求模块
import pandas as pd # 数据分析包
# 存储企业分类名称和对应编码
codes = {
'摩托车服务': '040000'
}
# 设置请求资源的URL
url1 = "https://restapi.amap.com/v3/place/polygon?key=f2fca64f70c9b50e5c7e0a3668c01161&types="
url2 = "&extensions=all&page="
url3 = "&polygon="
# 研究区域左上角的经纬度和网格的边长
leftLng = 119.979285
leftLat = 31.987759
widthLng = 0.0063
widthLat = 0.003
def getHTML(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 状态检查是否成功
r.encoding = r.apparent_encoding # 从内容中分析出的响应内容编码方式
print("Connected1")
return r
except:
print("Wrong1")
return ""
def Getdata():
index = 1
# 循环字典中的值,爬取不同种类的企业
for key, value in codes.items():
x = [["名称", "地址", "经度", "纬度"]]
# 循环爬取每个网格:这里总共分了一万个格网
for j in range(0, 100):
starLng = round(leftLng + j * widthLng, 6)
endLng = round(starLng + widthLng, 6)
for k in range(0, 100):
starLat = round(leftLat - k * widthLat, 6)
endLat = round(starLat - widthLat, 6)
locStr = str(starLng) + "," + str(starLat) + "|" + str(endLng) + "," + str(endLat)
print(locStr)
if not index % 100:
print('爬取进展:第%d个网格' % index)
index += 1
# 判断每一个区域是否返回全部的POI信息,并将返回的信息储存在列表中
for page in range(1, 50): # range函数到49
thisUrl = url1 + value + url2 + str(page) + url3 + locStr # 一个完整的请求链接
if page == 49:
print("可能未爬取全部")
try:
# 获取POI数据
data = getHTML(thisUrl)
# 转为json格式
s = data.json()
# 解析json格式
a = s["pois"]
except:
continue
# 若解析的JSON为空,即当前数据不够50页(即没有达到限制),返回
if len(a) == 0:
print(page)
break
# 提取需要的属性信息
for i in range(0, len(a)):
d1 = a[i]["name"]
d2 = a[i]["address"]
d3 = a[i]["location"]
d4 = str(d3).split(',')
x.append([d1, d2, d4[0], d4[1]])
# 保存为CSV文件
c = pd.DataFrame(x) # 创建一个二维表
fileName = "D:\\SF\\Test\\result\\" + key + ".csv"
c.to_csv(fileName, encoding='utf-8-sig')
def main():
print('Let ')
Getdata()
main()
结果示例,可用Excel打开