Python制做提取指定站点的空气质量数据监控脚本

2020-12-10 19:16:24LanceLee数据爬虫294

- N +

文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,如有什么问题请立即在线留言以作解决。

下列文章内容来自Python干货知识店铺，创作者INUYASHA123

序言

针对我们下载的大部分数据集，大家很有可能必须提取在其中特定的来应用，例如这一空气指数数据集，全国各地那么多站点，我只想要我科学研究的地区的站点数据，殊不知，当我们打开文件夹的情况下，心寒了，由于这种数据全是一个一个的csv文件。有一个方式便是excel可以用脚本制作把这种独立的csv合拼为一个csv ，但很有可能随着的难题便是数据超过excel的储存限制，so，大家换一种作法提取特定站点的数据。

此次试验采用的数据是全国各地2014-2020年的站点空气指数数据，每钟头的屏幕分辨率的，截屏看一下长什么样子：

如果一个一个的开启去提取自身必须的，那会发疯的，So,上武器--Python来进行此次实验过程

targets便是你特定的想提取的站点，想提取谁就特定谁，就键入谁的站点编号就可以啦

总体编码以下：

import os
import pandas as pd


# 界定有关主要参数
dataPath = './data' # 数据文件目录
targets = ['1001A','1002A','1002A','1004a','1005A','1006A','1007A','1008A'] # 总体目标站点
result = [[] for i in range(len(targets))] # 用以储存結果


# 刚开始解析xml
for filepath in os.listdir(dataPath): # 解析xml每一个文件夹名称
    for filename in os.listdir('%s/%s'%(dataPath,filepath)):
        if not filename.endswith('.csv'): # 去重复非csv数据文档
            continue
        data = pd.read_csv('%s/%s/%s'%(dataPath,filepath,filename))
        for i in range(0,len(data),15):
            for k in range(len(targets)):
                try:
                    item = {'date':data['date'][i], # 日期
                            'hour':data['hour'][i]} # 钟头
                    for j in range(i,i 15):
                        item[data['type'][j]] = data[targets[k]][j]
                    result[k].append(item)
                except:
                    pass
        print('%s交通事故结案'%filename)
# 储存結果
for i in range(len(targets)):
    pd.DataFrame(result[i]).to_csv('%s.csv'%targets[i],index=False)

Run，起动就可以运作，結果键入是这好多个站点的csv数据，里边包括了所纪录的时间段的全部因素(例如PM10这类的)的数据

文章来源于网络，如有侵权请联系站长QQ61910465删除

本文版权归去快排wWw.seogUrublog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系qq❉61910465