文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决

下列文章内容来自腾讯云服务 创作者:昱良


在文中中,大家将详细介绍一些用以计算机科学层面的Python库 ,他们并不象pandas、scikit-learn 和 matplotlib那麼著名,但一样十分好用的库。热烈欢迎大伙儿发表评论填补~

1 、Wget

提取数据信息,特别是在是以互联网上提取数据信息 ,是大数据工程师的关键每日任务之一。Wget是一个完全免费的应用工具,用以从Web上开展非互动式压缩文件下载 。它适用HTTP,HTTPS和FTP协议 ,及其根据HTTP代理商开展查找。因为它是是非非互动式的,即便 客户沒有登陆还可以在后台程序。因而,假如你必须下载一个网址或网页页面中的全部图片时 ,wget 就可以帮上你

安裝:

$ pip install wget

 

实例:

import wget
url =  http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
 razorback.mp3

 

2、Pendulum

如果您还在烦恼Python中時间日期的解决,那麼你需要Pendulum 。它是一个Python包,用以简单化datetime实际操作。它是Python原生态类的一个临时性取代。

安裝:

$ pip install pendulum

 

事例:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz= America/Toronto )
dt_vancouver = pendulum.datetime(2012, 1, 1, tz= America/Vancouver )

print(dt_vancouver.diff(dt_toronto).in_hours())

3

 

3、Imbalanced-learn

大部分随机森林算法在每一个类的样版总数基本上全是一样的状况下是最有效的 ,但具体工作上大部分不是均衡的数据集 ,这种数据集对深度学习优化算法的学习培训环节和事后预测分析都很有可能有影响 。幸运的是,创imbalance -learn库能够处理这个问题。它与scikit-learn兼容,是scikit- learning -contrib新项目的一部分。下一次碰到不平衡的数据集的状况 ,请别忘记它 。

安裝:

pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

 

4 、FlashText

在自然语言理解解决(NLP)每日任务中清除文字数据信息一般必须更换关键词或从语句中提取关键词。一般,那样的实际操作可以用正则表达式来进行,可是假如要检索的英语词汇量做到千余 ,那麼这种实际操作便会越来越很繁杂。

Python的FlashText控制模块根据FlashText优化算法,为这类状况出示了适合的取代计划方案 。FlashText最赞的地区是,它的运作与你的搜索指数不相干 。

安裝:

$ pip install flashtext

 

事例:

1)提取关键字

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword( Big Apple ,  New York )
keyword_processor.add_keyword( Bay Area )
keywords_found = keyword_processor.extract_keywords( I love Big Apple and Bay Area. )

keywords_found
[ New York ,  Bay Area ]

 

2)取代关键字

keyword_processor.add_keyword( New Delhi ,  NCR region )

new_sentence = keyword_processor.replace_keywords( I love Big Apple and new delhi. )

new_sentence
 I love New York and NCR region.

 

5、FuzzyWuzzy

这一名字听起来很怪异 ,可是在字符串匹配层面,FuzzyWuzzy是一个十分有效的库。它能够便捷地完成字符串匹配率等实际操作。它还能够便捷地搭配储存在不一样数据库查询中的纪录 。

安裝:

$ pip install fuzzywuzzy

 

事例:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Simple Ratio

fuzz.ratio("this is a test", "this is a test!")
97

# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")
 100

 

6、PyFlux

时间序列分析剖析是深度学习中最普遍的难题之一。PyFlux是Python中的一个开源系统库,它是为解决时间序列分析难题而搭建的。该库有着一系列很出色的当代时间序列分析实体模型 ,例如ARIMA 、GARCH和VAR实体模型等 。简单点来说,PyFlux出示了一种时间序列分析模型的几率方式。

安裝:

pip install pyflux

 

7、IPyvolume

计算机科学很重要的一部分便是沟通交流結果,数据可视化数据显示能够让你出示一个极大的优点。IPyvolume是一个Python库 ,用以数据可视化Jupyter笔记本电脑中的三维容积和符号(比如三维散点图) ,只需小量的配备 。

安裝 :

Using pip
$ pip install ipyvolume

Conda/Anaconda
$ conda install -c conda-forge ipyvolume

 

事例:

绘图

8、Dash

Dash是一个用以搭建web应用程序流程的高效率Python架构。它根据FlaskPlotty.js 和 Response.js 以上。将下拉列表和图型等UI原素与Python剖析编码捆缚在一起,而不用应用JavaScript 。Dash特别适合搭建能够在web电脑浏览器中展现的大数据可视化应用软件。

安裝:

pip install dash==0.29.0  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.36.0  # Supercharged components
pip install dash-table==3.1.3  # Interactive DataTable component (new!)

 

事例:

下边的实例显示信息了具备往下拉作用的高宽比互动式图。当客户在下拉列表中挑选一个值时,运用编程代码将动态性地将数据信息从Google Finance 导出来到panda DataFrame 。

9 、Gym

Gym是开发设计和比照增强学习优化算法的专用工具 ,它兼容一切计算机科学库,如TensorFlow或Theano 。是一个检测难题的结合,也叫自然环境 ,你能用它来测算增强学习优化算法。这种自然环境有一个共享资源插口,容许客户撰写通用性优化算法。

安裝:

pip install gym

 

事例:

下列实例将在 CartPole-v0自然环境中,运作 1000 次 ,在每一步3D渲染自然环境 。

文章来源于网络,如有侵权请联系站长QQ61910465删除
本文版权归趣快排www.sEoguruBlog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ✈61910465