文中的文本及图片来自互联网,仅作学习培训、沟通交流应用,不具备一切商业行为,著作权归创作者全部,如有什么问题请立即在线留言以作解决
下列文章内容来自腾讯云服务 创作者:昱良
在文中中,大家将详细介绍一些用以计算机科学层面的Python库 ,他们并不象pandas、scikit-learn 和 matplotlib那麼著名,但一样十分好用的库。热烈欢迎大伙儿发表评论填补~
1 、Wget
提取数据信息,特别是在是以互联网上提取数据信息 ,是大数据工程师的关键每日任务之一。Wget是一个完全免费的应用工具,用以从Web上开展非互动式压缩文件下载 。它适用HTTP,HTTPS和FTP协议 ,及其根据HTTP代理商开展查找。因为它是是非非互动式的,即便 客户沒有登陆还可以在后台程序。因而,假如你必须下载一个网址或网页页面中的全部图片时 ,wget 就可以帮上你
安裝:
$ pip install wget
实例:
import wget url = http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3 filename = wget.download(url) 100% [................................................] 3841532 / 3841532 filename razorback.mp3
2、Pendulum
如果您还在烦恼Python中時间日期的解决,那麼你需要Pendulum 。它是一个Python包,用以简单化datetime实际操作。它是Python原生态类的一个临时性取代。
安裝:
$ pip install pendulum
事例:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz= America/Toronto ) dt_vancouver = pendulum.datetime(2012, 1, 1, tz= America/Vancouver ) print(dt_vancouver.diff(dt_toronto).in_hours()) 3
3、Imbalanced-learn
大部分随机森林算法在每一个类的样版总数基本上全是一样的状况下是最有效的 ,但具体工作上大部分不是均衡的数据集 ,这种数据集对深度学习优化算法的学习培训环节和事后预测分析都很有可能有影响 。幸运的是,创imbalance -learn库能够处理这个问题。它与scikit-learn兼容,是scikit- learning -contrib新项目的一部分。下一次碰到不平衡的数据集的状况 ,请别忘记它 。
安裝:
pip install -U imbalanced-learn # or conda install -c conda-forge imbalanced-learn
4 、FlashText
在自然语言理解解决(NLP)每日任务中清除文字数据信息一般必须更换关键词或从语句中提取关键词。一般,那样的实际操作可以用正则表达式来进行,可是假如要检索的英语词汇量做到千余 ,那麼这种实际操作便会越来越很繁杂。
Python的FlashText控制模块根据FlashText优化算法,为这类状况出示了适合的取代计划方案 。FlashText最赞的地区是,它的运作与你的搜索指数不相干 。
安裝:
$ pip install flashtext
事例:
1)提取关键字
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(<unclean name>, <standardised name>) keyword_processor.add_keyword( Big Apple , New York ) keyword_processor.add_keyword( Bay Area ) keywords_found = keyword_processor.extract_keywords( I love Big Apple and Bay Area. ) keywords_found [ New York , Bay Area ]
2)取代关键字
keyword_processor.add_keyword( New Delhi , NCR region ) new_sentence = keyword_processor.replace_keywords( I love Big Apple and new delhi. ) new_sentence I love New York and NCR region.
5、FuzzyWuzzy
这一名字听起来很怪异 ,可是在字符串匹配层面,FuzzyWuzzy是一个十分有效的库。它能够便捷地完成字符串匹配率等实际操作。它还能够便捷地搭配储存在不一样数据库查询中的纪录 。
安裝:
$ pip install fuzzywuzzy
事例:
from fuzzywuzzy import fuzz from fuzzywuzzy import process # Simple Ratio fuzz.ratio("this is a test", "this is a test!") 97 # Partial Ratio fuzz.partial_ratio("this is a test", "this is a test!") 100
6、PyFlux
时间序列分析剖析是深度学习中最普遍的难题之一。PyFlux是Python中的一个开源系统库,它是为解决时间序列分析难题而搭建的。该库有着一系列很出色的当代时间序列分析实体模型 ,例如ARIMA 、GARCH和VAR实体模型等 。简单点来说,PyFlux出示了一种时间序列分析模型的几率方式。
安裝:
pip install pyflux
7、IPyvolume
计算机科学很重要的一部分便是沟通交流結果,数据可视化数据显示能够让你出示一个极大的优点。IPyvolume是一个Python库 ,用以数据可视化Jupyter笔记本电脑中的三维容积和符号(比如三维散点图) ,只需小量的配备 。
安裝 :
Using pip $ pip install ipyvolume Conda/Anaconda $ conda install -c conda-forge ipyvolume
事例:
绘图
8、Dash
Dash是一个用以搭建web应用程序流程的高效率Python架构。它根据FlaskPlotty.js 和 Response.js 以上。将下拉列表和图型等UI原素与Python剖析编码捆缚在一起,而不用应用JavaScript 。Dash特别适合搭建能够在web电脑浏览器中展现的大数据可视化应用软件。
安裝:
pip install dash==0.29.0 # The core dash backend pip install dash-html-components==0.13.2 # HTML components pip install dash-core-components==0.36.0 # Supercharged components pip install dash-table==3.1.3 # Interactive DataTable component (new!)
事例:
下边的实例显示信息了具备往下拉作用的高宽比互动式图。当客户在下拉列表中挑选一个值时,运用编程代码将动态性地将数据信息从Google Finance 导出来到panda DataFrame 。
9 、Gym
Gym是开发设计和比照增强学习优化算法的专用工具 ,它兼容一切计算机科学库,如TensorFlow或Theano 。是一个检测难题的结合,也叫自然环境 ,你能用它来测算增强学习优化算法。这种自然环境有一个共享资源插口,容许客户撰写通用性优化算法。
安裝:
pip install gym
事例:
下列实例将在 CartPole-v0自然环境中,运作 1000 次 ,在每一步3D渲染自然环境 。