让你事半功倍的小众 Python 库，是不是很惊喜！

Python 成功和受欢迎的原因之一是存在强大的库，这些库使 Python 极具创造力且运行快速。然而，使用 Pandas、Scikit-learn、Matplotlib 等常见库在解决一些特殊的数据问题时可能并不实用，本文介绍的这些非常见库可能更有帮助。

如果有想要学习Python或者正在学习Python中的小伙伴，需要学习资料的话，可以到我的微信公众号：Python学习知识圈，后台回复：“01”，即可拿Python学习资料

1、 WGET

提取数据，特别是从网络中提取数据是数据科学家的重要任务之一。Wget 是一个免费的工具，用于以非交互式方式从 Web 上下载文件。它支持 HTTP、HTTPS 和 FTP 协议，通过 HTTP 代理进行检索。由于它是非交互式的，即使用户没有登录，它也可以在后台工作。所以，如果你想下载一个网站或一个页面上的所有图片，wget 会帮助你。

安装：

$ pip install wget

</pre>

示例：

import wget
url = http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3
filename = wget.download(url)
100% [................................................] 3841532 / 3841532
filename
razorback.mp3

2、Pendulum

</pre>

对于那些在 python 中被处理datetimes困扰的人来说，Pendulum 是个好选择。它是一个 Python 包，用于简化 datetimes 操作。它是 Python「本机」类（native class）的代替。更多内容，请参阅文档：https://um.eustace.io/docs/# installation。

安装：

$ pip install pendulum

</pre>

示例：

</pre>

3、IMBALANCED-LEARN

可以看出，当每个类的样本数量相等即平衡时，大多数分类算法的工作效果最好。但现实生活中充满了不平衡的数据集，这些数据集对机器学习的学习阶段和后续预测都有影响。创建这个库是为了解决这个问题。它与 scikit-learn 兼容，并且是 scikit-learn-contrib 项目的一部分。下次遇到不平衡的数据集时，可以尝试一下。

安装：

pip install -U imbalanced-learn

or

conda install -c conda-forge imbalanced-learn

</pre>

有关用法和示例，请参考：http://imbalancedlearn.org/en/stable/api.html。

4、FLASHTEXT

在 NLP 任务中，清理文本数据通常需要替换句子中的关键词或从句子中提取关键词。通常，这样的操作可以用正则表达式来完成，但是如果要搜索的词汇量过大，操作就会变得麻烦。Python 中基于 FlashText 算法的 FlashText 模块，为这种情况提供了一个合适的替代方案。FlashText 最大的优点是搜索词数量不影响运行时长。更多相关信息请见：https://flashtext.readthedocs.io/en/latest/#。

安装：

$ pip install flashtext

</pre>

示例

提取关键词：

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword( Big Apple , New York )
keyword_processor.add_keyword( Bay Area )
keywords_found = keyword_processor.extract_keywords( I love Big Apple and Bay Area. )
keywords_found
[ New York , Bay Area ]

</pre>

替换关键词：

keyword_processor.add_keyword( New Delhi , NCR region )
new_sentence = keyword_processor.replace_keywords( I love Big Apple and new delhi. )
new_sentence
I love New York and NCR region.

</pre>

更多使用示例，请参阅官方文档。

5、FUZZYWUZZY

虽然名字听起来很奇怪，但涉及到字符串匹配时，fuzzywuzzy 是一个非常有用的库，可以很容易地实现诸如字符串比较比率、token 比率等操作。对于匹配不同数据库中的记录也很方便。

安装：

$ pip install fuzzywuzzy

</pre>

示例：

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

Simple Ratio

fuzz.ratio("this is a test", "this is a test!")
97

Partial Ratio

fuzz.partial_ratio("this is a test", "this is a test!")
100

</pre>

更多有趣的例子可以在 GitHub 上找到：https://github.com/seatgeek/fuzzywuzzy。

6、PYFLUX

时间序列分析是机器学习领域最常见的问题之一。PyFlux 是 Python 中为处理时间序列问题而创建的开源库。该库有一系列极好的时间序列模型，包括但不限于 ARIMA、 GARCH 和 VAR 模型。简而言之，PyFlux 提供了一个时间序列建模的概率方法。值得尝试。

安装：

pip install pyflux

</pre>

有关用法和示例，请参考：https://pyflux.readthedocs.io/en/latest/index.html。

7、IPYVOLUME

交流结果是数据科学的一个基本方面。能够将结果可视化是一个很大的优势。IPyvolume 是一个用于在 Jupyter notebook 中可视化 3d 体积和字形（如 3d 散点图）的 Python 库，只需少量配置即可。然而，它目前还处于前 1.0 版。IPyvolume 的 volshow 之于 3d 数组，就像 matplotlib 的 imshow 之于 2d 数组一样。更多相关信息请见：https://ipyvolume.readthedocs.io/en/latest/?badge=latest。

安装：

Using pip
$pip install ipyvolume Conda/Anaconda$ conda install -c conda-forge ipyvolume

</pre>

8、DASH

Dash 是一个用于构建 web 应用程序的高效 Python 框架。它写在 Flask、Plotly.js 和 React.js 之上，将下拉列表、滑块和图形等 UI 元素与你的分析性 Python 代码直接相连，无需 javascript。Dash 非常适合构建数据可视化应用程序。然后这些应用程序可以在 web 浏览器中进行渲染。用户指南请见：https://dash.plot.ly/。

安装：

pip install dash==0.29.0 # The core dash backend

pip install dash-html-components==0.13.2 # HTML components

pip install dash-core-components==0.36.0 # Supercharged components

pip install dash-table==3.1.3 # Interactive DataTable component (new!)

</pre>

下图示例显示了具有下拉功能的高度交互图。当用户在下拉列表中选择一个值时，应用程序代码会动态地将 Google Finance 的数据导出为 Pandas DataFrame。资源：https://gist.github.com/chriddyp/3d2454905d8f01886d651f207e2419f0。

image

9、GYM

来自 OpenAI 的 Gym 是一个开发和对比强化学习算法的工具包。它兼容于任何数值计算库，如 TensorFlow 或 Theano。Gym 库是一个测试问题的集合，也被称为环境——可以用它来计算你的强化学习算法。这些环境有一个共享的接口，允许你写通用算法。

安装：

pip install gym

</pre>

运行环境 CartPole-v0 的 1000 个时间步骤实例，在每个步骤渲染环境。

image

阅读其他环境请见：https://gym.openai.com/。

结论

这些是作者为数据科学挑选的实用 python 库，而非常见的 numpy、panda 等。值得一试

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

让你事半功倍的小众 Python 库，是不是很惊喜！

or

keyword_processor.add_keyword(<unclean name>, <standardised name>)

Simple Ratio

Partial Ratio

推荐阅读更多精彩内容