数据分析/数据可视化
SciPy-基于Python的数学、科学、工程开源软件生态系统;
NumPy– Python科学计算基础包;
Numba– Python的低级虚拟机JIT编译器,由Cython and NumPy的开发者编写,供科学计算使用;
NetworkX– 用于复杂网络使用的高效率软件;
igraph– 绑定igraph 库-通用图形库 ;
Pandas– 该库提供了高性能、易用的数据结构及数据分析工具;
Open Mining– Python中的商业智能工具(Pandas web接口);
PyMC– Markov Chain Monte Carlo(MCMC)采样工具包;
zipline– Python的算法交易库;
PyDy– 全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流;
SymPy– Python中的符号数学库;
statsmodels– Python中的统计建模及计量经济学库;
astropy– Python中的天文学程序库;
matplotlib– Python中的2D绘图库;
bokeh-Python的交互式Web绘图库;
plotly– Python 和matplotlib的协作web绘图库;
vincent– Python到 Vega的转换器;
ggplot– 和R语言里的ggplot2提供同样的API;
ggfortify– 统一到ggplot2流行的R包的接口;
Kartograph.py– Python中渲染SVG图的库,效果出众R;
pygal– Python的SVG图表生成器;
PyQtGraph– 基于PyQt4/PySide和NumPyde 纯Python编写的图形和GUI库;
Petrel– 纯Python中用于编写、提交、调试和监视Storm拓扑结构的工具;
Blaze– NumPy和Pandas的大数据接口;
emcee– Python集成采样工具包用于仿射不变的MCMC;
windML– 用于风能分析与预测的Python框架;
vispy– 基于GPU的高性能交互式OpenGL 2D/3D数据可视化库;
cerebro2– NuPIC的一个基于Web的可视化和调试平台;
NuPIC Studio– 一个all-in-one NuPIC 分层时间可视化和调试的超级工具!
SparklingPandasPandas on PySpark (POPS)
Seaborn– 基于matplotlib的Python可视化库;
bqplot– Jupyter (IPython)中用于绘图的API;
pastalog– 用于训练神经网络的简单、实时可视化的服务器;
caravel– 可视、直观、互动的数据探索平台。
杂项脚本/iPython笔记/代码库
BioPy– Python中的生物启发和机器学习算法;
A gallery of interesting IPython notebooks
data-science-ipython-notebooks– 持续更新的数据科学Python笔记:Spark、Hadoop MapReduce、HDFS、AWS、Kaggle、scikit-learn、matplotlib、pandas、NumPy、 SciPy、和其他各种命令行;
Sarah Palin LDA– Sarah Palin关于主题建模的电子邮件;
Diffusion Segmentation– 基于扩散方法的图像分割算法集合;
Scipy Tutorials– SciPy教程,该部分已过时,请查看scipy-lecture-notes;
Crab– Python的推荐引擎库;
BayesPy– Python中的贝叶斯推断工具;
scikit-learn tutorials– scikit-learn学习笔记系列;
sentiment-analyzer– 推特情绪分析器;
sentiment_classifier– 采用词义消歧的情感分类器;
group-lasso– 一些坐标下降算法实验,应用于(稀疏)群套索模型;
jProcessing– Kanji / Hiragana / Katakana 到Romaji的转换器。Edict 字典和平行句搜索。两个JP句间相似度。日文情感分析。在Python运行 Cabocha(ISO 8859-1配置);
mne-python-notebooks-使用 mne-python进行EEG/MEG数据处理的IPython笔记;
pandas cookbook– 使用Python pandas库的方法书;
climin– 机器学习的优化程序库,用Python实现了梯度下降、LBFGS、rmsprop、adadelta 等算法;
Allen Downey’s Data Science Course– 2014春季Olin挑战数据科学源码;
Allen Downey’s Think Bayes Code– Think Bayes 的代码库;
Allen Downey’s Think Complexity Code– Allen Downey’s book Think Complexity 源码;
Allen Downey’s Think OS Code– Think OS的文本和对应源码:操作系统简介;
Python Programming for the Humanities– 为那些对应知识人开设的Python编程课。重点在文本处理/NLP;
GreatCircle– 计算大圆距离的库;
Optunity examples– 如何将Optunity 和机器学习库协同使用的演示示例;
Dive into Machine Learning with Python Jupyter notebook and scikit-learn– “我最初最为黑客来学习Python,越陷越深。我想利用在机器学习中使用它。如何您对此感兴趣,请加入我们。”
TDB– TensorDebugger (TDB) 是深度学习可视化调试器,使用断点调试、互动和可视化扩展TensorFlow。
Kaggle竞赛源码
wiki challenge– Kaggle上一个维基预测挑战赛 Dell Zhang解法的实现;
kaggle insults– Kaggle上”从社交媒体评论中检测辱骂词汇“竞赛提交的源码;
kaggle_acquire-valued-shoppers-challenge– Kaggle预测回头客挑战赛的源码;
kaggle-cifar– Kaggle上CIFAR-10 竞赛的源码,该代码中使用cuda-convnet;
kaggle-blackbox– 深度学习更加容易;
kaggle-accelerometer– Kaggle上加速度计数据识别用户竞赛的源码;
kaggle-advertised-salaries– Kaggle上用广告预测工资竞赛的源码;
kaggle amazon– 亚马逊接入控制挑战;
kaggle-bestbuy_big– Kaggle上关于Best Buy 挑战的源码;
Kaggle Dogs vs. Cats-Kaggle上从图片中识别猫和狗竞赛的源码;
Kaggle Galaxy Challenge– Kaggle上银河系挑战竞赛的优胜代码;
Kaggle Gender-Kaggle竞赛:从笔迹上区分性别;
Kaggle Merck– Kaggle上预测药物分子活性竞赛的代码(默克制药赞助);
Kaggle Stackoverflow– 预测Stack Overflow网站问题是否会被关闭竞赛的源码;
kaggle_acquire-valued-shoppers-challenge– Kaggle获取有价值的顾客竞赛源码;
wine-quality– 预测红酒质量。
Ruby
自然语言处理
Treat– 文本检索与注释工具包,目前为止我见过Ruby上的最全面的工具包;
Ruby Linguistics– Linguistics框架可以用任何语言为Ruby对象构建语言学工具,它包括一个语言无关的通用前端、一个将语言代码映射到语言名的模块以及一个含有多英文语言工具的模块;
Stemmer– 使Ruby可以用 libstemmer_c中的接口;
Ruby Wordnet– WordNet的Ruby接口库;
Raspell – raspell是一个绑定到Ruby的接口;
UEA Stemmer-UEALite Stemmer的Ruby移植版,用来供搜索和检索用的保守的词干分析器 ;
Twitter-text-rb– 一个可以将推特中的用户名、列表和话题标签自动连接并提取出来的库。
通用机器学习
Ruby Machine Learning– Ruby语言实现的一些机器学习算法;
jRuby Mahout– JRuby Mahout一个精华!在JRuby世界中释放了Apache Mahout的威力;
CardMagic-Classifier– 可用贝叶斯及其他分类法的通用分类器模块;
rb-libsvm– LIBSVM的Ruby语言绑定,是一个支持向量机的库。
数据分析/数据可视化
rsruby– Ruby – R的桥梁;
data-visualization-ruby– 关于数据可视化的Ruby Manor演示的源代码和支持内容;
ruby-plot– 将gnuplot封装为Ruby形式,尤其适合将ROC曲线转化为svg文件;
plot-rb– 基于Vega和D3的ruby绘图库;
scruffy– Ruby中的出色的图形工具包;
Glean– 数据管理工具;
杂项
Listof– 基于数据收集的社区,在创业板块。获取更多资料的TXT、Json或Hash列表。Demo/Search for a list
Rust
通用机器学习
deeplearn-rs– deeplearn-rs 提供了使用矩阵乘法、加法简单的网络,遵循MIT协议;
rustlearn– 支持逻辑回归、支持向量机、决策树和随机森林的机器学习框架;
rusty-machine– 一个纯rust语言机器学习库;
leaf– 用于机器智能的开源框架,其灵感来自TensorFlow和 Caffe,遵循 MIT 协议;
RustNN– RustNN 是一个前向反馈神经网络库。
R
通用机器学习
ahaz– ahaz:用于正则化半参数风险回归模型;
arules– arules:频繁项集与关联规则的挖掘;
bigrf– bigrf:大随机森林:大型数据集的分类和回归分析;
bigRR– bigRR: 广义岭回归 (在P>>N的情况特具有特殊优势);
bmrm– bmrm: 正则化风险最小方案集;
Boruta– Boruta: 一种用于所有相关特征选择的包装算法;
bst– bst: 梯度推进(Gradient Boosting);
C50– C50: C5.0决策树和基于规则模型;
caret– 分类与回归训练:R语言150个机器学习算法的统一接口;
caretEnsemble– 用于拟合和创建多符号模型的框架 ;
Clever Algorithms For Machine Learning(机器学习的巧妙算法)
CORElearn– 分类、回归、特征评价与序评价;
CoxBoost– CoxBoost: 基于提升单一存活点或竞争风险的Cox模型;
Cubist– Cubist: 基于规则和实例的回归模型;
earth– 多元自适应回归样条模型;
evtree– evtree: 全局最优树的进化学习;
fpc– 灵活的聚类程序;
frbs– frbs: 基于模糊规则的分类和回归任务系统;
GAMBoost– 基于似然法的广义线性和加性模型;
gamboostLSS– GAMLSS的Boosting方法;
gbm– 广义回归模型;
glmnet– 用于实现套索和弹性网络化的广义线性模型
glmpath– Cox比例风险模型和广义线性模型的L1正则化路径;
GMMBoost– 广义混合模型中基于似然估计的Boosting;
grplasso– 采用群体套索惩罚的用户指定模型;
grpreg– 分组协变量回归模型的正则化路径;
h2o– 大规模快速、并行、分布式机器学习算法框架–深度学习、随机森林、GBM、KMeans、PCA、GLM;
hda– 异方差判别分析;
统计学习概论(Introduction to Statistical Learning)
ipred– ipred: 改进的预测模型;
kernlab– kernlab: 基于内核的机器学习实验室;
klaR– klaR: 分类和可视化;
lars– lars:最小角回归、套索和向前逐步回归;
lasso2– lasso2: L1约束估计又名“套索”;
LiblineaR– LiblineaR:基于LiblinearC/C++ 库线性预测模型;
LogicReg– LogicReg: 逻辑回归;
maptree– 映射、剪切和图形树模型;
mboost– 基于模型的Boosting
medley– 使用贪婪逐步算法的混合回归模型;
mlr– R语言中的机器学习;
mvpart– 多元分割
ncvreg– SCAD的正则化路径和MCP惩罚回归模型;
nnet– 前向反馈神经网络和多项式对数线性模型;
oblique.tree– 用于数据分类的Oblique Trees ;
pamr– 微阵列预测分析;
party– 一个递归Partytioning的实验室;
partykit-一个递归Partytioning的工具包;
penalized– 在广义线性模型和Cox模型中L1(套索和融合套索)和L2(岭)惩罚估计;
penalizedLDA– 采用线性判别进行惩罚分类;
penalizedSVM– 采用惩罚功能的特征选择向量机;
quantregForest– 分位数回归森林算法;
randomForest– 用于分类和回归的Breiman和Cutler随机森林算法;
randomForestSRC– 用于生存、回归和分类的随机森林算法(RF-SRC);
rattle– R中的数据挖掘的图形用户界面;
rdetools– 用于在特征空间的相关维度估计;
REEMtree– 纵向(面板)数据的随机效应回归树;
relaxo– 放松的套索;
rgenoud– R语言版的遗传优化程序包;
rgp– R 语言中的遗传程序框架;
Rmalschains– R语言中基于局部搜索链的模因算法进行持续优化算法;
rminer– rminer: 在分类和回归中数据挖掘(例如NN、SVM)方法的简单应用;
ROCR– 用于评分分类器性能的可视化;
RoughSets– 采用粗糙集与模糊粗糙集理论的数据分析包;
rpart– 递归分割与回归树;
RPMM– 递归分割混合模型;
RSNNS– R中的神经网络,采用了Stuttgart神经网络模拟器;
RWeka– R/Weka 接口;
RXshrink– 广义岭或最小角回归的最大似然收缩;
sda– 收缩判别分析和CAT得分变量选择;
SDDA– 逐步对角判别分析;
SuperLearnerandsubsemble– 多算法集成学习包;
svmpath– SVM向量路径算法;
tgp– 高斯型贝叶斯模型;
tree– 分类与回归树;
varSelRF– varSelRF: 使用随机森林的变量选择;
XGBoost.R– 结合R的极值梯度Boosting 库;
Optunity– 通过一个简单、轻量的API可方便更换网格搜索,用于自动化参数优化的库, Optunity 是由Python编写而成但无缝衔接到R;
igraph– 通用图形库;
MXNet– 轻量级、便携式、灵活的分布式/深度学习系统,可对动态的、突变数据流调度部署,同时也支持Python、R、Julia、Go、Javascript 等编程语言。
数据分析/数据可视化
ggplot2– 一个基于图形语法的数据可视化包。
SAS
通用机器学习
Enterprise Miner– 通过使用GUI或代码创建可部署模型进行数据挖掘和机器学习;
Factory Miner– 通过使用GUI,横跨多个市场或客户自动创建可部署机器学习模型。
数据分析/数据可视化
SAS/STAT– 用于高级统计分析;
University Edition– 免费!其中包括数据分析和可视化的必要SAS软件包,以及在线SAS课程。
高性能机器学习
High Performance Data Mining– 通过使用GUI或代码在MPP环境(包括Hadoop)创建可部署模型进行数据挖掘和机器学习;
High Performance Text Mining– 通过使用GUI或代码在MPP环境(包括Hadoop)进行文本挖掘。
自然语言处理
Contextual Analysis– 通过GUI向非结构化文本增加结构;
Sentiment Analysis– 通过GUI从文本抽取情感信息;
Text Miner– 通过GUI或代码进行文本挖掘。
示例和脚本
ML_Tables– 包含机器学习最佳时间的简明速查表;
enlighten-apply– SAS机器学习技术应用的相关代码和资料;
enlighten-integration– 用于说明SAS与Java、PMML、Python和R中的分析技术相结合的代码和材料;
enlighten-deep– 用于说明SAS中神经网络及其多个隐藏层的相关代码和材料;
dm-flow– 关于SAS Enterprise Mine处理流程图的库,通过具体的数据挖掘实例帮助您学习。
Scala
自然语言处理
ScalaNLP– ScalaNLP一系列机器学习和数值计算库的集合;
Breeze– Breeze是Scala中的的数值处理库;
Chalk– Chalk是一个自然语言处理库.
FACTORIE– FACTORIE是可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断 。
数据分析/数据可视化
MLlib in Apache Spark– Spark中的分布式机器学习库;
Scalding– Cascading的Scala AP接口;
Summing Bird– 使用Scalding 和 Storm进行Streaming MapReduce;
Algebird– Scala中的抽象代数工具;
xerial– Scala中的数据管理工具;
simmer– 一个进行代数聚合的unix过滤器,用于简化你的数据;
PredictionIO– PredictionIO是一个供软件开发者和数据工程师用的机器学习服务器;
BIDMat– 用于支持大规模探索性数据分析的CPU和GPU加速矩阵库;
Wolfe– 描述性机器学习(Declarative Machine Learning);
Flink– 分布式数据流处理和批量数据处理的开源计算平台;
Spark Notebook– 使用Scala和Spark的互动数据科学。
通用机器学习
Conjecture– Scalding中的可扩展的机器学习框架;
brushfire– Scala中的分布式决策树集成学习工具;
ganitha– 基于scalding的机器学习程序库;
adam– 一个使用Apache Avro、Apache Spark 和 Parquet的基因组处理引擎,有其专用的文件格式,采用Apache 2.0协议许可;
bioscala-Scala编程语言可用的生物信息库;
BIDMach– 用于CPU和GPU加速的机器学习库;
Figaro– 用于构造概率模型的Scala库;
H2O Sparkling Water– 用于H2O 和Spark 交互操作;
FlinkML in Apache Flink– Flink中的分布式机器学习库;
DynaML– 用于机器学习的Scala库/REPL。
Swift
通用机器学习
Swift AI– Swift语言编写的高度优化的人工智能和机器学习;
BrainCore– 支持iOS和 OS X的神经网络框架;
DeepLearningKit–支持苹果iOS OS X和tvOS系统的开源深度学习框架。目前支持在苹果操作系统上利用Caffe训练深度卷积网络模型;
AIToolbox– A toolbox framework of AI modules written in Swift: Swift语言编写的人工智能(AI)模型工具框架:图/树、线性回归、支持向量机、神经网络、PCA、KMeans、遗传算法、MDP和 混合高斯模型。
作者:readilen
链接:https://www.jianshu.com/p/d556af7de634
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。