CRAN Task View: Machine Learning & Statistical Learning

Torsten Hothorn

CRAN 任务视图：机器学习与统计学习

维护者	Torsten Hothorn
联系方式	Torsten.Hothorn at R-project.org
版本	2023-07-20
URL	https://CRAN.R-project.org/view=MachineLearning
源代码	https://github.com/cran-task-views/MachineLearning/
贡献	欢迎对本任务视图提出建议和改进，可以通过 GitHub 上的问题或拉取请求，或通过电子邮件发送给维护者地址。有关更多详细信息，请参阅贡献指南.
引用	Torsten Hothorn (2023). CRAN 任务视图：机器学习与统计学习。版本 2023-07-20。URL https://CRAN.R-project.org/view=MachineLearning.
安装	可以使用 ctv 包自动安装本任务视图中的包。例如，`ctv::install.views("MachineLearning", coreOnly = TRUE)` 安装所有核心包，或 `ctv::update.views("MachineLearning")` 安装所有尚未安装和更新的包。有关更多详细信息，请参阅 CRAN 任务视图计划.

一些附加包实现了计算机科学和统计学之间边界领域中发展出的想法和方法——这个研究领域通常被称为机器学习。这些包可以大致分为以下主题

神经网络和深度学习：单隐藏层神经网络在 nnet 包（随 base R 提供）中实现。RSNNS 包提供了一个与斯图加特神经网络模拟器 (SNNS) 的接口。实现深度学习风格的神经网络的包包括 deepnet（前馈神经网络、受限玻尔兹曼机、深度信念网络、堆叠式自动编码器）、RcppDL (已归档)（去噪自动编码器、堆叠式去噪自动编码器、受限玻尔兹曼机、深度信念网络）和 h2o（前馈神经网络、深度自动编码器）。tensorflow 的接口在 tensorflow 中可用。torch 包实现了与 libtorch 库的接口。预测不确定性可以通过 evreg 中实现的 ENNreg 证据回归神经网络模型来量化。
递归划分：基于树结构的模型，用于回归、分类和生存分析，遵循 CART 书籍中的思想，在 rpart（随基础 R 一起提供）和 tree 中实现。推荐使用 rpart 包来计算类似 CART 的树。在 Weka 中提供了丰富的划分算法工具箱，RWeka 包提供了对该实现的接口，包括 C4.5 的 J4.8 变体和 M5。 Cubist 包拟合基于规则的模型（类似于树），在终端叶节点中使用线性回归模型，并进行基于实例的校正和提升。 C50 包可以拟合 C5.0 分类树、基于规则的模型以及这些模型的提升版本。 pre 可以为更广泛的响应变量类型拟合基于规则的模型。
在 party 和 partykit 包中实现了两种具有无偏变量选择和统计停止准则的递归划分算法。ctree() 函数基于非参数条件推断程序，用于测试响应和每个输入变量之间的独立性，而 mob() 可以用于划分参数模型。在 party 和 partykit 包中也提供了可扩展的工具，用于可视化二叉树和响应的节点分布。可以使用 glmertree 包对混合效应模型 (GLMM) 进行划分；可以使用 semtree 包对结构方程模型 (SEM) 进行划分。 maptree 包提供了用于可视化树的图形工具。
RPMM 执行混合模型的划分。
partykit 包实现了用于表示树的计算基础设施以及统一的预测和可视化方法。该基础设施被 evtree 包用于实现全局最优树的进化学习。生存树在各种包中可用。
针对异质性治疗效果的亚组识别树在 partykit、model4you、dipm、quint、pkg("SIDES")、pkg("psica") 和 pkg("MrSGUIDE")（以及可能更多）包中可用。
随机森林：回归和分类的随机森林算法的参考实现可在包 randomForest 中找到。包 ipred 包含回归、分类和生存分析的装袋方法，以及捆绑方法，即通过集成学习组合多个模型。此外，包 party 中实现了基于条件推理树的随机森林变体，适用于任意尺度测量响应变量。 randomForestSRC 对 Breiman 的随机森林进行了统一处理，适用于生存、回归和分类问题。分位数回归森林 quantregForest 允许使用随机森林方法将数值响应的分位数回归到探索性变量上。对于二元数据，varSelRF 和 Boruta 包专注于使用随机森林算法进行变量选择。此外，包 ranger 和 Rborist 为随机森林的快速 C++ 实现提供了 R 接口。强化学习树 (RLT) 在包 RLT 中实现，其特点是在变量中进行拆分，这些变量在树的下方将很重要。 wsrf 实现了一种替代的变量加权方法，用于代替传统的随机变量采样来进行变量子空间选择。包 RGF 是对正则化贪婪森林过程的 Python 实现的接口。用于参数模型的随机森林，包括用于估计预测分布的森林，可在包 trtf（预测变换森林，可能在审查和截断下）和 grf（广义随机森林的实现）中找到。
Regularized and Shrinkage Methods : Regression models with some constraint on the parameter estimates can be fitted with the lars package. Lasso with simultaneous updates for groups of parameters (groupwise lasso) is available in package grplasso; the grpreg package implements a number of other group penalization models, such as group MCP and group SCAD. The L1 regularization path for generalized linear models and Cox models can be obtained from functions available in package glmpath, the entire lasso or elastic-net regularization path (also in elasticnet) for linear regression, logistic and multinomial regression models can be obtained from package glmnet. The penalized package provides an alternative implementation of lasso (L1) and ridge (L2) penalized regression models (both GLM and Cox models). Package RXshrink can be used to generate TRACE displays that identify the extent of shrinkage with Maximum Likelihood of Minimum MSE Risk when errors are IID Normal. Semiparametric additive hazards models under lasso penalties are offered by package ahaz. Fisher’s LDA projection with an optional LASSO penalty to produce sparse solutions is implemented in package penalizedLDA (archived). The shrunken centroids classifier and utilities for gene expression analyses are implemented in package pamr. An implementation of multivariate adaptive regression splines is available in package earth. Various forms of penalized discriminant analysis are implemented in packages hda and sda. Package LiblineaR offers an interface to the LIBLINEAR library. The ncvreg package fits linear and logistic regression models under the the SCAD and MCP regression penalties using a coordinate descent algorithm. The same penalties are also implemented in the picasso package. The Lasso under non-Gaussian and heteroscedastic errors is estimated by hdm, inference on low-dimensional components of Lasso regression and of estimated treatment effects in a high-dimensional setting are also contained. Package SIS implements sure independence screening in generalised linear and Cox models. Elastic nets for correlated outcomes are available from package joinet. Robust penalized generalized linear models and robust support vector machines are fitted by package mpath using composite optimization by conjugation operator. The islasso package provides an implementation of lasso based on the induced smoothing idea which allows to obtain reliable p-values for all model parameters. Best-subset selection for linear, logistic, Cox and other regression models, based on a fast polynomial time algorithm, is available from package abess.
提升和梯度下降：包 gbm（基于树的函数梯度下降提升）实现了各种形式的梯度提升。包 lightgbm 和 xgboost 使用高效的树作为基学习器来实现基于树的提升，适用于多种目标函数以及用户定义的目标函数。包 bst 中的提升实现优化了铰链损失。包 mboost 提供了一个可扩展的提升框架，适用于广义线性、加性和非参数模型。 GMMBoost 中实现了混合模型的基于似然的提升。 gamboostLSS 可以使用提升来拟合 GAMLSS 模型。 adabag 实现了经典的 AdaBoost 算法，并增加了功能，例如变量重要性。
支持向量机和核方法：来自 e1071 的函数 svm() 提供了与 LIBSVM 库的接口，包 kernlab 实现了一个灵活的框架，用于核学习（包括 SVM、RVM 和其他核学习算法）。包 klaR 提供了与 SVMlight 实现的接口（仅适用于一对多分类）。
贝叶斯方法：贝叶斯加法回归树 (BART)，其中最终模型定义为许多弱学习器（类似于集成方法）的总和，在包 BayesTree、BART 和 bartMachine 中实现。贝叶斯非平稳、半参数非线性回归和基于树的 Gaussian 过程设计，包括贝叶斯 CART 和基于树的线性模型，由包 tgp 提供。包 BDgraph 中实现了多元连续、离散和混合数据的无向图模型中的贝叶斯结构学习；相应的依赖于尖峰和板先验的方法可从包 ssgraph 获得。朴素贝叶斯分类器在 naivebayes 中可用。
使用遗传算法的优化：包 rgenoud 提供基于遗传算法的优化例程。包 Rmalschains 实现了具有局部搜索链的模因算法，这是一种特殊的进化算法，将稳态遗传算法与局部搜索相结合，用于实值参数优化。
关联规则：包 arules 提供了用于有效处理稀疏二进制数据的两种数据结构，以及用于挖掘频繁项集、最大频繁项集、封闭频繁项集和关联规则的 Apriori 和 Eclat 实现的接口。包 opusminer 提供了 OPUS Miner 算法（在 C++ 中实现）的接口，该算法以自足项集的形式有效地找到事务数据中的关键关联，使用杠杆或提升。
模糊规则系统：包 frbs 实现了一系列从数据中学习用于回归和分类的模糊规则系统的标准方法。包 RoughSets 在单个包中提供了粗糙集理论 (RST) 和模糊粗糙集理论 (FRST) 的全面实现。
模型选择与验证 : 包 e1071 包含用于超参数调优的函数 tune()，函数 errorest() (ipred) 可用于误差率估计。支持向量机的成本参数 C 可以利用包 svmpath 的功能进行选择。用于交叉验证和其他重采样方案的数据分割在 splitTools 包中提供。包 nestedcv 为 glmnet 和 caret 模型提供嵌套交叉验证。用于 ROC 分析和其他可视化技术的函数，用于比较候选分类器，可从包 ROCR 获取。包 hdi 和 stabs 为一系列模型实现了稳定性选择，hdi 还提供高维模型中的其他推断程序。
因果机器学习 : 包 DoubleML 是双重机器学习框架在各种因果模型中的面向对象的实现。基于 mlr3 生态系统，因果效应的估计可以基于大量机器学习方法。
其他程序 : 证据分类器使用包 evclass 中的 Dempster-Shafer 质量函数来量化对测试模式类别的不确定性。 OneR (One Rule) 包提供了一个分类算法，该算法对缺失值和数值数据的处理进行了增强，并具有广泛的诊断功能。
元包：包 tidymodels 提供了用于构建预测模型的各种功能，包括参数调整和变量重要性度量。类似地，包 mlr3 提供了对各种统计和机器学习包的高级接口。包 SuperLearner 实现了一个类似的工具箱。包 h2o 实现了一个通用的机器学习平台，它具有许多流行算法的可扩展实现，例如随机森林、GBM、GLM（具有弹性网络正则化）和深度学习（前馈多层网络）等。包 mlpack 提供了对 mlpack C++ 库的接口。 CORElearn 实现了一类相当广泛的机器学习算法，例如最近邻、树、随机森林和几种特征选择方法。类似地，包 rminer 连接了其他包中实现的几种学习算法，并计算了几个性能指标。包 qeML 为众多 ML R 包提供了包装器，具有简单、方便和统一的接口。
可视化（最初由 Brandon Greenwell 贡献） stats::termplot() 函数包可用于绘制模型中的项，其预测方法支持 type="terms"。 effects 包为具有线性预测器（例如，线性模型和广义线性模型）的模型提供图形和表格效果显示。 Friedman 的部分依赖图 (PDP) 是预测函数的低维图形渲染，在一些包中实现。 gbm、randomForest 和 randomForestSRC 提供了他们自己的用于显示 PDP 的函数，但仅限于使用这些包拟合的模型（来自 randomForest 的函数 partialPlot 更加有限，因为它一次只允许一个预测变量）。包 pdp、plotmo 和 ICEbox 更加通用，允许为各种机器学习模型（例如，随机森林、支持向量机等）创建 PDP；pdp 和 plotmo 都支持多变量显示（plotmo 仅限于两个预测变量，而 pdp 使用格子图形来显示涉及三个预测变量的 PDP）。默认情况下，plotmo 将背景变量固定在其中位数（或因子中的第一个级别），这比构建 PDP 更快，但包含的信息更少。 ICEbox 专注于构建单个条件期望 (ICE) 曲线，这是对 Friedman 的 PDP 的改进。 ICE 曲线以及居中 ICE 曲线也可以使用来自 pdp 包的 partial() 函数构建。
XAI：上一节“可视化”中的大多数包和函数都属于可解释人工智能 (XAI) 领域。元包 DALEX 和 iml 提供了不同的方法来解释任何模型，包括部分依赖、累积局部效应和置换重要性。累积局部效应图也可以直接在 ALEPlot 中获得。SHAP（来自 *SH*apley *A*dditive ex*P*lanations）是解释 ML 模型最常用的技术之一。它以公平的方式将预测分解为预测变量的累加贡献。对于基于树的模型，存在非常快的 TreeSHAP 算法。它直接与 h2o、xgboost 和 lightgbm 一起提供。SHAP 的模型无关实现可在其他包中获得：fastshap 主要使用蒙特卡罗采样来近似 SHAP 值，而 shapr 和 kernelshap 提供了 KernelSHAP 的实现。这些包中的任何一个的 SHAP 值都可以由包 shapviz 绘制。对 Python 的“shap”包的移植在 shapper 中提供。预测的替代分解在 lime 和 iBreakDown 中实现。

CRAN 包

核心	abess，e1071，gbm，kernlab，mboost，nnet，randomForest，rpart.
常规	adabag, ahaz, ALEPlot, arules, BART, bartMachine, BayesTree, BDgraph, Boruta, bst, C50, caret, CORElearn, Cubist, DALEX, deepnet, dipm, DoubleML, earth, effects, elasticnet, evclass, evreg, evtree, fastshap, frbs, gamboostLSS, glmertree, glmnet, glmpath, GMMBoost, grf, grplasso, grpreg, h2o, hda, hdi, hdm, iBreakDown, ICEbox, iml, ipred, islasso, joinet, kernelshap, klaR, lars, LiblineaR, lightgbm, lime, maptree, mlpack, mlr3, model4you, mpath, naivebayes, ncvreg, nestedcv, OneR, opusminer, pamr, party, partykit, pdp, penalized, picasso, plotmo, pre, qeML, quantregForest, quint, randomForestSRC, ranger, Rborist, rgenoud, RGF, RLT, Rmalschains, rminer, ROCR, RoughSets, RPMM, RSNNS, RWeka, RXshrink, sda, semtree, shapper, shapr, shapviz, SIS, splitTools, ssgraph, stabs, SuperLearner, svmpath, tensorflow, tgp, tidymodels, torch, tree, trtf, varSelRF, wsrf, xgboost.
已归档	penalizedLDA，RcppDL.

CRAN 任务视图：机器学习与统计学习

CRAN 包

相关链接