CRAN Task View: Web Technologies and Services

Mauricio Vargas Sepulveda, Will Beasley

CRAN 任务视图：Web 技术与服务

维护者	Mauricio Vargas Sepulveda, Will Beasley
联系方式	mavargas11 at uc.cl
版本	2023-02-18
URL	https://CRAN.R-project.org/view=WebTechnologies
源代码	https://github.com/cran-task-views/WebTechnologies/
贡献	欢迎您对本任务视图提出建议和改进意见，您可以通过 GitHub 上的问题或拉取请求，或通过电子邮件联系维护者。有关更多详细信息，请参阅贡献指南。
引用	Mauricio Vargas Sepulveda, Will Beasley (2023). CRAN 任务视图：Web 技术与服务。版本 2023-02-18。URL https://CRAN.R-project.org/view=WebTechnologies。
安装	您可以使用 ctv 包自动安装本任务视图中的软件包。例如，`ctv::install.views("WebTechnologies", coreOnly = TRUE)` 安装所有核心软件包，或 `ctv::update.views("WebTechnologies")` 安装所有尚未安装和更新的软件包。有关更多详细信息，请参阅 CRAN 任务视图计划。

0. 简介

用于处理 Web 的工具

本任务视图推荐使用软件包和策略，以有效地与 R 中的互联网资源进行交互。本任务视图重点关注

直接数据下载和导入,
在线服务,
用于构建基于 Web 的 R 应用程序的框架,
低级操作，以及
资源

如果您有关于改进或扩展本任务视图的建议，请在上面链接的 GitHub 存储库中提交问题或拉取请求。如果您无法在 GitHub 上贡献，请通过电子邮件联系任务视图维护者。如果您在下面讨论的软件包中遇到问题，请联系软件包的维护者。

感谢所有对本任务视图做出贡献的人，特别是 Scott Chamberlain、Thomas Leeper、Patrick Mair、Karthik Ram 和 Christopher Gandrud，他们一直维护着本任务视图直到 2021 年。

HTTP 请求的核心工具

R 的大部分功能都由 CRAN 软件包提供，这些软件包建立在 libcurl 之上。四个软件包为大多数现代方法奠定了基础。

httr 是一个面向用户的 HTTP 请求客户端。它利用 curl 包来执行大多数操作。可以通过 httr 的 config 参数将其他选项传递给 curl。如果您正在开发一个调用 Web 服务的包，建议您阅读 httr 的示例。
httr 团队正在开发它的继任者，httr2。如果您正在创建一个需要稳定基础的包，您现在可以使用 httr 并等待 httr2 v1.0 发布。但是，如果您能够适应 httr2 成熟过程中的重大更改，那么现在投资 httr2 的方法可能会有益。
crul 是另一个利用 curl 的包。它是一个基于 R6 的客户端，支持异步 HTTP 请求、分页助手、通过 webmockr 进行 HTTP 模拟，以及通过 vcr 进行单元测试的请求缓存。crul 旨在被其他包调用，而不是 R 用户。与 httr 不同，crul 的当前版本不支持 OAuth。在实例化 crul 的 R6 类时，可以将其他选项传递给 curl。
curl 是一个更底层的包，它提供了一个 R 和 libcurl C 库之间的紧密接口。它不打算被典型的 R 用户直接调用。curl 可能对基于 Web 的 XML 或 FTP 操作有用（因为 crul 和 httr 主要集中在 HTTP 上）。
utils 和 base 是提供 download.file()、url() 和相关函数的基本 R 包。这些函数也使用 libcurl。

1. 直接数据下载和导入

近年来，许多函数已更新以适应使用 TLS/SSL 保护的网页。因此，您通常可以下载文件的，如果它的 url 以“http”或“https”开头。

如果数据文件无法通过简单的 url 访问，您可能需要跳到在线服务部分。它描述了如何使用特定的 Web 服务，例如 AWS、Google 文档、Twitter、REDCap、PubMed 和维基百科。

如果信息由数据库引擎提供，请查看下面在线服务部分中的云服务，以及 数据库与 R CRAN 任务视图。

直接导入远程文件

许多基本和 CRAN 包提供接受 url 并返回 data.frame 或 list 的函数。

对于表格/矩形纯文本结构
- utils 的 read.csv()、read.table() 等函数返回一个 base::data.frame。
- readr 的 read_csv()、read_delim() 等函数返回一个 tibble::tibble，它继承自 base::data.frame。
- data.table 的 fread() 返回一个 data.table::data.table，它继承自 base::data.frame。
- arrow 的 read_csv_arrow() 返回一个 tibble::tibble() 或其他 Arrow 结构。
对于分层/嵌套的纯文本结构
- jsonlite 的 fromJSON() 将 JSON 转换为 list。
- yaml 的 yaml.load_file() 将 YAML 转换为 list。
- XML 的 parseXML() 将 XML 转换为 list。
- 对于 HTML，请参见下面的“解析结构化网页数据”部分。
对于 Spark 生态系统中的结构
- arrow: 与大数据中使用的各种文件类型交互，包括 parquet、feather 和 arrow IPC 流。
对于其他文件结构
- rio 和 repmis: 支持许多纯文本和专有格式。

下载远程文件，然后导入

如果您需要处理其他类型的文件，可以通过两个步骤完成。首先从服务器下载文件到本地计算机；其次将新本地文件的路径传递给像 haven 或 foreign 这样的包中的函数。

许多基本和 CRAN 包提供了下载文件的函数

utils 的 download.file()。
curl 的 curl_download() 和 curl_fetch_multi() 等函数。
另一种方法是使用 httr::GET()（或 RCurl::getURL()）首先将文件作为字符向量读入 R，然后使用 utils::read.table(text = ...) 等函数进行解析。

解析结构化网页数据

绝大多数基于网络的数据以纯文本、HTML、XML 或 JSON 的形式进行结构化。Web 服务 API 越来越依赖 JSON，但 XML 在许多应用程序中仍然很普遍。有几个专门用于处理这些格式的包。这些函数可用于直接与不安全的网页交互，或用于解析本地存储或内存中的网页文件。通俗地说，这些活动被称为网页抓取。

XML：有两个用于处理 XML 的基础包：XML 和 xml2。两者都支持通用 XML（和 HTML）解析，包括 XPath 查询。xml2 的功能较少，但在内存管理、类（例如，XML 节点与节点集与文档）和命名空间方面更易于使用。在这两者中，只有 XML 支持从头开始创建 XML 节点和文档。
其他 XML 工具包括
- XML2R (已归档) 是一个方便的函数集合，用于将 XML 强制转换为数据框。 XML 的替代方案是 selectr，它解析 CSS3 选择器并将它们转换为 XPath 1.0 表达式。 XML 通常用于解析 xml 和 html，但 selectr 将 CSS 选择器转换为 XPath，因此可以使用 CSS 选择器而不是 XPath。
- XMLSchema 提供了 R 中用于读取 XML 模式文档并处理它们以创建 R 类定义和用于将 XML 节点转换为这些类实例的函数的功能。它为在 R 中使用 XML 模式进行元计算提供了框架。
- xslt 是 xml2 的扩展，用于通过应用 xslt 样式表来转换 XML 文档。这可能对网页抓取以及将 XML 标记转换为其他人类或机器可读格式（例如，HTML、JSON、纯文本等）很有用。
HTML：所有用于处理 XML 的工具也适用于 HTML，尽管 HTML 往往更容易出现格式错误。因此，xml2::read_html() 是用于导入 HTML 的一个很好的第一个函数。其他工具专门设计用于处理 HTML。
- 为了捕获网页的静态内容，postlightmercury 是一个用于“Mercury”网络服务的客户端，它可以将网页转换为结构化和干净的文本。
- rvest 是另一个更高级别的替代方案，它使用管道（如 Base R 的 |> 和 magrittr 的 %>%）来表达常见的网页抓取任务。
- boilerpipeR 提供从 HTML 文件中提取主要文本内容的通用方法；使用 boilerpipe Java 库删除广告、侧边栏和标题。
- PhantomJS（已于 2018 年存档）：webshot 使用 PhantomJS 在没有浏览器的情况下提供网页截图。它可以用于测试网站（例如 Shiny 应用程序）。r github("cpsievert/rdom") 使用 PhantomJS 访问网页的文档对象模型 (DOM)。
- htmltools 提供用于创建 HTML 元素的函数。
- RHTMLForms 读取 HTML 文档并获取其包含的每个表单的描述，以及不同的元素和隐藏字段。 htm2txt 使用正则表达式将 html 文档转换为纯文本，方法是删除所有 html 标签。 Rcrawler 对网页进行爬取和抓取。
- HTML 工具：这些工具不会提取内容，但可以帮助您开发和调试。
  - W3CMarkupValidator 提供了用于验证 HTML 文档的 W3C 标记验证服务的 R 接口。
  - selectorgadget 浏览器扩展可用于识别页面元素。
JSON：有几个用于读取和写入 JSON 的包：rjson、RJSONIO 和 jsonlite。我们建议使用 jsonlite。查看 Jeroen Ooms 撰写的描述 jsonlite 的论文 https://arxiv.org/abs/1403.2805。 jqr 为快速 JSON 库“jq”提供绑定。 jsonvalidate 使用“is-my-json-valid” JavaScript 库根据模式验证 JSON；ajv 使用“ajv” JavaScript 库执行相同的操作。 ndjson 支持“ndjson”格式。
RSS/Atom：feedeR 可用于解析 RSS 或 Atom 提要。 tidyRSS 将 RSS、Atom XML/JSON 和 geoRSS 解析为整洁的数据框。
swagger 可用于自动生成用于处理提供 Swagger.io 格式文档的网络服务 API 的函数。

2. 在线服务

云计算与存储

亚马逊网络服务 (AWS):
- paws 是一个几乎涵盖所有 AWS API 的接口，包括计算、存储、数据库和机器学习。它也不需要任何外部系统依赖项。
- aws.signature 提供生成 AWS API 请求签名的功能。
- 弹性云计算 (EC2) 是一种云计算服务。 segue (不在 CRAN 上) 管理 EC2 实例和 S3 存储，其中包括一个名为 emrlapply() 的 lapply() 的并行版本，用于 Elastic Map Reduce (EMR) 引擎。它使用 Amazon 的 EMR 上的 Hadoop Streaming 来实现简单的并行计算。
微软 Azure: Azure 和 Microsoft 365 是微软的云计算服务。
- Azure 平台提供 Paas、SaaS 和 IaaS，并支持许多不同的工具和框架，包括微软特定的和第三方系统；而 Microsoft 365 是一个统一的框架，用于访问来自微软 Office 服务、Windows 和 Dynamics 的云数据。 AzureR 包系列旨在为使用 Azure 中的 R 提供一套轻量级、功能强大的工具。下面列出的包是该系列的一部分，并且也在 cloudyr 项目中镜像。
- Azure Active Directory (AAD) 是一种集中式目录和身份服务。 AzureAuth 是 AAD 的 R 客户端；使用它来获取用于对其他 Azure 服务进行身份验证的 OAuth 令牌，包括资源管理器和存储（见下文）。
- Microsoft Graph 是 Microsoft 365 平台的 API 框架，包括 Azure Active Directory 和 Office。 AzureGraph 是一个基于 R6 的低级可扩展 Graph 接口。 Microsoft365R 是 Microsoft 365 的 Office 部分的接口，包括 OneDrive 和 SharePoint Online。
- Azure 资源管理器 (ARM) 是一个用于部署其他 Azure 服务的服务。 AzureRMR 是 ARM 的 R 接口，允许管理订阅、资源组、资源和模板。它公开了一个通用的 R6 类框架，可以扩展以提供特定服务的额外功能（见下文）。
- Azure 存储帐户 是一种通用的数据存储设施。提供不同类型的存储：文件、Blob、表、数据湖等。 AzureStor 提供了存储的 R 接口。功能包括文件、Blob 和数据湖 Gen2 存储的客户端、并行文件传输以及 Microsoft 的跨平台 AzCopy 命令行实用程序的接口。还提供了一个 ARM 接口，允许创建和管理存储帐户。 AzureTableStor 和 AzureQstor 扩展了 AzureStor，分别为表存储和队列存储提供接口
- AzureVM 在 Azure 中创建和管理虚拟机。它包括各种常见 VM 规范和操作系统的模板，包括 Windows、Ubuntu、Debian 和 RHEL。
- AzureContainers 提供了一个统一的工具，用于在 Azure 中处理容器。具体来说，它包括 R 接口到 Azure 容器实例 (ACI)、Azure Docker 注册表 (ACR) 和 Azure Kubernetes 服务 (AKS)。创建 Docker 镜像并将它们推送到 ACR 存储库；启动 ACI 容器；在 AKS 中部署 Kubernetes 服务。
- Azure 数据资源管理器，也称为 Kusto，是一种快速、可扩展的数据探索和分析服务。 AzureKusto 是 ADE/Kusto 的 R 接口。它包括一个类似于 dbplyr 为 SQL 数据库提供的 dplyr 客户端接口、一个 DBI 客户端接口以及一个用于部署和管理 Kusto 集群和数据库的 ARM 接口。
- Azure Cosmos DB 是一种多模型 NoSQL 数据库服务，以前称为 Document DB。 AzureCosmosR 是 Cosmos DB 的核心/SQL API 的接口。它还包括到表存储和 MongoDB API 的简单桥接。
- Azure 计算机视觉 和 Azure 自定义视觉 是用于图像识别和分析的 AI 服务。计算机视觉是一种预先训练的服务，用于处理常见的任务，而自定义视觉允许您在自定义数据集上训练自己的图像识别模型。 AzureVision 为这两项服务提供接口。
- 应用程序洞察提供实时 Web 应用程序的应用程序性能监控和使用情况跟踪。 AzureAppInsights 允许 Shiny 应用程序的开发人员在其应用程序中包含 Application Insights JS SDK 以跟踪性能。不属于 cloudyr 项目或 AzureR 包系列。
Google Cloud 和 Google Drive:
- googledrive 与 Google Drive 交互。
- googleComputeEngineR 与 Google Compute Engine API 交互，并允许您在 Google Cloud 中创建、启动和停止实例。
- googleCloudStorageR 与 Google Cloud Storage 交互。
- bigrquery: Google BigQuery 的接口。
- rrefine 为“Open Refine”（以前称为“Google Refine”）数据清理服务提供客户端。
- gargle: 与 Google API 的接口。
- 在 Web 技术任务视图的其他部分中查找与其他 Google 产品交互的包。
Dropbox: rdrop2 (已归档) 促进上传和下载、复制/移动/删除文件和目录操作以及帐户和配额查询。 repmis 的 source_Dropbox() 函数用于从非公开文件夹下载/缓存纯文本数据。
其他云存储: boxr 是 box.com API 的轻量级、高级接口。
Docker: analogsea 是 Digital Ocean v2 API 的通用客户端。此外，它还包含用于安装各种 R 工具（包括基本 R、RStudio 服务器等）的函数。通过此包，有一个不断改进的接口可以与您远程 Droplet 上的 Docker 交互。
crunch 提供了与 crunch.io 存储和分析平台的接口。 crunchy 促进了在 Crunch 上制作 Shiny 应用程序。
cloudyr 项目旨在为流行的 Amazon、Azure 和 Google 云服务提供接口，而无需外部系统依赖项。 Amazon Web Services 是一种流行的专有云服务，提供一套计算、存储和基础设施工具。
pins 可用于在各种后端（包括 AWS、Azure、Google Cloud Storage 和 Posit Connect）上发布数据、模型和其他 R 对象。

软件开发

R-hub 是一个免费服务集合，用于帮助跨所有架构的 R 包开发。 rhub 与 R-Hub 交互，允许您在平台上检查包。
GitHub: gistr 与 GitHub gists (gist.github.com) 从 R 中工作，允许您创建新的 gists，使用新文件更新 gists，重命名文件，删除文件，获取和删除 gists，加星和取消加星 gists，分叉 gists，在默认浏览器中打开 gist，获取 gist 的嵌入代码，列出 gist 提交，以及在身份验证时获取速率限制信息。 git2r 为 git 版本控制系统提供绑定，而 gh 是 GitHub API 的客户端。
GitLab: gitlabr 是一个 GitLab 特定的客户端。

文档和图像

数据归档: dataverse 提供对 Dataverse 的访问，Dataverse 是开源研究数据存储库软件。 rfigshare 连接到 Figshare.com。 dataone 为“DataONE”存储库提供客户端。
Google Sheets: googlesheets4（替换 googlesheets）可以通过标题、密钥或 URL 访问私有或公共“Google Sheets”。提取数据或编辑数据。创建、删除、重命名、复制、上传或下载电子表格和工作表。 gsheet 可以仅使用共享链接下载 Google Sheets。电子表格可以下载为数据框，也可以下载为纯文本以手动解析。
imguR 使用图像托管服务 Imgur.com 共享绘图。knitr 还有一个函数 imgur_upload() 用于从文字编程文档中加载图像。
团队、SharePoint 和 OneDrive: Microsoft365R 为这些服务提供接口，这些服务是 Microsoft 365（以前称为 Office 365）套件的一部分。

数据处理和可视化

文档处理: abbyyR (已存档) 和 captr 连接到光学字符识别 (OCR) API。 pdftables 使用 PDFTables.com 网络服务从 PDF 中提取表格。
可视化: Plot.ly 是一家公司，允许您使用 R（和 Python）在 Web 上创建可视化，可以通过 plotly 访问。 googleVis 在 R 和 Google 图表工具之间提供接口。
其他 : rrefine 可以导入和导出到“OpenRefine”数据清理服务。

机器学习与翻译

此列表描述了在线服务。有关该主题的更完整说明，请参阅MachineLearning CRAN 任务视图。

机器学习即服务：几个包提供了对基于云的机器学习服务的访问。 OpenML 是 OpenML API 的官方客户端。 clarifai 是 Clarifai.com 客户端，它支持自动图像描述。 rLTP 访问 ltp-cloud 服务。 languagelayeR 是 Languagelayer 的客户端，Languagelayer 是一个语言检测 API。 googlepredictionapi（不在 CRAN 上，但可从 Google 获取）：是 Google Prediction API 的 R 客户端，这是一套云机器学习工具。 yhatr 允许您通过 Yhat REST API 部署、维护和调用模型。 datarobot 与 Data Robot 的预测建模平台协同工作。 mscsweblm4r 与 Microsoft Cognitive Services Web Language Model API 交互，而 mscstexta4r 使用 Microsoft Cognitive Services Text Analytics REST API。 rosetteApi 连接到“Rosette”文本分析 API。 googleLanguageR 提供对 Google 的 Cloud Translation API、Natural Language API、Cloud Speech API 和 Cloud Text-to-Speech API 的接口。 AzureVision 提供对 Azure Computer Vision 和 Custom Vision 图像识别服务的接口。
机器翻译： RYandexTranslate 连接到 Yandex Translate。 transcribeR (已归档) 通过 HP IDOL 服务提供自动音频转录。

空间分析

此列表描述了在线服务。有关该主题的更完整说明，请参阅分析 Spatial 数据 CRAN 任务视图。

地理位置/地理编码：在地址和经纬度之间进行转换的服务。 rgeolocate 提供了多种在线和离线工具。 rydn（不在 CRAN 上）是 Yahoo 开发者网络地理位置 API 的接口，而 ipapi 可以使用 http://ip-api.com/ API 来对 IPv4/6 地址和/或域名进行地理定位。 opencage 提供对“OpenCage”地理编码服务的访问。 nominatim（不在 CRAN 上）连接到 OpenStreetMap Nominatim API 进行反向地理编码。 PostcodesioR 提供英国的邮政编码查找和地理编码。 geosapi 是“GeoServer”REST API 的 R 客户端，这是一个广泛用于提供空间数据的开源实现。 geonapi 提供对“GeoNetwork”遗留 API 的接口，这是一个用于管理地理元数据的开源目录。 ows4R 是“OGC”标准 Web 服务的新 R 客户端，例如用于数据的 Web 特征服务 (WFS) 和用于元数据的目录服务 (CSW)。
地图：帮助创建视觉地图的服务。
- OpenStreetMap：osmplotr 提取可定制的地图图像。
- Google 地图：RgoogleMaps 具有两个目的：它提供了一个舒适的 R 接口来查询 Google 服务器以获取静态地图，并使用地图作为背景图像来在 R 中叠加绘图。 mapsapi 是 Google 地图 API 的 sf 兼容接口。
路线：计算和优化距离和路线的服务。
- OpenStreetMap：osrm 帮助计算路线、行程、等时线和行程距离矩阵。

除非另有说明，以下软件包提供与其关联服务的接口。

Twitter：rtweet 通过其 API 提供接口。 twitterreport（不在 CRAN 上）专注于基于 Twitter 数据的报告生成。 streamR 允许用户访问 Twitter 的过滤器、样本和用户流，并将输出解析为数据帧。支持 OAuth 身份验证。 graphTweets 从 tweets 数据帧生成网络图。 twitter_ideology（不在 CRAN 上）为指定的 Twitter 用户实现政治意识形态衡量标准。
Facebook: Rfacebook
Instagram: instaR
LinkedIn: Rlinkedin
Stack Exchange: stackr (不在 CRAN 上)
Pinterest: rpinterest
VK: vkR，俄罗斯的社交网站。
Meetup: meetupr (不在 CRAN 上)
Brandwatch: brandwatchR
Hacker News: hackeRnews
Mastodon: rtoot
Slack: slackr
Discourse: discgolf (已归档；不在 CRAN 上) 提供与 Discourse 实例的接口，而不是 Discourse 网站本身。

调查、问卷和数据采集工具

REDCap: REDCapR 和 redcapAPI 从 REDCap 导出和导入数据，REDCap 是一个用于构建和管理在线调查和研究数据库的 Web 应用程序。 REDCapTidieR 和 tidyREDCap 遵循 tidy 原则来扩展 REDCapR.
Qualtrics: qualtRics 提供与 Qualtrics 交互的功能，Qualtrics 是一个在线调查和数据收集软件平台。
Wufoo: WufooR 从 Wufoo 检索数据，Wufoo 是 SurveyMonkey 公司的另一个数据收集工具。
formr: formr 方便使用 formr 在线调查框架，该框架通过 OpenCPU 依赖于 R。
Experigen: Rexperigen 是 Experigen 的客户端，Experigen 是一个用于创建语音学实验的平台。
Usersnap: useRsnap 连接到 Usersnap，这是一个用于收集来自 Web 应用程序用户的反馈的工具。
KoboToolbox: robotoolbox 是一套用于访问和操作来自 KoboToolbox API 的数据的实用程序。

网络分析

以下软件包与在线服务交互，这些服务有助于网络分析。

谷歌
- Google Adwords: RAdwords
- Google Analytics: googleAnalyticsR
- Google Marketing Platform: RDoubleClick (不在 CRAN 上)
- Google Search Console (以前称为 Webmaster Tools): searchConsoleR
- Google Trends: gtrendsR
Azure
Application Insights: AzureAppInsights
Facebook Marketing: fbRads
Smartly.io: RSmartlyIO 通过广告服务加载 Facebook 和 Instagram 广告数据。
Adobe Analytics: RSiteCatalyst (已归档)

以下软件包与工具交互，这些工具有助于网络分析。

webreadr 可以处理各种常见的请求日志形式，包括通用和组合 Web 日志格式以及 AWS 日志。
WebAnalytics 提供用于分析 Web 应用程序性能、工作负载和用户群体的工具。与 webreadr 有些重叠，但 webreader 专注于读取日志文件，而 WebAnalytics 专注于分析它们。

出版物

参考/书目/引用管理: rorcid 连接到 Orcid.org API，它可以识别科学作者及其出版物（例如，通过 DOI）。rdatacite 连接到 DataCite，它管理学术数据集的 DOI 和元数据。scholar 从 Google Scholar 中提取引用数据。rscopus 从 Elsevier Scopus 中提取引用数据。还提供了用于比较多个学者和预测未来 h 指数值的便利函数。mathpix 通过 Mathpix 网络服务将公式图像（排版或手写）转换为“LaTeX”代码。zen4R 连接到 Zenodo API，包括管理沉积、归属 DOI 和上传文件。
文献: europepmc 连接到欧洲 PubMed Central 服务。pubmed.mineR 用于 PubMed 摘要的文本挖掘，支持从 PubMed 中获取文本和 XML。jstor 从 JSTOR 的 Data for Research 服务中检索元数据、ngrams 和全文。aRxiv 连接到 arXiv，这是一个用于计算机科学、数学、物理学、定量生物学、定量金融和统计学的电子预印本存储库。roadoi 连接到 Unpaywall API，用于查找学术论文的免费全文版本。rcrossref 是 Crossref API 的接口。

生成合成数据

MockaRoo API: mockaRoo (未在 CRAN 上) 根据输入模式生成模拟或虚假数据。
RandomAPI: randNames 生成随机姓名和个人识别信息。

体育分析

许多 CRAN 包与促进体育分析的服务交互。有关该主题的更完整处理，请参阅SportsAnalytics CRAN 任务视图。

可重复研究

使用此 Web 技术任务视图中的包可以帮助您以编程方式获取数据，这可以促进可重复研究。有关更多工具和信息，请参阅ReproducibleResearch CRAN 任务视图。

“可重复研究的目标是将特定指令与数据分析和实验数据联系起来，以便可以重新创建、理解和验证学术成果。”

其他 Web 服务

推送通知: RPushbullet 为 Pushbullet 服务提供了一个易于使用的界面，该服务在计算机、手机和平板电脑之间提供快速高效的通知。 pushoverr 可以使用“Pushover”将推送通知发送到移动设备（iOS 和 Android）和桌面。 notifyme 可以控制飞利浦 Hue 照明。
自动元数据收集: oai 和 OAIHarvester 使用元数据收集的开放档案倡议协议 (OAI-PMH) 标准收集元数据。
维基百科: WikipediR 是“MediaWiki”API 的包装器，特别针对“Wikimedia”的“生产”维基，例如“维基百科”。 WikidataR 可以从 Wikidata.org（免费知识库）请求数据。 wikipediatrend (已存档) 提供对维基百科页面访问统计数据的访问。 WikidataQueryServiceR 是 Wikidata 查询服务的客户端。
rerddap: 与任何 ERDDAP 实例交互的通用 R 客户端，ERDDAP 是 OPeNDAP (https://en.wikipedia.org/wiki/OPeNDAP) 的特例，即网络数据访问协议的开源项目。允许用户交换基本 URL 以使用任何 ERDDAP 实例。
RStripe (已存档) 提供与“Stripe”的接口，Stripe 是一个在线支付处理器。
duckduckr 是 DuckDuckGo 的 R 接口。

3. 用于构建基于 Web 的 R 应用程序的框架

模型运营化（以前称为 DeployR）是微软的一款产品，它提供对将 R 和 Python 模型以及代码部署到服务器作为 Web 服务以供日后使用的支持。
shiny 使得使用 R 构建交互式 Web 应用程序变得容易。
dashR 是一个 Web 框架，可用于 Python、R 和 Julia，其组件是用 React.js 编写的。
其他 Web 框架包括：fiery 旨在比 shiny 更灵活，但使用起来更难（reqres 和 routr 是 fiery 使用的实用程序，分别提供 HTTP 请求和响应类以及 HTTP 路由）；rcloud 提供一个基于 iPython 笔记本的基于 Web 的 R 接口；以及 Rook，其中包含构建和运行 Rook 应用程序的规范和便利软件。
用于嵌入式统计计算和可重复研究的 opencpu 框架公开了一个与 R、LaTeX 和 Pandoc 交互的 Web API。例如，此 API 用于将统计功能集成到系统中，在集中式服务器上共享和执行脚本或报告，以及构建基于 R 的应用程序。
R 中存在几个通用的服务器/客户端框架。 Rserve 和 RSclient 为 TCP/IP 或本地套接字接口提供服务器和客户端功能。 httpuv 提供低级套接字和协议支持，用于直接在 R 中处理 HTTP 和 WebSocket 请求。另一个相关的包，也许是 httpuv 所取代的，是 websockets（已从 CRAN 退休）。 servr 提供一个简单的 HTTP 服务器，用于基于 httpuv 在给定目录下提供文件。
几个包提供了将 R 代码转换为 Web API 的功能。 FastRWeb 提供了一些基本的基础设施。 plumber 允许您通过修饰现有的 R 源代码来创建 REST API。 beakr 提供了 python Flask 和 JavaScript Express.js 中的功能的 R 版本。
RDCOMClient（不在 CRAN 上），它提供了从 R 到其他 COM 服务器的用户级访问。
radiant 是基于 Shiny 的 R GUI，它可以在服务器或本地机器上的浏览器中运行。
‘Tiki’ Wiki CMS/Groupware 框架有一个 R 插件（PluginR），用于从 wiki 页面运行 R 代码，并使用他们自己收集的 Web 数据库（跟踪器）中的数据。演示：https://r.tiki.org/tiki-index.php 。
whisker: 基于 R 中的“Mustache”实现的无逻辑模板。
Mustache 语法在 http://mustache.github.io/mustache.5.html 中描述。

其他有用的包和函数

JavaScript: V8 是 Google 开源、高性能 JavaScript 引擎的 R 接口。它可以包装 JavaScript 库以及 NPM 包。 js 包装了 V8 并验证、重新格式化、优化和分析 JavaScript 代码。
电子邮件: mailR 是 Apache Commons Email 的接口，用于从 R 中发送电子邮件。 sendmailR 提供了一个简单的 SMTP 客户端。 gmailr 提供对 Google 的 gmail.com RESTful API 的访问。 Microsoft365R 提供了 Microsoft Outlook 电子邮件服务的客户端，包括个人（outlook.com）和作为 Microsoft 365（以前称为 Office 365）套件的一部分。
模拟: webmockr 对 HTTP 请求进行存根和设置期望。它受到 Ruby 的 webmock 的启发。 webmockr 仅帮助模拟 HTTP 请求，并在请求匹配期望时不返回任何内容。它与 crul 和 httr 集成。有关使用返回的响应进行模拟，请参见测试。
测试: vcr 提供了一个接口，可以轻松地将 HTTP 请求缓存到 R 包测试套件中（但也可以在测试用例之外使用）。vcr 依赖于 webmockr 来进行 HTTP 请求模拟。vcr 与 crul 和 httr 集成。 httptest 提供了一个框架，用于测试与 HTTP API 通信的包，提供用于模拟 API、记录真实 API 响应以用作模拟以及对 HTTP 请求进行断言的工具，所有这些都不需要在运行时与 API 服务器建立实时连接。httptest 仅适用于 httr。
其他: webutils 包含用于开发 Web 应用程序的各种函数，包括 application/x-www-form-urlencoded 和 multipart/form-data 的解析器。 mime 从文件的扩展名猜测其 MIME 类型。 rsdmx 提供了通过统计数据和元数据交换 (SDMX) 框架交换数据和元数据文档的工具；它侧重于 SDMX XML 标准格式 (SDMX-ML)。 robotstxt 提供了用于解析 robots.txt 文件和检查访问权限的函数和类； spiderbar 也执行相同的操作。 uaparserjs 使用 JavaScript “ua-parser” 库来解析 User-Agent HTTP 标头。 rapiclient 是一个用于使用遵循 Open API 格式的 API 的客户端。 restfulr 将 RESTful 服务建模为嵌套的 R 列表。

4. 低级操作

用于处理 URL 的工具

httr::parse_url() 函数可用于提取 URL 的部分内容。RCurl::URLencode() 和 utils::URLencode() 函数可用于对字符字符串进行编码，以便在 URL 中使用。utils::URLdecode() 将其解码回原始字符串。urltools 还可以处理 URL 编码、解码、解析和参数提取。
ipaddress 方便处理 IP 地址和网络。
urlshorteneR 提供 Bit.ly、Goo.gl 和 is.gd 的 URL 展开和分析功能。 longurl 使用 longurl.org API 提供类似的功能。
gdns 提供对 Google 安全的基于 HTTP 的 DNS 解析服务的访问。

互联网通信的其他工具

对于特殊情况，以下资源可能有用

RCurl 是 libcurl 的另一个低级客户端。在两个低级 curl 客户端中，我们建议使用 curl。 httpRequest 是另一个用于 HTTP 请求的低级包，它实现了 GET、POST 和多部分 POST 动词，但我们不建议使用它。
request 提供了一个高级包，可用于开发其他 API 客户端包。 httping 提供简化的工具来 ping 和计时 HTTP 请求，围绕 httr 调用。 httpcache 提供了一种缓存 HTTP 请求的机制。
nanonext 是一个替代的低级套接字实现，可用于同步或异步地执行 HTTP 和流式 WebSocket 请求，通过其自身的并发框架。它使用 NNG/mbedTLS 库作为后端。
对于动态生成的网页（即需要用户交互才能显示结果的网页），RSelenium 可用于自动化这些交互并提取页面内容。它提供了一组用于 Selenium 2.0 web 驱动程序的绑定，使用“JsonWireProtocol”。它还可以帮助进行自动应用程序测试、负载测试和网页抓取。 seleniumPipes 为此提供了一个“管道”式接口。
身份验证：使用网络资源可能需要身份验证，可以通过 API 密钥、OAuth、用户名：密码组合或其他方式进行。此外，有时需要身份验证的网络资源必须位于 http 调用标头中，这需要一些额外的操作。API 密钥和用户名：密码组合可以在对网络资源的调用中与 URL 结合使用，也可以通过 RCurl 或 httr 中的命令指定。OAuth 是最复杂的认证过程，最容易使用 httr 完成。
请参阅 httr 中的 6 个演示，其中三个用于 OAuth 1.0（LinkedIn、Twitter、Vimeo），三个用于 OAuth 2.0（Facebook、GitHub、Google）。ROAuth 为 OAuth 提供了独立的 R 接口。OAuth 在 httr 中更容易实现，因此从这里开始。 googleAuthR 提供专门针对 Google 网络服务的 OAuth 2.0 设置，而 AzureAuth 为 Azure Active Directory 提供类似的功能。

处理 HTTP 错误/代码

fauxpas 为每个单独的 HTTP 状态代码提供了一组类似 Ruby 或 Python 的 R6 类，允许简单且详细的消息，可以选择使用消息、警告或停止。
httpcode 是一个简单的包，可以帮助用户/包通过名称或编号查找 HTTP 状态代码和相关消息。

安全

securitytxt 识别并解析 Web 安全策略文件。

5. 资源

CRAN 包

核心	crul、curl、httr.
常规	ajv, analogsea, arrow, aRxiv, aws.signature, AzureAppInsights, AzureAuth, AzureContainers, AzureCosmosR, AzureGraph, AzureKusto, AzureQstor, AzureRMR, AzureStor, AzureTableStor, AzureVision, AzureVM, beakr, bigrquery, boilerpipeR, boxr, brandwatchR, captr, clarifai, crunch, crunchy, data.table, dataone, datarobot, dataverse, duckduckr, europepmc, FastRWeb, fauxpas, fbRads, fiery, gargle, geonapi, geosapi, gh, gistr, git2r, gitlabr, gmailr, googleAnalyticsR, googleAuthR, googleCloudStorageR, googleComputeEngineR, googledrive, googleLanguageR, googlesheets4, googleVis, graphTweets, gsheet, gtrendsR, hackeRnews, htm2txt, htmltools, httpcache, httpcode, httping, httpRequest, httptest, httpuv, httr2, imguR, instaR, ipaddress, jqr, js, jsonlite, jsonvalidate, jstor, languagelayeR, longurl, mailR, mapsapi, mathpix, Microsoft365R, mime, mscstexta4r, mscsweblm4r, nanonext, ndjson, notifyme, oai, OAIHarvester, opencage, opencpu, OpenML, osrm, ows4R, paws, pdftables, pins, plotly, plumber, PostcodesioR, postlightmercury, pubmed.mineR, pushoverr, qualtRics, radiant, RAdwords, rapiclient, Rcrawler, rcrossref, RCurl, rdatacite, readr, redcapAPI, REDCapR, REDCapTidieR, repmis, reqres, request, rerddap, restfulr, Rexperigen, Rfacebook, rfigshare, RgoogleMaps, rhub, rio, rjson, RJSONIO, Rlinkedin, rLTP, roadoi, ROAuth, robotoolbox, robotstxt, Rook, rorcid, rosetteApi, routr, rpinterest, RPushbullet, rrefine, RSclient, rscopus, rsdmx, RSelenium, Rserve, RSmartlyIO, rtoot, rtweet, rvest, RYandexTranslate, scholar, searchConsoleR, selectr, seleniumPipes, sendmailR, servr, shiny, slackr, spiderbar, streamR, swagger, tidyREDCap, tidyRSS, uaparserjs, urlshorteneR, urltools, V8, vcr, vkR, W3CMarkupValidator, WebAnalytics, webmockr, webreadr, webshot, webutils, whisker, WikidataQueryServiceR, WikidataR, WikipediR, WufooR, XML, xml2, xslt, yaml, yhatr, zen4R.
已归档	abbyyR、rdrop2、RSiteCatalyst、RStripe、transcribeR、wikipediatrend、XML2R.

其他资源

CRAN 任务视图：数据库
CRAN 任务视图：机器学习
CRAN 任务视图：可重复研究
CRAN 任务视图：空间
CRAN 任务视图：体育分析
GitHub 项目：dashR
GitHub 项目：discgolf
GitHub 项目：feedeR
GitHub 项目：formr
GitHub 项目：gdns
GitHub 项目：ipapi
GitHub 项目：meetupr
GitHub 项目：mockaRoo
GitHub 项目：nominatim
GitHub 项目：osmplotr
GitHub 项目：randNames
GitHub 项目：rcloud
GitHub 项目：RDCOMClient
GitHub 项目：RDoubleClick
GitHub 项目：rgeolocate
GitHub 项目：RHTMLForms
GitHub 项目：rydn
GitHub 项目：securitytxt
GitHub 项目：stackr
GitHub 项目：twitter_ideology
GitHub 项目：twitterreport
GitHub 项目：useRsnap
GitHub 项目：XMLSchema
Google Code 项目：segue