维护者 | Matthias Templ,Alexander Kowarik,Tobias Schoch |
联系方式 | matthias.templ at gmail.com |
版本 | 2023-09-20 |
网址 | https://CRAN.R-project.org/view=OfficialStatistics |
源代码 | https://github.com/cran-task-views/OfficialStatistics/ |
贡献 | 欢迎对本任务视图提出建议和改进,可以通过 GitHub 上的问题或拉取请求,或通过电子邮件发送给维护者。有关更多详细信息,请参阅 贡献指南。 |
引用 | Matthias Templ, Alexander Kowarik, Tobias Schoch (2023). CRAN 任务视图:官方统计与抽样调查统计。版本 2023-09-20。网址 https://CRAN.R-project.org/view=OfficialStatistics。 |
安装 | 可以使用 ctv 包自动安装本任务视图中的包。例如,ctv::install.views("OfficialStatistics", coreOnly = TRUE) 安装所有核心包,或 ctv::update.views("OfficialStatistics") 安装所有尚未安装或更新的包。有关更多详细信息,请参阅 CRAN 任务视图计划。 |
本 CRAN 任务视图包含一个包列表,其中包含官方统计和抽样调查统计中常用的方法。许多包提供了针对以下列出主题中的多个主题的功能。因此,此列表不是严格的分类,包可能被列出多次。
任务视图分为几个部分
网络抓取如今在官方统计数据的生产中越来越频繁地使用。例如,在价格统计中,以前通过网络手工收集或通过亲自访问商店收集的产品价格,现在被抓取特定主页所取代。此过程步骤的工具未在此处列出,但可以在 CRAN 任务视图的 WebTechnologies 上找到详细概述。
calibrate_to_estimate
(Fuller 1998 的方法,回归,后分层)扩展了包 survey。calib()
用于校准非响应(具有响应同质性组)的分层样本。calibWeights()
用于校准,它可能比 sampling 中的 calib()
更快(取决于示例)。Calmar
(由 INSEE 开发)的用户提供熟悉的 R 环境。可以在 CRAN 任务视图“缺失数据” MissingData 中找到插补方法的概述。但是,这些方法中的大多数没有考虑复杂设计调查的特殊性,即不是专门为官方统计和调查设计的那些方法。例如,应用方法的标准通常取决于数据的规模,在官方统计中,这些数据通常是连续、半连续、二元、分类和计数变量的混合。此外,测量误差会极大地影响非稳健的插补方法。
统计机构中常用的软件包是 VIM 和 simputation,它们具有针对一般距离的快速 k 最近邻 (knn) 算法和已实现的 (稳健) 基于 EM 的多重插补算法。
季节性调整是制作官方统计数据的重要步骤,这里经常使用一套非常有限的方法,例如美国人口普查局开发的 X13-ARIMA-SEATS。在 CRAN 任务视图 TimeSeries 部分的季节性调整中,可以找到用于此的 R 包。
svydesign()
函数中指定了给定的调查设计,就可以计算点估计和方差估计。生成的物体可用于估计(霍维茨-汤普森-)总计、均值、比率和域或整个调查样本的百分位数,以及应用回归模型。均值、总计和比率的方差估计可以通过泰勒线性化或重抽样(BRR、jackkife、bootstrap或用户定义)来完成。surveysd 为复杂调查(包括具有旋转设计的调查)提供校准、bootstrap和误差估计。
dplyr
包的合成风格(即,管道、group_by
和summarize
之类的动词)。它为survey包的设计对象提供汇总统计。NonProbEst 包含不同的推断程序,用于校正非随机选择机制可能引入的选择偏差。
来自统计机构和其他机构的数据在其原始形式中大多是机密的,数据提供者必须通过修改原始数据来确保机密性,以便任何统计单位都无法被重新识别,并通过保证最少的信息损失。
sdcGUI
来使用。import.dhs()
)以从人口与健康调查中导入数据。rep(x, weights)
来模拟)。priceIndex()
。要估计数量(例如商品的数量),请参见函数 quantityIndex()
。