CRAN 任务视图:官方统计与抽样调查统计

维护者Matthias Templ,Alexander Kowarik,Tobias Schoch
联系方式matthias.templ at gmail.com
版本2023-09-20
网址https://CRAN.R-project.org/view=OfficialStatistics
源代码https://github.com/cran-task-views/OfficialStatistics/
贡献欢迎对本任务视图提出建议和改进,可以通过 GitHub 上的问题或拉取请求,或通过电子邮件发送给维护者。有关更多详细信息,请参阅 贡献指南
引用Matthias Templ, Alexander Kowarik, Tobias Schoch (2023). CRAN 任务视图:官方统计与抽样调查统计。版本 2023-09-20。网址 https://CRAN.R-project.org/view=OfficialStatistics。
安装可以使用 ctv 包自动安装本任务视图中的包。例如,ctv::install.views("OfficialStatistics", coreOnly = TRUE) 安装所有核心包,或 ctv::update.views("OfficialStatistics") 安装所有尚未安装或更新的包。有关更多详细信息,请参阅 CRAN 任务视图计划

本 CRAN 任务视图包含一个包列表,其中包含官方统计和抽样调查统计中常用的方法。许多包提供了针对以下列出主题中的多个主题的功能。因此,此列表不是严格的分类,包可能被列出多次。

任务视图分为几个部分

第一部分:官方统计数据的生产

1 准备/ 管理/ 计划(问卷设计等)

2 抽样

3 数据收集(包括记录链接)

3.1 数据整合(统计匹配和记录链接)

3.2 网络抓取

网络抓取如今在官方统计数据的生产中越来越频繁地使用。例如,在价格统计中,以前通过网络手工收集或通过亲自访问商店收集的产品价格,现在被抓取特定主页所取代。此过程步骤的工具未在此处列出,但可以在 CRAN 任务视图的 WebTechnologies 上找到详细概述。

4 数据处理

4.1 权重和校准

4.2 编辑(包括异常值检测)

4.3 插补

可以在 CRAN 任务视图“缺失数据” MissingData 中找到插补方法的概述。但是,这些方法中的大多数没有考虑复杂设计调查的特殊性,即不是专门为官方统计和调查设计的那些方法。例如,应用方法的标准通常取决于数据的规模,在官方统计中,这些数据通常是连续、半连续、二元、分类和计数变量的混合。此外,测量误差会极大地影响非稳健的插补方法。

统计机构中常用的软件包是 VIMsimputation,它们具有针对一般距离的快速 k 最近邻 (knn) 算法和已实现的 (稳健) 基于 EM 的多重插补算法。

4.4 季节性调整

季节性调整是制作官方统计数据的重要步骤,这里经常使用一套非常有限的方法,例如美国人口普查局开发的 X13-ARIMA-SEATS。在 CRAN 任务视图 TimeSeries 部分的季节性调整中,可以找到用于此的 R 包。

5 调查数据分析

5.1 估计和方差估计

5.2 可视化

6 统计披露控制

来自统计机构和其他机构的数据在其原始形式中大多是机密的,数据提供者必须通过修改原始数据来确保机密性,以便任何统计单位都无法被重新识别,并通过保证最少的信息损失。

单位级数据(微数据)

聚合信息(表格数据)

远程访问

第二部分:访问官方统计数据

访问国际组织和多个组织的数据

访问国家组织的数据

第三部分:相关方法

小区域估计

微观模拟

指标、指标、表格和指标可视化

其他

CRAN 软件包

核心errorlocatesaesamplingSamplingStratasdcMicrosdcTablesimPopsurveysurveysdvalidatevalidatetoolsVIM
常规acs, anesrake, BalancedSampling, BIFIEsurvey, blaise, CalibrateSSB, cancensus, CANSIM2R, cbsodataR, cdlTools, censusapi, collapse, convey, csodata, deducorrect, deductive, DHS.rates, diffpriv, DSI, easySdcTable, editrules, EdSurvey, emdi, eurostat, extremevalues, FAOSTAT, fastLink, FFD, Frames2, fuzzyjoin, GaussSuppression, gustave, hbsae, icarus, idbr, inca, inegiR, ineq, insee, iotables, ipumsr, jointCalib, JoSAE, laeken, longCatEDA, MatchIt, MatchThem, MBHdesign, memisc, micEconIndex, MicSim, mind, mipfp, nlme, nomisr, NonProbEst, npi, OECD, panelaggregation, PPRL, pps, PracTools, prevR, pxweb, PxWebApiData, quantification, questionr, R2BEAT, rdbnomics, rdhs, readabs, readsdmx, reclin2, RecordLinkage, refugees, regions, Rilostat, rjstat, robsurvey, rpms, RRreg, RRTCS, rsae, rsdmx, rspa, rtrim, rworldmap, saeSim, SAEval, samplingbook, samplingVarEst, SDaA, sdcHierarchies, sdcSpatial, simputation, SimSurvey, singleRcapture, SmallCountRounding, sms, sorvi, spsurvey, srvyr, statcanR, statcodelists, StatMatch, stratification, stringdist, SUMMER, surveybootstrap, surveydata, surveyplanning, svrep, synthpop, tidyBdE, tidycensus, tidyqwi, tmap, treemap, univOutl, vardpoor, WDI, weights, wINEQ, XBRL.

其他资源