CRAN 任务视图:自然语言处理

维护者Fridolin Wild
联系方式wild at open.ac.uk
版本2023-09-12
URLhttps://CRAN.R-project.org/view=NaturalLanguageProcessing
源代码https://github.com/cran-task-views/NaturalLanguageProcessing/
贡献欢迎对本任务视图提出建议和改进,可以通过 GitHub 上的问题或拉取请求,或通过电子邮件联系维护者。有关更多详细信息,请参阅 贡献指南
引用Fridolin Wild (2023). CRAN 任务视图:自然语言处理。版本 2023-09-12。URL https://CRAN.R-project.org/view=NaturalLanguageProcessing.
安装可以使用 ctv 包自动安装本任务视图中的包。例如,ctv::install.views("NaturalLanguageProcessing", coreOnly = TRUE) 安装所有核心包,或 ctv::update.views("NaturalLanguageProcessing") 安装所有尚未安装和更新的包。有关更多详细信息,请参阅 CRAN 任务视图计划

自然语言处理自 20 世纪 40 年代和 50 年代奠基以来取得了长足进步(有关介绍,请参阅 Jurafsky 和 Martin (2008, 2009, 2022 年第三版草案):语音和语言处理,Pearson Prentice Hall)。本 CRAN 任务视图收集了相关的 R 包,这些包支持计算语言学家在各种层面上进行语音和语言分析 - 将重点放在词语、句法、语义和语用学上。

近年来,我们制定了一个框架,用于处理书面材料的包:tm 包。强烈建议使用此领域的扩展包与 tm 的基本例程进行交互,并诚挚邀请用户参与有关此框架包的进一步发展的讨论。

Fridolin Wild (2016) 的书籍《R 中的学习分析》(Springer)提供了包含全面示例的基本介绍。

框架

词语(词汇数据库、关键词提取、字符串操作、词干提取)

语义

语用学

语料库

CRAN 包

核心tm.
常规boilerpipeR, BTM, corpora, corporaexplorer, crfsuite, gsubfn, hunspell, jiebaR, kernlab, keyperm, koRpus, languageR, lda, lsa, movMF, mscstexta4r, mscsweblm4r, openNLP, ore, phonics, qdap, quanteda, RcmdrPlugin.temis, RKEA, ruimtehol, RWeka, sentencepiece, sentiment.ai, sentometrics, skmeans, SnowballC, stm, stringdist, stringi, svs, tau, tesseract, text2vec, textcat, textir, textplot, textrank, textreuse, tidytext, tm.plugin.alceste, tm.plugin.dc, tm.plugin.europresse, tm.plugin.factiva, tm.plugin.lexisnexis, tm.plugin.mail, tokenizers, tokenizers.bpe, topicdoc, topicmodels, udpipe, word2vec, wordcloud, wordnet, zipfR.

相关链接

其他资源