我对 R 有点陌生,当然应该被视为数据分析方面的业余爱好者。 R 中可用于数据整理和分析的软件包数量之多给我留下了深刻的印象。但是,我经常发现多个软件包会做同样的事情。我的基本问题是如何决定使用哪个包(如果有),但这当然是非常具体的,并且在某种程度上非常主观(例如 tidyverse 与 base R)。
这个问题的一个代理是如何知道一个包是否被常用,这可以作为其有用性的间接指标。
我确实尝试通过查找学术论文中的引用和各种 GitHub 指标来获得概述,但发现它乏味且不精确。此外,并非所有包都在 GitHub 上。拥有像 CRAN 任务视图这样的概述(包括下载/包引用数量或类似内容)将非常有用。这些指标在任何地方都可用吗?
我知道这个问题对于 SO 社区来说非常合适。我很乐意接受关于更合适社区的建议。
您可以使用包
cranlogs
获取下载统计数据并比较可用于特定任务的不同替代方案的受欢迎程度(或其代理)。
https://github.com/r-hub/cranlogs
例如截至今天,这些是上周下载最多的软件包
> cranlogs::cran_top_downloads("last-week")
rank package count from to
1 1 rlang 594334 2023-02-02 2023-02-08
2 2 cli 580335 2023-02-02 2023-02-08
3 3 ggplot2 578947 2023-02-02 2023-02-08
4 4 vctrs 554676 2023-02-02 2023-02-08
5 5 lifecycle 513724 2023-02-02 2023-02-08
6 6 dplyr 430810 2023-02-02 2023-02-08
7 7 ragg 390004 2023-02-02 2023-02-08
8 8 textshaping 379241 2023-02-02 2023-02-08
9 9 tidyselect 329511 2023-02-02 2023-02-08
10 10 devtools 307863 2023-02-02 2023-02-08
该网站可让您比较 R 包的受欢迎程度随时间的变化。该小程序确实需要一段时间才能加载。