huggingface-datasets 相关问题

我无法从 Huggingface 下载数据集

从数据集导入load_dataset 数据集 = load_dataset(path='seamew/THUCNewsTitle', split='train') 我的网络没问题，但控制台总是显示：回溯（最近一次调用最后一次）：文件“/

在 python CGI 脚本中激活 venv 虚拟环境时出现 ModuleNotFoundError

我刚刚开始使用 Huggingface Transformers 库，并通过 Pytorch 和 venv 进行了实验。如果我从 shell 激活 venv 虚拟环境，它就可以正常工作。豪...

为什么 BERT 不返回我原来的句子？

我已经开始通过 Huggingface 模块使用 BERT 编码器。我向它传递了一个正常的未屏蔽句子，并得到以下结果：然而，当我尝试手动应用 softmax 时......

运行时错误：使用 Trainer API 进行微调时，发现 dtype Long 但预期为 Float

我正在尝试使用 Huggingface Trainer API 微调 BERT 模型进行情感分析（将文本分类为正面/负面）。我的数据集有两列，文本和情感，它看起来像这样。 T...

从 R 导出阿拉伯文本

我正在尝试在 R 中导出包含阿拉伯文本的数据框。当 R 导入阿拉伯文本时，它将其转换为 UTF-8 代码。像这样：我正在尝试在 R 中导出包含阿拉伯文本的数据框。当 R 导入阿拉伯文本时，它会将其转换为 UTF-8 代码。像这样： <U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+062A><U+0634><U+0631><U+064A><U+0639><U+064A><U+060C> <U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+062A><U+0646><U+0641><U+064A><U+0630><U+064A><U+060C><U+0627><U+0644><U+0641><U+0631><U+0639> <U+0627><U+0644><U+0642><U+0636><U+0627><U+0626><U+064A>. <U+0627><U+0644><U+062D><U+0643><U+0648><U+0645><U+0629> <U+0627><U+0644><U+0641><U+062F><U+0631><U+0627><U+0644><U+064A> 不幸的是，导出时我无法将其转回可读的阿拉伯语。下面是我正在使用的代码... write.csv(my.data,"data.csv", fileEncoding='UTF-8') 有人有解决办法吗？此外，这是我的会话信息。 R version 3.0.1 (2013-05-16) Platform: x86_64-w64-mingw32/x64 (64-bit) locale: [1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 [3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C [5] LC_TIME=English_United States.1252 attached base packages: [1] stats graphics grDevices utils datasets methods base other attached packages: [1] ggplot2_0.9.3.1 loaded via a namespace (and not attached): [1] colorspace_1.2-2 dichromat_2.0-0 digest_0.6.3 grid_3.0.1 gtable_0.1.2 [6] labeling_0.2 MASS_7.3-27 munsell_0.4.2 plyr_1.8 proto_0.3-10 [11] RColorBrewer_1.0-5 reshape2_1.2.2 scales_0.2.3 stringr_0.6.2 tools_3.0.1 这段代码对我有用，所以我分享它： Sys.setlocale("LC_CTYPE", "arabic" ) write.csv(group$message, file = 'posts.txt', fileEncoding = "UTF-8") 如果将文件另存为 csv，它将不起作用。您必须将其另存为txt。您必须安装并使用语言环境。这很困难，有时甚至不起作用。这里提供了一些解决方案和代码：写入数据并不保留编码请记住，您实际上必须为您的操作系统安装语言包，而对于某些 Windows 版本，根本没有任何单独可用的语言包。这已经晚了 10 年，但我遇到了类似的问题，并决定发布我的解决方案，以防将来对其他人有帮助。我的解决方案是使用包“openxlsx”。首先，您需要安装 openxlsx 软件包（如果尚未安装）： library(openxlsx) 然后，您可以修改代码以使用 UTF-8 编码编写 xlsx 文件而不是 csv，如下所示： write.xlsx(my.data,"data.xlsx", rowNames = FALSE, showNA = FALSE, encoding = "UTF-8") 希望这对某人有帮助！

huggingface-datasets 相关问题

最新问题