dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

将嵌套 JSON 转换为 Dataframe

response.json() 返回以下格式的 JSON: { “工作簿”:[ { “名称”:“WORKBOOK_A”, “嵌入式数据源”:...

回答 2 投票 0

Pandas 的问题:处理具有混合列表和范围的字典

我正在使用一个包含列表和范围混合的字典(它们被处理成列表),但是当我尝试将其转换为 pandas DataFrame 时,我收到错误: ValueError:所有数组...

回答 1 投票 0

如何在 Spark Dataframe 中显示完整的列内容?

我正在使用spark-csv将数据加载到DataFrame中。我想做一个简单的查询并显示内容: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("...

回答 18 投票 0

计算每行中的字符数,如果所有字符都低于某个数字,则丢弃

我有一个包含许多列的数据框,所有列都包含与 NaN 混合的文本数据。 我想计算每列中每行的字符数,然后删除所有列中的任何行...

回答 1 投票 0

有关操作数据帧的基本 R 问题

我有一个包含几列的数据框。行有名称。 我想计算每行(col1/col2)的一些值,并使用原始行名称创建一个新的数据框。如果我只是做某事我...

回答 4 投票 0

通过根据两列之间的差异添加数据点来扩展/修改数据框

我有一个数据框,是逐帧记录动物行为的标注。但由于标注软件的限制,导出的数据框是这样的: 神父...

回答 1 投票 0

应用列的每个单元格条件并替换 R 中单元格中的值

我有下面的数据框: > 最后_t_df3 A1BG A2M NAT1 NAT2 SERPINA3 1 1.943765 0.0000000 1.271231 0.0000000 0.0000000 2 1.419931 0.3045321 2.507409 0.0000000 4.

回答 1 投票 0

对数据行进行分组以生成分析数据

我正在处理 NHS 出勤数据的数据集(包括列和行的片段)。该数据一直持续到周日的最后一个小时。我已经成功清理了...

回答 1 投票 0

根据数据帧中特殊模式的频率分配新列的值

我想创建数据框的另一列,根据顺序将第一列中的每个成员分组。 这是一个可重现的演示: df1=c("亚历克斯","23","ID#:123","约翰","26","ID#:...

回答 2 投票 0

重新排序 R 中因子列的水平,以在两个图中水平匹配

我在 R 中有一个模拟数据框: 图书馆(tidyverse) 库(ggstats) 图书馆(拼凑而成) 设置.种子(123) Likert_levels <- c( "1" = "Very Dissatisfied", "2" = &

回答 1 投票 0

在 Pandas 中,如何根据数据框中的列和索引值引用和使用字典中的值?

我有关于人们在某些地点(地点 A 和 B)、某些时间(日期索引)生病情况的数据。我需要将每个值除以该位置(列)的人口和...

回答 1 投票 0

按特定的重复值序列对表进行排序

我有一个数据框: df <- data.frame(col1 = c(1,1,1,1,2,2,2,2,3,3,3,3), col2 = rep(c("A", "B", "C", "D"), 3)) col1 col2 1 1 A...

回答 1 投票 0

如何在Polars中像Pandas一样有条件地设置多个元素?

我试图根据条件在 Polars DataFrame 中设置多个元素,类似于 Pandas 中的操作方式。这是 Pandas 中的一个例子: 将 pandas 导入为 pd df = pd.DataFrame(dict( 一个...

回答 1 投票 0

Pyspark toPandas ValueError:发现非唯一列索引

当我尝试使用 toPandas 方法将 pyspark 数据帧转换为 pandas 数据帧时,出现以下错误。我不明白错误的原因: ---------------------------------------...

回答 2 投票 0

根据日期时间条件填充 pandas 列

这里是生成数据帧的示例代码。 将 pandas 导入为 pd 将 numpy 导入为 np 日期 = pd.date_range("20241218", period=9600,freq='1MIN') df = pd.DataFrame(np.random.randn...

回答 1 投票 0

Pandas DataFrame 无法使用分配函数 - 为什么?

我在 pandas 中遇到了一些奇怪的行为,我希望有人能够阐明 pandas 数据框中 df.assign(...) 函数的细节。当我尝试...时遇到 ValueError

回答 1 投票 0

如何使用 Pandera 验证嵌套的 Spark DataFrame?

是否有可能使用pandera.pyspark验证嵌套的Spark DataFrame?这是 StructType 的示例,但 ArrayType 也可以类似。 从 pandera.pyspark 导入 DataFrameModel,

回答 1 投票 0

将列名称粘贴到 R 中数据帧的每个值

希望这不是重复——我已经进行了搜索,但找不到我想要的东西。 我在 R 中有一个数据框(df) 1 2 3 4 5 1 1 0.5 0.5 0 1 2 0.5 0.5 0.5 0 1 3 1 1 0 0 1 4 1 1 0 0 ...

回答 5 投票 0

根据 3 列以上的 df 列进行分组

我有一个 df,它有 3 列,可以说 Region、Country 和 AREA_CODE。 地区 国家 AREA_CODE AREA_SUB_CODE_1 AREA_SUB_CODE_2 =================================================== ==...

回答 1 投票 0

重铸 Pandas 数据框中的值以满足特定要求

我有一个通过从 Excel 电子表格导入创建的 Pandas 数据框。使用 .dtypes 方法时,该列显示为数据类型对象。然而,在单列中,

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.