dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

重命名列,但在 R 中的 ggplot 2 中保持相同的排序

我有一个名为 df 的数据框,包含 2 个字符变量和一个双精度变量。 我试图解决的问题的最初问题是这里。简而言之,我试图在每个方面对 de...

回答 1 投票 0

为什么Pandas的replace()方法不起作用?

我试图将 df 中的所有列替换为整数的价格,但是由于某种原因,replace() 方法不起作用: df = pd.read_csv(f_name, dtype="string") df = df[df.columns.dro...

回答 1 投票 0

如何使用 pyspark 分解数据框中的逗号分隔值

我有如下数据: ID ID1 ID2 32336741 ["32361087"] ["36013040"] 32290433 [“32...

回答 1 投票 0

通过截止值根据子列表分割数据帧

我想根据将列表分为多个部分给出的子列表来分割数据帧,其中高于截止值的唯一值是第一个。 例如截止值 = 3 [4,2,3,5,2,1,6,7] => [4,2,3], [...

回答 1 投票 0

将数据帧转换为矩阵并创建和弦图

我正在尝试创建一个和弦图,如下图所示。 在这里,您可以看到 TRAV 的哪些值(例如 TRAV21、TRAV1-2 等)与 TRBV 的值(例如 TRBV6-4、TRBV6-1 ec)相匹配,

回答 1 投票 0

R 中的数据帧操作 - 选择某些值

我有以下问题找不到答案: 我有一个看起来像这样的 df: id x1_t1 x1_t2 x1_t3 y1_t1 y1_t2 y1_t3 1 1 0 0 0 100 110 150 2 2 0 0 1...

回答 1 投票 0

如何将 R Studio 3 变量数据框绘制成热图?

我目前正在R中做一个项目,并且有这个数据框: 拉德夫 nseg 均值 loglr 1 27 16.64982 2.163818549 2 18 15.49226 0.524823313 3 22 23.85373 0.570587756 我想要...

回答 1 投票 0

计算行中的元素并在 pandas 中创建列计数器

我创建了以下 pandas 数据框: 将 pandas 导入为 pd ds = {'col1' : ['A','A','B','C','C','D'], 'col2' : ['A','B','C','D','D','A']} df = pd.DataFrame(数据=ds) 数据框...

回答 1 投票 0

如何制作新的 pandas DataFrame,其中列作为旧的索引_列对

我有两个 pandas DataFrame: object_1df = pd.DataFrame([['a', 1], ['b', 2]], 列=['字母','数字']) object_2df = pd.DataFrame([['b', 3, '猫'], ['c', 4, '狗']], ...

回答 1 投票 0

水平匹配 R 中的两个 ggplots

我在 R.g1 和 g2 中有两个图。 图书馆(dplyr) 库(ggplot2) 库(forcats) set.seed(123) # 设置种子以实现可重复性 level_country = c('美国', '英国', '法国', '德国') 国家 = s...

回答 1 投票 0

pandas 使用正则表达式模式重命名多个列

我有一个如下所示的数据框 ID、US-测试1、US-测试2、US-测试3 1,11,12,13 2,13,16,18 3,15,19,21 我想从我的所有列名称中删除关键字 US - 我尝试了下面的方法,但是......

回答 2 投票 0

ValueError:NaTType 不支持 strftime

在重置索引之前,我尝试使用 dropna 方法删除缺少“日期”值的行,然后出现 KeyError: df.set_index('日期', inplace=True) df = df. Between_time(

回答 1 投票 0

从大型数据帧中删除大量 ID 需要很长时间

我有两个数据框 df1 和 df2 打印(df1.形状) (1042009, 40) 打印(df1.列) Index(['date_acte', 'transaction_id', '金额', ...], dtype='对象') 打印(df2.形状) (734738, 37) 原则...

回答 1 投票 0

有没有办法在tbl中使用reshape?

在上一个问题中,我在使用重塑时遇到了问题: 重塑错误 - 无效的“row.names”长度 几个小时后我意识到这是因为我使用的是 tbl 格式而不是 data.frame。所以要使用

回答 2 投票 0

无法将数据帧列转换为 int64 数据类型

我有一个问题。 在我的 Pandas DataFrame 中,我有一个名为“job”列的列。我创建了一个简单的自定义转换器,它将映射该列中与作业类型相对应的值。 ...

回答 1 投票 0

尝试合并具有多种条件的DataFrames

这是一个奇怪的问题:我有 3 个数据框,“prov_data”,其中包含提供者 ID 并计算区域和类别(即提供者与这些区域交互的次数以及

回答 2 投票 0

使用 Pandas 中的滚动窗口优化持久性分析,处理月份之间的重叠

我对 Python 和一般编码还比较陌生。我正在开发一个在大型数据集中执行持久性分析的项目,并试图避免使用 for 循环以提高效率。我将不胜感激...

回答 1 投票 0

在混乱的pandas数据框中转换dtypes?一些数字列有少量字符串值

我有一个大数据框。我想将它们转换为适当的数据类型。问题是在几个数字列中有字符串。我了解convert_dtypes 和to_numeric。 问题...

回答 1 投票 0

数据帧的数据帧:写入和读取

我有一组图像。在每个图像中,程序查找具有属性 X 和类型的对象。对象的数量因图像而异。因此,对于一张图像,我有一个 df_objects 和 N_objects 行...

回答 1 投票 0

我的表格有一个日期列。我需要一个函数,如果 m 个月内总共有超过 n 行,则将同一组中的行标记为 True

我有一个输入表,我称之为claim_data。它看起来像这样: 记录_ID、事件_ID、保单编号、索赔名称、客户编号_PO、索赔编号、Life_Assured、客户编号_LA、收到日期、发生日期、

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.