dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

列表类型上的 Polars map_batches 引发 InvalidOperationError

Polars 有一个我无法解决的难题: 这的行为符合预期: df = pl.DataFrame( { “int1”:[1,2,3], “int2”:[3,2,1] } ) df.with_columns( ...

回答 3 投票 0

如何根据 Python 数据框中每个标识符的行创建编号列?

我有一个如下所示的数据集: df = pd.DataFrame(data = {'ID': ['Bob1','Jeff1','Sally2', 'Bob2','Bob1','Jeff1','Bob1','Willa5','Jeff1', 'Bob1','Sally2'], '日期': ['2024-01-10', '2024-08...

回答 1 投票 0

参数“schema”有多个值

self.engine=create_engine("postgresql://postgres:12345@localhost/postgres") self.con = self.engine.connect() self.conn.autocommit = True self.cursor = ...

回答 4 投票 0

R - 在控制台上查看数据帧输出的更好方法

我正在寻找一种更好的方法来在控制台中查看数据帧的输出。 我使用的计算机有很高的安全限制,因此安装了许多比较流行的软件包,例如tid...

回答 2 投票 0

如何制作主散点图和两个直方图组合的ggplot?

我有一个数据集 df 我想用散点图进行分析和可视化以与直方图相关。此外,一个颜色数据点为蓝色,另一个为黄色,但是成对的非零......

回答 1 投票 0

合并数据集时如何高效解决冲突

我想知道如何改进解决冲突的功能。我的想法是,当我在合并时得到三个不同的值时,我为检索到的每个值计算一个分数(相似度比率

回答 1 投票 0

在 PySpark 中创建当前余额列

我在 PySpark 代码中创建了以下数据框: +----------------+------------+----------------+--- ---+ |交易日期|账号|交易类型|金额| +----------------+------------+----...

回答 1 投票 0

pandas,判断数据框中是否已存在设置值

我正在检查无序值的元组是否已在另一个列表中。我是 Python 新手,所以没有太多使用集合,但我是 pandas 的重度用户,所以很高兴找到这个任务......

回答 1 投票 0

在PySpark中尽可能多地发现匹配的id

我有一个 Spark DataFrame,比如 编号1 编号2 分数 A1 B1 9 A2 B1 9 A2 B2 7 A3 B2 5 我想在 PySpark 中找到最匹配的 id1/id2 ,输出是 编号1 编号2 A1 B1 A2 B2 挑战在于 Row(A2,...

回答 3 投票 0

计算排名并连接 2 个数据框

假设我有 2 个数据框,其中有 3 个公共标识列。 数据框1 id1 id2 id3 值1 值2 值3 1001 9001 3001 蓝色方块 真 1005 9001 3001黄圈假 1009 2001...

回答 1 投票 0

如果值大于或小于第一列中的值,则替换数据框中的值

我在 R 中操作大数据框时遇到问题。这似乎是 R 中的基本问题,但我找不到解决方案。 df 的虚拟示例: 阈值 V1 V2 V3 V4 #1 10 1 ...

回答 1 投票 0

如何获取Polars中分区上最频繁的值?

我正在尝试使用 Polars 获取 DataFrame 列中每个类别中最常见的值,并且该类别由多个其他列给出(即使用复合主键)。 对于

回答 1 投票 0

Rust Polars:是否可以将列表列分解为多列?

我有一个返回列表类型列的函数。因此,我的专栏之一是一个列表。我想将此列表列变成多列。例如: 使用极地::前奏::*; 使用极坐标::df;...

回答 2 投票 0

如何对 Polars 数据框中的持续时间求和?

我有以下数据框: 导入日期时间 将极坐标导入为 pl df = pl.DataFrame( { “idx”:[259, 123], “时间戳”:[ [ 达...

回答 1 投票 0

极坐标过滤后如何填充n个随机行

我花了几个小时思考如何在用某个值过滤极坐标后填充n行。 举个例子,我想在极坐标中执行以下操作。 给定一个带有列的数据框...

回答 1 投票 0

如何求和求最大负数串?

这是我的数据框: 将 pandas 导入为 pd df = pd.DataFrame( { 'a': [-3, -1, -2, -5, 10, -3, -13, -3, -2, 1, -200, -100], } ) 预期输出: 一个 10 -200 11 -100 逻辑: 我想要

回答 1 投票 0

Pyspark 将双引号写入 csv 文件的选项无法正常工作

我正在尝试写入 csv 文件,其中我希望字段用双引号 | | 分隔。作为无法正常工作的分隔符。问题是我的 exa 几乎没有双引号值...

回答 1 投票 0

使用颜色和数字格式来格式化数据框的正确顺序和方法是什么?

我正在使用 python/panda 并在 Streamlit 下进行可视化,在本地环境下工作。 我有一个数据帧字典,每个数据帧都包含文本和数字作为字符串。 D...

回答 1 投票 0

将组中具有特定值的所有行排序到组中的最后一个位置

我尝试将组中具有特定值的所有行排序到每个组中的最后一个位置。 数据 = {'a':[1, 1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3], 'b':[100, 300, 200, 222, 500, 300, 222, 100,...

回答 2 投票 0

通过 data.frame 逐行循环获取数组 - 简单的方法吗?

我对 r 很陌生,并且一直在努力处理涉及循环和数组的代码。 我的数据中,每个参与者对 14 个项目做出了回应,回应范围在 1 到 -1 之间。 对于每个参与者...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.