dataframe 相关问题

数据框是表格数据结构。通常,它包含数据,其中行是观察值,列是各种类型的变量。虽然“数据框架”或“数据框架”是这个概念用于多种语言的术语(R,Apache Spark,deedle,Maple,Python中的pandas库和Julia中的DataFrames库),“table”是用于的术语MATLAB和SQL。

合并spark scala Dataframe中的行

合并火花数据框中的行我有以下ID的数据名称Passport国家许可证UpdatedtimeStamp 1 Ostrich 12345 - ABC 11-02-2018 1 - - ...

回答 2 投票 3

将Spark Dataframe转换为Scala Map集合

我正在尝试找到将整个Spark数据帧转换为scala Map集合的最佳解决方案。最好说明如下:从这里开始(在Spark示例中):val df = sqlContext ....

回答 2 投票 8

SparkSQL在第一次爆炸后第二次爆炸

我在第一次爆炸后使用以下命令进行第二次爆炸:myExplode = sqlContext.sql(“从myTable中选择爆炸(名称)作为name_x”)myExplode = sqlContext.sql(“select explode(...

回答 1 投票 0

在pandas数据框中附加问题的时间序列

我正在研究时间序列,我在pandas数据框中发现了非常特殊的行为当索引不是时间序列导入pandas时,下面的代码工作为pd df = pd.DataFrame({“a”:[1,2,3],“b “:[31,41,51] ...

回答 1 投票 1

JSON提取到pandas数据帧

我目前正在尝试将json作为pandas数据帧处理。这里发生的事情是我得到了连续的json结构流。它们只是附加。这是一条完整的路线。我提取了一个.txt ...

回答 2 投票 1

是否有R函数用于计算行中的相同值?

我正在寻找一个函数,它可以通过在一个新列中返回此数字并将此字符串作为名称返回给出一行相同字符串的次数。我们来......

回答 1 投票 0

如何将嵌套的Struct列展开为多列?

我正在尝试将具有嵌套结构类型(见下文)的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”:3,“bar”:{“baz”:2}}。理想情况下,我......

回答 2 投票 2

如何使用pandas.dataframe()函数转换python的嵌套dict

我无法按照我的意愿转换输出:x = {“urlCrawlErrorSample”:[{“urlDetails”:{“containingSitemaps”:['asff','123'],...

回答 1 投票 0

获取Pandas df的子集,其中多个列匹配来自另一个df的值

我有两个带有多索引的数据帧,如下所示:df1 pd.DataFrame({'observation':{('foo','2017-04-16'):'green',('bar','2017-04 -25'):'red',('zap','2017-04-16'):'red',('zip',...

回答 1 投票 0

如果系列的值包含pandas中的特定字符集,则替换后续字符

我有这样的数据框:df:col1 col2 col3 1 123xy56 pyrxyz 3 hcv P xy12 R T 5 453xy Z 2 lxy6 Q I ...

回答 2 投票 0

在R中添加2个数据帧而不会丢失列

我在R(df1,df2)中有2个数据帧。 A C D 1 1 2 2 2 df2作为A B C 1 1 1 2 2 2如何合并这2个数据帧以产生以下输出? A B C D 2 1 2 1 4 2 4 2列已分类并且......

回答 5 投票 1

0-9在一个数据帧的索引的最左边数字重复多久?

我想知道我们是否可以计算在某些熊猫数据帧的最左边数字中0-9重复的频率:A B C 0-56.343656 NaN -418.540483 10 -87.577880 ......

回答 1 投票 0

DataFrame和列表的笛卡尔积

我有一个项目清单。我也有一个数据帧。如果列表有3个项目,并且数据框有4行,我想迭代并添加每个项目然后复制行并添加下一个项目等等。所以结束...

回答 2 投票 0

使用可变列对Pandas数据帧进行排序

我有任意数量的数据帧(在这种情况下为3)。我试图从起始目的地(A列)和最终目的地(列......)之间选择最高速度的行程。

回答 2 投票 1

更新一行,如果缺少则插入新行

我有一个[Date,Value]数据框(下面代码中的cash_movement_df)。需要更新(总结)日期的值。如果数据框中已存在日期,则插入为新[日期,值] ...

回答 2 投票 0

将多个DataFrame与偶尔重叠组合在一起

我有多个子数据框,我从CSV文件中读取,我想使用pandas将它们组合到一个大的DataFrame中。我的问题是单独的子DataFrames中的一些列显示...

回答 1 投票 1

使用pandas时,为什么会出现AttributeError?

如何根据条件将NaN值转换为分类值。我在尝试转换Nan值时遇到错误。类别性别子类别标题健康与美容......

回答 3 投票 5

有没有办法在条件下使用多种数据类型过滤Python中的列?

我试图根据数字和分类数据类型过滤列,然后为每个回归问题创建单独的列表。问题是我无法使用.isin(['object','O'...

回答 1 投票 0

合并两个TRUE / FALSE数据帧列,仅保留TRUE

我在pandas数据框中有两列,如下所示:df [1] df [2] TRUE TRUE FUE FUE FUE FALSE FALSE TRUE FALSE FALSE FALSE从这两列中,我如何制作...

回答 3 投票 2

用熊猫自信编程

我正在寻找一种方法对pandas数据帧数据进行断言编程,就像在R中的assertr一样。是否有任何方便的库?所有建议都非常欢迎。

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.