我有一个具有500行和502列的Pandas数据框,下面是各列名称的简要介绍:
['cluster', 'question1', 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, ....,500]
集群-集群号问题1-表示文本数据column(0-500)-包含500个问题中每个问题的余弦相似度值。
对于每个问题,我只想过滤余弦值> 0.5(让我们说x)并且<1的那些行以及其他任何问题。
我已经尝试了下面的代码集来过滤数据
filter_boolean = final_df[(final_df.iloc[:,2:] > 0.5) &(final_df.iloc[:,2:] < 1)]
预期和实际结果如下图Input DataFrameActual Output
[Pandas dropna
函数使用dropna
和axis
自变量来解决此用例。
要在列上使用how
,请使用dropna
(而不是默认的对行进行操作的axis=1
。
要删除axis=0
为'any'
的位置,请使用NaN
关键字和特殊的how
。
这应该可以解决您的问题。
您也可以使用布尔过滤器执行此操作,但是以后更容易为其他人和您自己阅读'any'
。