即使列中的单个值不是NaN，也如何过滤库仑

Question

我有一个具有500行和502列的Pandas数据框，下面是各列名称的简要介绍：

['cluster', 'question1', 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, ....,500]

集群-集群号问题1-表示文本数据column（0-500）-包含500个问题中每个问题的余弦相似度值。

对于每个问题，我只想过滤余弦值> 0.5（让我们说x）并且<1的那些行以及其他任何问题。

我已经尝试了下面的代码集来过滤数据

filter_boolean = final_df[(final_df.iloc[:,2:] > 0.5) &(final_df.iloc[:,2:] < 1)]

预期和实际结果如下图Input DataFrame Actual Output

Answer 1

[Pandas dropna函数使用dropna和axis自变量来解决此用例。

要在列上使用how，请使用dropna（而不是默认的对行进行操作的axis=1。

要删除axis=0为'any'的位置，请使用NaN关键字和特殊的how。

这应该可以解决您的问题。

您也可以使用布尔过滤器执行此操作，但是以后更容易为其他人和您自己阅读'any'。