查看“平分K均值”的源代码,似乎它在进行的每个级别上构建了集群分配的内部树表示。是否可以访问该树?内置方法仅在叶子处而不是在节点处给出群集分配。
对此进行跟踪:是否有人修改了Spark ML源代码以能够存储和返回分层聚类树结构?
[我找到了一个GitHub回购,其中介绍了MLlib 1.6的Bisecting K-means聚类的实现:https://github.com/yu-iskw/bisecting-kmeans-blog/blob/master/blog-article.md
[在“下一步是什么?”部分中,第一个JIRA票据[SPARK-11664]“添加获取二等分k均值聚类结构的方法”(https://issues.apache.org/jira/browse/SPARK-11664)似乎是获得分层聚类树结构的请求内在的努力。截至今天,该票证状态已标记为“已解决”。
但是,在以下Spark MLlib的最新实现(2.4.4)中,我们没有找到此树结构或树状图作为内置输出:
PySpark MLlib 2.4.4官方文档:https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeanshttps://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeansModel
Scala MLlib 2.4.4官方文档:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeanshttps://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeansModel
我们也查阅了他们的源代码,似乎没有将分层树结构存储为内置输出?
如果Spark MLlib 2.4.4 BisectingKMeans中不提供分层聚类树结构,有人知道是否已修改源代码以使树结构可用?
谢谢!