在社交图中,节点数量远小于边数的情况常见吗?
在我对 Twitter 网络的分析中,我得到了这样的结果
节点 = 20,000
我该如何解释数字之间的巨大差距?
是的,这是图的一个常见属性,因为节点之间潜在关系的数量以与节点数量的平方成正比的速度增加(具体公式如下)。了解随着群体规模的扩大,群体之间的互连如何发挥作用。
虽然我们实际上可以创建节点,但我们可以通过仅查看可以产生有效非冗余关系的所有可能组合的计数来模拟这一点,并显示集合最大连接时的计数。
WITH range(1,100) as id
UNWIND id as a
UNWIND id as b
WITH a, b
WHERE a < b
RETURN count(*)
如果它们都是链接的,没有多余的关系,我们最终会从 100 个最大链接个体中得到 4950 个关系。对于 1000 个人来说,您将拥有 499500 个关系。对于 10000,您将拥有 49995000 个关系。
有一个公式可以捕获这个,即完整图可能的边数,并且应用它比我们之前的查询更简单:
WITH 100 as n
RETURN (n * (n - 1)) / 2.0
社交网络都是关于个人之间无数的联系,正如您所看到的,随着节点数量的增加,即使它们没有接近完整的图,它们之间可能的关系数量也会猛增。
您还可以考虑,在社交图谱中,可能会有相当多的朋友集群,每个集群可能具有最大程度的连接,这将推高关系计数,更重要的是集群的大小。