为什么sql是垂直可扩展的而nosql是水平可扩展的

问题描述 投票:0回答:2

我是 NoSQL 新手,并试图理解它的含义。

我在许多不同的网站上看到许多文章重复这样一个事实:“SQL 数据库是垂直扩展的(通过添加 CPU/内存),而 NoSQL 数据库是水平扩展的(通过添加更多可以执行分布式计算的机器)”。

例如这些文章:
http://dataconomy.com/sql-vs-nosql-need-know/
http://www.thegeekstuff.com/2014/01/sql-vs-nosql-db/

问题是我不明白为什么。

据我所知,SQL 和 NoSQL 之间的主要区别(除了可扩展性问题)是 SQL 存储在表中,而 NoSQL 以不同的方式存储(Key-Value/Graph/xml 等)。

我似乎无法理解这两个事实(可扩展性和存储策略)之间的联系。这些对我来说似乎是无关的事情(可能是由于缺乏理解)。

sql scalability horizontal-scaling nosql
2个回答
2
投票

文章总体来说是合理的。正如两篇文章所指出的,NoSQL 技术和 SQL 技术(由于缺乏更好的术语)如今都发挥着重要作用。这种讨论有点让人想起很久以前的分层数据库与关系数据库。

我不同意可扩展性差异。这些讨论遗漏了 Hive、PrestoDB 和 BigQuery 等技术,这些技术本着传统 RDBMS 的精神,基于高度可扩展的技术。

RDBMS 和 NoSQL 之间的主要区别(在我看来)是 ACID 合规性和数据结构。第一个是关系数据库带来的“负担”,无论好坏——对于金融交易来说绝对方便,但以其他目的的开销为代价。第二个领域是传统数据库正在朝着更好地处理非结构化数据的方向发展,直接支持嵌套表、JSON 和 XML 格式。然而,结构很重要,因为大量数据科学家在与数据交互时可能会经历艰难的学习。

大型可扩展键值数据库在设计时就考虑到了“水平”可扩展性。再加上缺乏纯 ACID 属性,有助于重新平衡新硬件的数据——假设您已经正确设计了数据库(这可能是一个很大的假设)。

Oracle、DB2 和 Teradata 等数据库几十年来一直支持并行处理(尽管更偏向于单个服务器,尽管采用无共享架构)。他们的技术早于更现代的基于 Apache 的系统(因为缺乏更好的术语),但这并不意味着它们无法跨多个处理器进行扩展。

Hive、Redshift、BigQuery 和 PrestoDB 等新数据库在更现代的“水平”可扩展意义上提供基于 SQL 的接口(至少对于查询而言)。 Postgres 领域正在进行大量工作来支持并行处理,而 Greenplum、Netezza、Vertica 等数据库的示例掩盖了关系数据库无法跨多个独立处理器进行扩展的想法。


0
投票

SQL 数据库:

  • 传统SQL数据库: 想象一下您有一张包含所有数据的大表。随着数据的增长,该表变得太大,导致搜索、更新或插入数据的速度变慢。
  • SQL 中的分片: 为了解决这个问题,您可以将大表拆分为较小的表,每个表位于不同的服务器上。这些较小的表称为“分片”。 例如,如果您有一个用户数据表,您可以按地理区域对其进行拆分: 为北美用户提供一个分片。 欧洲用户的一个分片。 为亚洲用户提供一个分片。 每个分片就像它自己的迷你数据库,但它们共同构成完整的数据集。

NoSQL 数据库:

  • 传统NoSQL数据库: NoSQL 数据库通常处理大量非结构化数据,这些数据也可能变得太大,以至于单个服务器无法有效管理。
  • NoSQL 中的分片: 与 SQL 类似,NoSQL 数据库将数据分割成更小的片段或“碎片”。 不同之处在于,NoSQL 数据库通常被设计为自动且更灵活地处理分片。他们可以根据各种标准(例如 MongoDB 中的文档 ID 或键值存储中的键)跨分片分发不同类型的数据。 例如,在像 MongoDB 这样的 NoSQL 文档数据库中,可以根据唯一标识符将文档分割成不同的分片。
© www.soinside.com 2019 - 2024. All rights reserved.