有人能告诉我大数据和数据湖之间的相同点和不同点。
任何地方都找不到满意的答案。
我认为,我们无法比较和区分它们的术语,因为数据湖是大数据的同义词。 Data lake =企业数据+非结构化数据+半结构数据。
另外,它的数据存储库可以存储任何类型的数据并用于分析目的。大多数数据将存储在Hadoop文件系统(HDFS)中,在“大数据”下,存在涉及存储和一些其他处理技术。
大数据是一个以非常不同的方式使用的术语,有人可能称之为流行词。通常,它被用作数字技术的统称,digitization,industry 4.0以及与数字化转型相关的许多主题。
在较不通用的解释中,大数据仅指复杂的大型数据集。术语“大”则指三个维度(见Wikipedia on Big Data)
Data Lake指的是如何存储大数据的方法。存储数据的其他可能性是传统数据库,一方面也称为关系数据库管理系统(RDBMS),另一方面称为数据仓库,例如参见Data Lake vs. Data Warehouse vs. Database: What’s The Difference?
大数据和数据湖是两回事。 Data Lake是一个概念,您可以使用不同的机制存储和轻松访问所有数据。 Data lake可以在s3或redshift或任何其他存储平台上维护。大数据是用于处理大量数据的术语。它主要用于Hadoop,Spark等大数据解决方案。