大数据平台是什么,大数据平台是不是骗局

数据 2

Hadoop与数据湖是什么关系

Hadoop与数据湖是什么关系

Hadoop与数据湖是什么关系?终于有人说明白了!

从Hadoop到数据湖,再到湖仓一体,很多概念我们都是模糊的,但是并不妨碍跟风炒作。

不知道什么时候开始,很多企业的PPT里开始把大数据平台改称了数据湖,也许数据湖这个名字比较通俗易懂吧,老板们也喜欢用。国外习惯把Hadoop叫做数据湖,而国内一般叫做大数据平台,虽然名字不一样,但其实说得是同一回事。真的是一回事吗?

虽然Hadoop从技术角度来讲可以叫作数据湖,但从业务角度讲,只是披着数据湖外衣的更大型的数据仓库而已。

下面这张表里提到的数据湖相对数据仓库的11个方面的不同,我们自己想想Hadoop与数据湖是不是同一个物种。

大多企业没有像谷歌、互联网大厂一样发挥过Hadoop蕴含的数据湖的那些独特价值,比如将非结构化数据,结构化数据,半结构化数据全部扔到HDFS上统一管理,然后数据科学家能够所见即所得的进行分析使用。

事实上,大多企业只是把Hadoop的hive当成了一个能处理海量数据的廉价数据仓库,用以替代跑不动还贵得要死的MPP,但我们还在用MPP时代使用数据仓库的方式使用着数据湖,好比虽然买了一辆具备自动驾驶的汽车但从来没有使用过自动驾驶功能一样。

大数据平台架构与应用

大数据平台架构与应用

大数据平台架构与应用

大数据平台技术架构

大数据平台技术架构


1. 数据源层
非结构化数据:包括图片、声音、视频等。半结构化数据:xml、json格式类的数据 。结构化数据:MySQL表、Oracle表等。


2. 数据获取层
数据获取层的主要作用是实现多源异构数据的采集、聚合、传输及预处理,集成多种数据采集工具。


3. 数据存储层
根据采集过来数据的类型、以及后续使用的场景进行区别存储,主要有以下存储方式:
关系数据库:ClickHouse、Doris、Hive、Impala等
非关系数据库: HBase、Redis等
分布式文件存储:HDFS 、Kudu、Ceph等
全文索引:Solr、Elasticsearch等


4. 数据处理层
离线数据处理:使用MapReduce、Spark 做批量计算,计算完成的数据存入数仓进行离线数据分析。
实时数据处理:使用Spark Streming、Flink等处理后做数据可视化。


5. 数据应用层
基于数据处理层结果进行离线数据分析、实时数据可视化展示、用户画像、精准营销等数据应用。

Hadoop v3.1大数据技术快速入门

需要提升让算法认识你的能力

大家好!我是碳究九哥。
大数据时代,需要提升让算法认识你的能力,让算法爱上你,才会给你推流。

大数据平台,
集合了数据库
围绕数据全生命周期需求
本质上是平台软件。

大数据平台包括:
数据接入、
处理、
存储、
查询检索、
分析挖掘等。

大数据技术在
很多方面都有巨大前景:
包括
政府治理、
科研服务、
民生服务、
金融安全、
国防建设、
工业转型、
日常消费、
未来教育等方面
带来巨大的,底层的,颠覆式的
改变和影响。

友友们,新时代的大门已经打开,
马上就要发车了!
赶紧跟上,别踏空啊!

我是碳究九哥,大家一起进步。

图片来自网络,侵删。

【为什么大数据平台会回归关系数据模型

【为什么大数据平台会回归关系数据模型?】 大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台80%以上都存储着非结构化数据。
/article/1047213?spm=a2c6h.12873581.group.dArticle1047213.75928bc8aWFtJU?utm_content=g_1000361099

标签: #互联网 #hadoop #做什么 #数据 #定义 #什么叫 #云计算是什么意思? #数据库技术