大數據簡介,技術體系分類整理,深度剖析原理

天天熬夜敲代碼 2021-09-18 03:11:34 阅读数:686

整理 深度 剖析 原理

可靠性:Hadoop按比特存儲和存儲多個數據副本,提供可靠服務;

擴展性:Hadoop利用計算機集群分配數據並完成計算任務,可以方便地擴展到數以千計的節點中;

高效性:基於MapReduce思想,為海量的數據提供高效的並行計算;

容錯性:自動保存數據的多個副本,並且能够自動將失敗的任務重新分配;

3、組成結構


HDFS存儲

  • NameNode

存儲文件相關的元數據,例如:文件名,文件目錄,創建時間,權限副本數等。

  • DataNode

文件系統存儲文件塊數據,以及和數據塊ID的映射關系。

Yarn調度

負責資源管理和作業調度,將系統資源分配給在Hadoop集群中運行的各種應用程序,並調度要在不同集群節點上執行的任務。

MapReduce計算

MapReduce將計算過程分為兩個階段:Map階段並行處理輸入數據,Reduce階段對Map結果進行匯總。

三、大數據技術棧


大數據簡介,技術體系分類整理,深度剖析原理_後端

1、Kafka中間件


開源組織: Apache軟件

應用場景:

Kafka是一種高吞吐量的分布式發布訂閱消息系統,通過磁盤數據結構提供消息的持久化,這種結構對於即使數以TB的消息存儲也能够保持長時間的穩定性能。高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒數百萬的消息。支持通過Kafka服務器和消費機集群來分區消息。支持Hadoop並行數據加載。

2、Flume日志系統


開源組織: Cloudera公司

應用場景:

Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定制)的能力。

3、Sqoop同步工具


開源組織: Apache軟件

應用場景:

Sqoop是一款開源的工具,主要用於在Hadoop、Hive與傳統的數據庫例如:MySql間進行數據的傳遞,可以將一個關系型數據庫(例如:MySQL,Oracle 等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。

4、HBase數據庫


開源組織: Apache軟件

應用場景:

HBase是一個分布式的、面向列的開源數據庫,HBase在Hadoop之上提供了類似於Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系數據庫,它是一個適合於非結構化數據存儲的數據庫,並且基於列的而不是基於行的存儲模式。

5、Storm實時計算


開源組織: Apache軟件

應用場景:

Storm用於實時計算,對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。Storm相對簡單,可以與任何編程語言一起使用。

6、Spark計算引擎


開源組織: Apache軟件

應用場景:

Spark是專為大規模數據處理而設計的快速通用的計算引擎,擁有Hadoop的MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。Spark是在Scala 語言中實現的,它將Scala用作其應用程序框架。

7、R語言


開源組織: 微軟公司

應用場景:

R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計制圖的優秀工具。

8、Hive數倉工具


開源組織: 臉書公司

最後

一次偶然,從朋友那裏得到一份“java高分面試指南”,裏面涵蓋了25個分類的面試題以及詳細的解析:JavaOOP、Java集合/泛型、Java中的IO與NIO、Java反射、Java序列化、Java注解、多線程&並發、JVM、Mysql、Redis、Memcached、MongoDB、Spring、Spring Boot、Spring Cloud、RabbitMQ、Dubbo 、MyBatis 、ZooKeeper 、數據結構、算法、Elasticsearch 、Kafka 、微服務、Linux。

這不,馬上就要到招聘季了,很多朋友又開始准備“金三銀四”的春招啦,那我想這份“java高分面試指南”應該起到不小的作用,所以今天想給大家分享一下。

大數據簡介,技術體系分類整理,深度剖析原理_程序員_02

請注意:關於這份“java高分面試指南”,每一個方向專題(25個)的題目這裏幾乎都會列舉,在不看答案的情况下,大家可以自行測試一下水平 且由於篇幅原因,這邊無法展示所有完整的答案解析

 CodeChina開源項目:【一線大廠Java面試題解析+核心總結學習筆記+最新講解視頻】

版权声明:本文为[天天熬夜敲代碼]所创,转载请带上原文链接,感谢。 https://gsmany.com/2021/09/20210918031134309r.html