教育行業A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

什么是有界數據集?什么是無界數據流?

更新時間:2022年11月15日17時47分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

有界數據集指的是有明確的開始和明確的結束的數據,例如JSON文件、CSV文件、TXT文件、MySQL表格、Excel表格都是有界數據集,當你用它的時候,有明確的數據開始和明確的數據結束。對有界數據集的處理,從開始就是明確了范圍的。我們將這種處理稱為批處理,同時數據有邊界時(不會再產生新的數據)的計算,稱之為離線計算。

無界數據是有明確的開始,但沒有明確的結束的數據,有源源不斷的數據進來等待被處理。有明確的開始,沒有明確的結束,這樣的數據我們稱為數據流,那有哪些無界數據流呢?

- Kafka

Kafka中的topic的某個分區可以算是無界數據流。

- 數據有明確的開始:offset從0開始

- 沒有明確的結束:offset最大是多少?不知道,來一條數據加一個

對消費者來說:

- 數據的開始起于:消費者啟動的那一刻

- 數據的結束起于:不確定啥時候結束,有數據就繼續干活,沒數據就等待數據

> 無界數據流的處理,由于沒有明確的結束點,一般稱之為:流(源源不斷)計算

> 又是因為數據會源源不斷的到來的特性,所以不能斷網,不能叫離線計算,也稱之為:在線計算、實時計算

> 批處理:從運行的那一刻開始,就一定會結束(正常情況)

> 流計算:從運行的那一刻開始,就沒想過結束(正常情況、報錯宕機不考慮)

0 分享到:
和我們在線交談!
国产免费观看黄A片又黄又硬