在計算機中,根據組織數據時與數據“有聯系”的參數的數量,數據可分為不同的維度,本節將對數據維度(不同維度數據格式相互轉換)相關的知識進行講解。 查看全文>>
Python+大數據技術文章2022-09-13 |傳智教育 |一維數據,二維數據,多維數據,數據維度的劃分
計算機擅長接受指令,但不能識別人類的語言,人類為保證計算機可以準確地執行指定的命令,需要使用計算機語言向計算機發送指令。計算機語言是用于編寫計算機指令,即編寫程序的語言,其本質是根據事先定義的規則編寫的預定語句的集合。計算機語言分為3類:機器語言、匯編語言和高級語言... 查看全文>>
Python+大數據技術文章2022-09-13 |傳智教育 |機器語言,編匯語言和高級語言
隨著互聯網信息的“爆炸”,網絡爬蟲漸漸為人們所熟知,并被應用到了社會生活的眾多領域。作為一種自動采集網頁數據的技術,很多人其實并不清楚網絡爬蟲具體能應用到什么場景。事實上,大多數依賴數據支撐的應用場景都離不開網絡爬蟲,包括搜索引擎、輿情分析與監測、聚合平臺、出行類軟件等。 查看全文>>
Python+大數據技術文章2022-09-07 |傳智教育 |爬蟲的應用場景
MySQL外鍵約束(FOREIGN KEY)是表的一個特殊字段,經常與主鍵約束一起使用。對于兩個具有關聯關系的表而言,相關聯字段中主鍵所在的表就是主表(父表),外鍵所在的表就是從表(子表)。 查看全文>>
Python+大數據技術文章2022-09-06 |傳智教育 |什么是外鍵約束,創建外鍵約束,外鍵多表操作
有時候我們會碰到這樣的需求,例如,將有關年齡的數據進行離散化(分桶)或拆分為“面元”,直白來說,就是將年齡分成幾個區間。Pandas的cut()函數能夠實現離散化操作,該函數的語法格式如下... 查看全文>>
Python+大數據技術文章2022-09-01 |傳智教育 |離散化連續數據,數據預處理
數據清洗的基本流程一共分為5個步驟,分別是數據分析、定義數據清洗的策略和規則、搜尋并確定錯誤實例、糾正發現的錯誤以及干凈數據回流。下面通過一張圖描述數據清洗的基本流程,具體如圖所示。 查看全文>>
Python+大數據技術文章2022-08-30 |傳智教育 |數據清洗的基本流程
在項目的正常開發過程中,之前發布過的版本可能很會出bug,這時就需要停下來現在的開發任務,先去修改bug,完成后再回來繼續開發任務Git中stash提供了保存現場的功能,可以把當前工作區、暫存區中的內容不需要提交而保存下來,轉而去做bug修復,完成后再恢復現場,繼續開發工作。 查看全文>>
Python+大數據技術文章2022-08-30 |傳智教育 |創建Debug分支
由于缺乏或者不準確的數據統計信息(元數據)和對成本的錯誤估算(執行計劃調度)導致生成的初始執行計劃不理想在Spark3.x版本提供Adaptive Query Execution自適應查詢技術通過在”運行時”對查詢執行計劃進行優化, 允許Planner在運行時執行可選計劃,這些可選計劃將會基于運行時數據統計進行動態優化, 從而提高性能。 查看全文>>
Python+大數據技術文章2022-08-30 |傳智教育 |自適應查詢技術,Spark3.x版本新特性