大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析早已成為能夠幫助管理者和企業(yè)做出正確決策的必備法寶.越來越多的企業(yè)在面對(duì)應(yīng)聘者時(shí),會(huì)優(yōu)先錄取既懂業(yè)務(wù)又懂?dāng)?shù)據(jù)的人才。
如何處理可疑或缺失數(shù)據(jù)
區(qū)別在于數(shù)據(jù)分析是針對(duì)個(gè)別屬性的實(shí)例分析,并提供值范圍,離散值及其頻率,空值發(fā)生,數(shù)據(jù)類型,長度等信息。而數(shù)據(jù)挖掘是重點(diǎn)關(guān)注聚類分析,異常記錄檢測(cè),依賴關(guān)系,序列發(fā)現(xiàn),多個(gè)屬性之間的關(guān)系控制等。
如何處理可疑或缺失數(shù)據(jù)
準(zhǔn)備提供所有可疑數(shù)據(jù)信息的驗(yàn)證報(bào)告。它應(yīng)該提供信息,如失敗的驗(yàn)證標(biāo)準(zhǔn)以及發(fā)生的日期和時(shí)間,有經(jīng)驗(yàn)的數(shù)據(jù)分析師應(yīng)該檢查可疑數(shù)據(jù)以確定其可接受性。應(yīng)該找出無效數(shù)據(jù)并用驗(yàn)證碼替換,對(duì)缺失數(shù)據(jù)進(jìn)行處理,使用最佳分析策略,如刪除,單一插補(bǔ)方法,基于模型的方法等。
列出清理數(shù)據(jù)的最佳實(shí)踐
首先按不同的屬性排序數(shù)據(jù),對(duì)于大數(shù)據(jù)集,逐步清理并改進(jìn)數(shù)據(jù),直到獲得良好的數(shù)據(jù)質(zhì)量;對(duì)大型數(shù)據(jù)集,可以先將其分解為小數(shù)據(jù)集,使用更少的數(shù)據(jù)將增加迭代速度。
要處理常見的清理任務(wù),請(qǐng)創(chuàng)建一組實(shí)用程序函數(shù)/工具/腳本。它可能包括基于CSV文件或SQL數(shù)據(jù)庫重映射值,或者正則表達(dá)式搜索和替換,消除所有不匹配正則表達(dá)式的值。最后分析每列的匯總統(tǒng)計(jì)數(shù)據(jù)(標(biāo)準(zhǔn)差,均值,缺失值的數(shù)量)。