香港留學(xué)之?dāng)?shù)據(jù)崗位高頻面試題

  大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析早已成為能夠幫助管理者和企業(yè)做出正確決策的必備法寶.越來越多的企業(yè)在面對(duì)應(yīng)聘者時(shí),會(huì)優(yōu)先錄取既懂業(yè)務(wù)又懂?dāng)?shù)據(jù)的人才。

  如何處理可疑或缺失數(shù)據(jù)

  區(qū)別在于數(shù)據(jù)分析是針對(duì)個(gè)別屬性的實(shí)例分析,并提供值范圍,離散值及其頻率,空值發(fā)生,數(shù)據(jù)類型,長度等信息。而數(shù)據(jù)挖掘是重點(diǎn)關(guān)注聚類分析,異常記錄檢測(cè),依賴關(guān)系,序列發(fā)現(xiàn),多個(gè)屬性之間的關(guān)系控制等。

  如何處理可疑或缺失數(shù)據(jù)

  準(zhǔn)備提供所有可疑數(shù)據(jù)信息的驗(yàn)證報(bào)告。它應(yīng)該提供信息,如失敗的驗(yàn)證標(biāo)準(zhǔn)以及發(fā)生的日期和時(shí)間,有經(jīng)驗(yàn)的數(shù)據(jù)分析師應(yīng)該檢查可疑數(shù)據(jù)以確定其可接受性。應(yīng)該找出無效數(shù)據(jù)并用驗(yàn)證碼替換,對(duì)缺失數(shù)據(jù)進(jìn)行處理,使用最佳分析策略,如刪除,單一插補(bǔ)方法,基于模型的方法等。

  列出清理數(shù)據(jù)的最佳實(shí)踐

  首先按不同的屬性排序數(shù)據(jù),對(duì)于大數(shù)據(jù)集,逐步清理并改進(jìn)數(shù)據(jù),直到獲得良好的數(shù)據(jù)質(zhì)量;對(duì)大型數(shù)據(jù)集,可以先將其分解為小數(shù)據(jù)集,使用更少的數(shù)據(jù)將增加迭代速度。

  要處理常見的清理任務(wù),請(qǐng)創(chuàng)建一組實(shí)用程序函數(shù)/工具/腳本。它可能包括基于CSV文件或SQL數(shù)據(jù)庫重映射值,或者正則表達(dá)式搜索和替換,消除所有不匹配正則表達(dá)式的值。最后分析每列的匯總統(tǒng)計(jì)數(shù)據(jù)(標(biāo)準(zhǔn)差,均值,缺失值的數(shù)量)。

留學(xué)活動(dòng)報(bào)名中
免責(zé)聲明
1、文章部分內(nèi)容來源于百度等常用搜索引擎,我方非相關(guān)內(nèi)容的原創(chuàng)作者,也不對(duì)相關(guān)內(nèi)容享有任何權(quán)利 ;部分文章未能與原作者或來源媒體聯(lián)系若涉及版權(quán)問題,請(qǐng)?jiān)髡呋騺碓疵襟w聯(lián)系我們及時(shí)刪除;
2、我方重申:所有轉(zhuǎn)載的文章、圖片、音頻視頻文件等資料知識(shí)產(chǎn)權(quán)歸該權(quán)利人所有,但因技術(shù)能力有限無法查得知識(shí)產(chǎn)權(quán)來源而無法直接與版權(quán)人聯(lián)系授權(quán)事宜,若轉(zhuǎn)載內(nèi)容可能存在引用不當(dāng)或版權(quán)爭議因素,請(qǐng)相關(guān)權(quán)利方及時(shí)通知我們,以便我方迅速刪除相關(guān)圖文內(nèi)容,避免給雙方造成不必要的損失;
3、因文章中文字和圖片之間亦無必然聯(lián)系,僅供讀者參考 。未盡事宜請(qǐng)搜索"立思辰留學(xué)"關(guān)注微信公眾號(hào),留言即可。
聯(lián)系我們