日本午夜免费一区二区,亚洲麻豆一区,国产伦精品一区二区三区千人斩,日韩高清电影一区

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

數(shù)據(jù)挖掘方法論—企業(yè)數(shù)據(jù)挖掘成功之道(方法篇)

2019-05-24 16:34:29
在過去幾年,隨著信息化技術(shù)的高速發(fā)展,數(shù)據(jù)逐漸變?yōu)槠髽I(yè)最有價值的戰(zhàn)略資產(chǎn),人們迫切希望能夠從數(shù)據(jù)中發(fā)掘價值和探索規(guī)律,以便為企業(yè)在研發(fā)、生產(chǎn)、營銷、管理、運維等各個環(huán)節(jié)遇到的問題提供新的解決思路,用數(shù)字化戰(zhàn)略為企業(yè)賦能。

為什么需要一個數(shù)據(jù)挖掘方法論?
要實現(xiàn)對數(shù)據(jù)價值的深度發(fā)掘,數(shù)據(jù)挖掘技術(shù)無疑是最有效的手段之一。對于企業(yè)來說,要開展數(shù)據(jù)挖掘項目,就必須要了解數(shù)據(jù)挖掘項目是區(qū)別于傳統(tǒng)的軟件開發(fā)類項目,其呈現(xiàn)出復(fù)雜性高、周期長、不確定高等特點,特別是不確定性高,是其最典型的特點,主要體現(xiàn)在數(shù)據(jù)的不確定性、結(jié)果的不確定性和方案的不確性等方面,這樣就導(dǎo)致整個數(shù)據(jù)挖掘項目管控難度高,因此一個行之有效的數(shù)據(jù)挖掘方法論(明確的流程模型)是非常有必要的。
數(shù)據(jù)挖掘方法論

行業(yè)數(shù)據(jù)挖掘方法論都有哪些?
長期以來,隨著數(shù)據(jù)挖掘市場的發(fā)展和成熟,由不同的組織機構(gòu)提出過很多的方法論,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是應(yīng)用最為廣泛。CRISP-DM (cross-industry standard process for data mining),即為“跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)"。此KDD過程模型于1999年歐盟機構(gòu)聯(lián)合起草. 通過近幾年的發(fā)展,CRISP-DM 模型在各種KDD過程模型中占據(jù)領(lǐng)先位置,采用量達到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于數(shù)據(jù)挖掘的建模過程,與SAS的EM工具進行整合,其模型管理部署部分則體現(xiàn)在另外的工具套件中。CRISP-DM是從一個數(shù)據(jù)挖掘項目執(zhí)行的角度談方法論,CRISP- DM的考慮的范圍比SEMMA 要大。CRISP-DM強調(diào),數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計建模,而是一個從理解業(yè)務(wù)需求、尋求解決方案到接受實踐檢驗的完整過程。因此,從一個項目的管理實施完整流程來說,CRISP-DM更適用一些,本文后續(xù)主要以CRISP-DM為主進行詳細介紹。


行業(yè)數(shù)據(jù)挖掘

CRISP- DM方法論
CRISP-DM方法論將一個數(shù)據(jù)挖掘項目的生命周期分為六個階段,其中包括業(yè)務(wù)理解(business understanding),數(shù)據(jù)理解 (data understanding),數(shù)據(jù)準(zhǔn)備(data preparation),建立模型(modeling),評估模型(evaluation)和結(jié)果部署(deployment)。這六個階段的順序是不固定的,我們經(jīng)常需要前后調(diào)整這些階段。這依賴每個階段或是階段中特定任務(wù)的產(chǎn)出物是否是下一個階段必須的輸入。圖中箭頭指出了最重要的和依賴度高的階段關(guān)系。
CRISP- DM方法論
階段一:業(yè)務(wù)理解(business understanding)
業(yè)務(wù)理解,指從業(yè)務(wù)角度來理解項目目標(biāo)和要求,接著把這些理解知識轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實現(xiàn)目標(biāo)的最初規(guī)劃。
數(shù)據(jù)挖掘-業(yè)務(wù)理解

在這個階段,主要通過業(yè)務(wù)需求調(diào)研,明確要解決的業(yè)務(wù)問題,如果業(yè)務(wù)問題一開始不明確,就需要從整個企業(yè)的內(nèi)部不同業(yè)務(wù)板塊(如營銷、生產(chǎn)、管理等)或從企業(yè)與上下游產(chǎn)業(yè)鏈之間的關(guān)系來切入與業(yè)務(wù)專家進行研討,形成分析主題庫,同時需要對每個業(yè)務(wù)問題的產(chǎn)生背景、業(yè)務(wù)流程、業(yè)務(wù)價值、傳統(tǒng)解決方法及效果、相關(guān)數(shù)據(jù)資源、涉及哪些部門及領(lǐng)導(dǎo)等內(nèi)容,調(diào)研一定要充分,基于這些調(diào)研內(nèi)容可以對于主題庫中的分析主題從可行性、價值性、難易度等多方面進行衡量,為分析主題開展的優(yōu)先級提供指導(dǎo)。業(yè)務(wù)目標(biāo)確定后,一方面需要從業(yè)務(wù)角度確定成功的標(biāo)準(zhǔn),這個有利于最后判定結(jié)果的有效性和價值性,另一方面也需要確定數(shù)據(jù)挖掘目標(biāo)、初步方案和成功標(biāo)準(zhǔn),在成功標(biāo)準(zhǔn)度量指標(biāo)這里需要結(jié)合當(dāng)前傳統(tǒng)方式的效果和歷史建模經(jīng)驗綜合來確定,同時也必須要保障該標(biāo)準(zhǔn)具備可驗證性,這也是最后保障項目驗收成功的重要依據(jù),很多項目最終失敗,都是忽略了這個環(huán)節(jié),一定要慎重。

階段二:數(shù)據(jù)理解 (data understanding)
數(shù)據(jù)理解,指從數(shù)據(jù)收集開始,然后接著是一系列活動,這些活動的目的是:熟悉數(shù)據(jù),甄別數(shù)據(jù)質(zhì)量問題、發(fā)現(xiàn)對數(shù)據(jù)的真知灼見、或者探索出令人感興趣的數(shù)據(jù)子集并形成對隱藏信息的假設(shè)。
數(shù)據(jù)挖掘-數(shù)據(jù)理解

在這個階段,主要的工作就是基于業(yè)務(wù)理解階段梳理的數(shù)據(jù)需求,收集原始數(shù)據(jù),同時對于數(shù)據(jù)的數(shù)據(jù)量(維度和樣本大小)、數(shù)據(jù)的質(zhì)量(缺失值、異常值、不一致性等),數(shù)據(jù)的分布規(guī)律(各種統(tǒng)計指標(biāo))等進行初步探索,初步判斷該數(shù)據(jù)是否具備初步分析的可行性,形成一份數(shù)據(jù)質(zhì)量分析報告。同時對于預(yù)測性問題,如分類、回歸等問題,需要明確目標(biāo)變量,很多目標(biāo)變量可以不是通過單一變量直接獲取,需要通過多個變量結(jié)合業(yè)務(wù)進行確定,如確定一個用戶是否是欠費用戶,則需要從欠費次數(shù)和欠費金額兩個維度確定欠費用戶的判定規(guī)則,規(guī)則定義的嚴(yán)苛程度,需要與建模的正負樣本分布、業(yè)務(wù)的認(rèn)可度、數(shù)據(jù)的分布等多個方面綜合制定。

階段三:數(shù)據(jù)準(zhǔn)備(data preparation)
數(shù)據(jù)準(zhǔn)備,指從最初原始數(shù)據(jù)構(gòu)建最終建模數(shù)據(jù)的全部活動。數(shù)據(jù)準(zhǔn)備很可能被執(zhí)行多次并且不以任何既定的秩序進行。包括為建模工作準(zhǔn)備數(shù)據(jù)的選擇、轉(zhuǎn)換、清洗、構(gòu)造、整合及格式化等多種數(shù)據(jù)預(yù)處理工作。
數(shù)據(jù)挖掘-數(shù)據(jù)準(zhǔn)備

在這個階段,最終目標(biāo)是要基于業(yè)務(wù)理解階段的建模方案構(gòu)建建模所需的寬表,即將多個表信息進行整合,包括表之間的聯(lián)接,明細數(shù)據(jù)的匯總加工等,同時在過程中需要對于數(shù)據(jù)的質(zhì)量問題(包括缺失值、異常值等)進行處理;對數(shù)據(jù)的字段進行變換,如規(guī)范化和標(biāo)準(zhǔn)化,或都將數(shù)據(jù)進行映射變換,如Log變化,數(shù)值型按區(qū)間轉(zhuǎn)換成名詞型字段等多種加工策略;在特征工程這里,一方面需要從業(yè)務(wù)角度加工新的計算指標(biāo),另一方面需要進行自動特征構(gòu)建、特征選擇、特征降維等方面的工作,來提升模型的性能。數(shù)據(jù)準(zhǔn)備階段的工作,經(jīng)常會隨著模型性能的評估結(jié)果進行反復(fù)調(diào)整和優(yōu)化,以便為建模提供更高質(zhì)量的數(shù)據(jù)。

階段四:建立模型(modeling)
建立模型,指選擇和使用各種建模技術(shù),并對其參數(shù)進行調(diào)優(yōu)。一般地,相同數(shù)據(jù)挖掘問題類型會有幾種技術(shù)手段。某些技術(shù)對于數(shù)據(jù)形式有特殊規(guī)定,這通常需要重新返回到數(shù)據(jù)準(zhǔn)備階段。
數(shù)據(jù)挖掘建模

在這個階段,主要基于業(yè)務(wù)理解階段確定的建模方案,選擇相應(yīng)的建模算法,開始建模和評估模型。這個階段在建模算法的選擇方面,需要注意兩個問題,一是算法和參數(shù)的選擇上,可以按照經(jīng)常選擇常用的方法和參數(shù)來調(diào)試,也可以使用自動學(xué)習(xí)類的方法,如自動擇參/分類/回歸/聚類/時序等方面,來自動選擇算法和參數(shù),降低在這個階段的嘗試成本,提升效率。二是需要結(jié)合建模的精度,對于建模方案進行優(yōu)化,最為典型的就是開始定位為某一類數(shù)據(jù)挖掘問題,可以轉(zhuǎn)換成另一類數(shù)據(jù)挖掘問題的方式來解決,如回歸問題,可以轉(zhuǎn)換成分類問題來解決,當(dāng)然前提是對于數(shù)值預(yù)測的單值準(zhǔn)確性要求不高。時序問題,可以轉(zhuǎn)換成回歸問題來解決等方面,這個更依賴于個人的建模經(jīng)驗。

階段五:評估模型(evaluation)
評估模型,指在此階段,需要從技術(shù)層面判斷模型效果以及從業(yè)務(wù)層面判斷模型在實際商業(yè)環(huán)境當(dāng)中的實用性。
數(shù)據(jù)挖掘模型評估

在這個階段,已經(jīng)從建立模型階段獲取了從理論上性能表現(xiàn)更好的模型,需要結(jié)合業(yè)務(wù)階段確定的數(shù)據(jù)挖掘模型的成功標(biāo)準(zhǔn),回歸到實際業(yè)務(wù)中進行模型性能的實測,可以采用A/B測試的方案進行評測。這個階段的工作,是需要有相關(guān)的業(yè)務(wù)部讓或營銷部來來配合的,所以需要提前在項目計劃中確定需要協(xié)調(diào)的資源和評測的方案,評測的對比方案一定要得到客戶方認(rèn)可才行,以便降低反復(fù)評測的風(fēng)險。

階段六:結(jié)果部署(deployment)
結(jié)果部署,指將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式或?qū)⒛P瓦M行工程化封裝滿足業(yè)務(wù)系統(tǒng)使用需求。
數(shù)據(jù)挖掘結(jié)果部署

在這個階段,已經(jīng)得到的理論和實際驗證后的模型,需要將模型的成果書面化,從六個階段進行總結(jié),形成數(shù)據(jù)分析報告,在這個過程中,也是對整個分析流程的再度審查,保障模型成果的真實性和準(zhǔn)確性。如果涉及到工程化應(yīng)用,還需要將模型發(fā)布成不同方式(調(diào)度、同步/異步服務(wù)API、實時服務(wù)等),供其它業(yè)務(wù)系統(tǒng)進行整合,形成最終的決策應(yīng)用系統(tǒng),指導(dǎo)實際業(yè)務(wù)的開展。最后,對于模型上線后的性能需要定期進行監(jiān)測,以便后期對于模型性能進行持續(xù)性的優(yōu)化工作。

以上,是我結(jié)合個人實際項目經(jīng)驗對于數(shù)據(jù)挖掘項目實施方法論的理解與總結(jié),希望能給企業(yè)決策者、數(shù)據(jù)分析師和項目管理人員有一定的啟發(fā)和收獲,最后,我想強調(diào)的一點是,數(shù)據(jù)挖掘項目的特點決定了它是有失敗的風(fēng)險的,方法論可以降低的項目失敗的風(fēng)險,但我們必須要正確看待失敗,因為項目的探索過程中沉淀的知識和成果是對于企業(yè)來說是也非常寶貴的,因此從企業(yè)的管理層來說,必須要有足夠的耐心和信心對于這類項目以足夠支持。
 

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860-
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢
日本午夜免费一区二区,亚洲麻豆一区,国产伦精品一区二区三区千人斩,日韩高清电影一区
成人片免费看| 欧美亚洲网站| 人人草在线视频| 高潮一区二区| 久久天堂成人| 午夜亚洲福利在线老司机| 亚洲丝袜啪啪| 国产日韩欧美一区二区三区| 久久爱www成人| 国产精品久久久一区二区| 国产精品久久久久久久免费软件 | 午夜在线视频观看日韩17c| 免费在线欧美视频| 深夜福利亚洲| 久久不见久久见中文字幕免费 | 麻豆精品国产91久久久久久| 久久久久观看| 日韩专区精品| 欧美日韩一二三四| 五月天激情综合网| 日韩一区二区三区免费视频| 国产精品宾馆| 欧美精品日日操| 亚洲综合国产| 日韩av网站在线观看| 久久精品女人| 亚洲调教视频在线观看| 老牛影视一区二区三区| 欧美日一区二区在线观看| 成人午夜亚洲| 视频一区在线视频| 麻豆精品国产91久久久久久| 欧美99久久| 亚州精品视频| 久久久久久色| 樱桃视频成人在线观看| 99国产精品久久久久久久| 日韩av在线播放中文字幕| 91亚洲人成网污www| 红桃视频亚洲| 国产精品美女在线观看直播| 久久久国产亚洲精品| 日韩三级精品| av综合电影网站| 亚洲精品日本| 国产精品国产三级国产在线观看| 一区免费视频| 久久影视三级福利片| 亚洲高清av| 国产日产一区| 99国产精品| 精品国产不卡| 男女性色大片免费观看一区二区| 国产成人精品999在线观看| 鲁大师成人一区二区三区| 福利一区二区| 日韩av一区二区三区| 蜜桃精品在线| 欧美一级全黄| 91精品国产自产在线观看永久∴ | 国产精品99免费看| 国产日本久久| 亚洲激情五月| 国际精品欧美精品| 日韩在线观看中文字幕| 日韩不卡在线| 国产精品欧美一区二区三区不卡| 亚洲精品电影| 国产精品国产三级国产在线观看| 亚洲精品大片| 亚洲精品在线观看91| 日韩.com| 国产欧美日韩精品一区二区三区| 日韩视频二区| 欧美aa在线观看| 欧美啪啪一区| 久久不射中文字幕| 国产精品99一区二区| 日本精品黄色| 国产福利一区二区精品秒拍| 亚洲天堂日韩在线| 免费精品国产| 天堂√中文最新版在线| 国产精品久久久久久久久久久久久久久| 国产亚洲福利| 99久久精品费精品国产| 国产66精品| 鲁大师精品99久久久| 日韩中文字幕| 蘑菇福利视频一区播放| 欧美一区二区三区高清视频| 久久久国产精品入口麻豆| 日韩1区2区3区| 伊人久久一区| 视频一区二区中文字幕| 免费观看久久av| 久久久久国产| 秋霞国产精品| 欧美日韩视频网站| 亚洲精品在线影院| 国产不卡人人| 最近高清中文在线字幕在线观看1| 国产精品三级| 国产亚洲一区二区三区不卡| 婷婷成人av| 日本欧美在线看| 蘑菇福利视频一区播放| 中文国产一区| 精品中文字幕一区二区三区av| 麻豆精品蜜桃视频网站| 国产麻豆一区二区三区精品视频| 日韩欧美四区| 日本一区二区中文字幕| 日韩精品五月天| 日韩高清在线一区| 欧美另类中文字幕 | 国产在线一区不卡| 欧美国产三级| 国产精品嫩草影院在线看| 欧美视频久久| 久久久91麻豆精品国产一区| 毛片不卡一区二区| 国产一区二区三区黄网站| 国产福利片在线观看| 岛国av在线网站| 日韩在线免费| 免费毛片在线不卡| 一本色道精品久久一区二区三区| 久久av一区二区三区| 少妇精品在线| 国产精品1区| 91视频久久| 国内精品99| 爽爽淫人综合网网站| 亚洲精品影院在线观看| 国产精一区二区| 岛国av在线网站| 亚洲精品99| 深夜福利亚洲| 欧美激情亚洲| 欧美sss在线视频| 麻豆成人在线| 欧美日本不卡| 成人片免费看| 亚洲综合不卡| 国产日产一区| 一区二区精品伦理...| 亚洲电影在线| 免费久久99精品国产| 日韩 欧美一区二区三区| 国产精品亚洲片在线播放| 欧美www视频在线观看| 亚洲婷婷在线| 日韩精品久久久久久久软件91| 国产精品超碰| 久久久久免费av| 亚洲伊人影院| 免费在线亚洲欧美| 亚洲成人不卡| 亚洲五月综合| 国产一区丝袜| 久久亚洲图片| 精品一区二区三区视频在线播放| 免费观看亚洲| 亚洲一区av| 国产成人黄色| 日本欧美在线看| 成人精品高清在线视频| 另类av一区二区| 狠狠久久伊人| 免费人成黄页网站在线一区二区| 国产精品18| 91精品高清| 国产精品99久久免费观看| 欧美午夜精彩| 国产精品伊人| 精品在线99| 免费在线亚洲| 国产精品日本欧美一区二区三区| 欧美日韩xxxx| 亚洲一级网站| 国产精品一区二区免费福利视频| 久久婷婷亚洲| 国产欧美久久一区二区三区| 久久蜜桃av| 麻豆精品蜜桃视频网站| 久久高清一区| 欧美天堂视频| 国产日韩欧美中文在线| 一区免费在线| 9999国产精品| 久久国产免费看| 亚洲免费成人| 国产精品毛片一区二区在线看| 综合色就爱涩涩涩综合婷婷| 日韩免费高清| 欧美日韩视频免费看| 最新日韩欧美| 日韩免费视频| 国产乱人伦精品一区|