大數(shù)據(jù)教學(xué)項(xiàng)目案例
涵蓋運(yùn)營商、農(nóng)業(yè)、電商、輿情、體育、交通、航空、銀行、互聯(lián)網(wǎng)等行業(yè)
大數(shù)據(jù)行業(yè)應(yīng)用—運(yùn)營商服務(wù)平臺
項(xiàng)目描述:隨著通信行業(yè)的普及以及人們對網(wǎng)絡(luò)的需求越來越大,因此運(yùn)營商的在線服務(wù)需求劇增。對于客戶體驗(yàn)來說,電子渠道提供了一個(gè)足不出戶辦理業(yè)務(wù)的便捷方式,對于運(yùn)營商來說,電子渠道低成本分流了實(shí)體渠道的業(yè)務(wù)壓力中釋放出來。
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)采用模塊化設(shè)計(jì),分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)ETL模塊、結(jié)果展現(xiàn)模塊??啥嗑S度統(tǒng)計(jì)數(shù)據(jù)、投訴風(fēng)險(xiǎn)預(yù)測、區(qū)域服務(wù)效能監(jiān)控、實(shí)時(shí)展現(xiàn)故障區(qū)域位置及故障信息等。
大數(shù)據(jù)行業(yè)應(yīng)用—農(nóng)業(yè)大數(shù)據(jù)分析
項(xiàng)目描述:為了不斷推進(jìn)農(nóng)業(yè)經(jīng)濟(jì)的優(yōu)化,實(shí)現(xiàn)可持續(xù)的產(chǎn)業(yè)發(fā)展和區(qū)域產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化,進(jìn)一步推動(dòng)智慧農(nóng)業(yè)的建設(shè)進(jìn)程,需要全面及時(shí)掌握農(nóng)業(yè)的發(fā)展動(dòng)態(tài),這需要依托農(nóng)業(yè)大數(shù)據(jù)及相關(guān)大數(shù)據(jù)分析處理技術(shù),建設(shè)一個(gè)農(nóng)業(yè)大數(shù)據(jù)分析應(yīng)用平臺來支撐。
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)采用模塊化設(shè)計(jì),分為數(shù)據(jù)爬取模塊、數(shù)據(jù)存儲模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)計(jì)算模塊、數(shù)據(jù)可視化展現(xiàn)模塊。可實(shí)現(xiàn)區(qū)域行情、品種對比、價(jià)格預(yù)測、價(jià)格走勢等功能。
項(xiàng)目案例及指導(dǎo)手冊
項(xiàng)目源代碼及代碼注釋
項(xiàng)目案例數(shù)據(jù)
系統(tǒng)安裝部署文檔
大數(shù)據(jù)行業(yè)應(yīng)用—情感分析
項(xiàng)目描述:互聯(lián)網(wǎng)時(shí)代輿論觀點(diǎn)都散布在各種社交網(wǎng)絡(luò)平臺或新聞提要中。對于這種網(wǎng)上海量分布的數(shù)據(jù),可以挖掘各種重要信息,可以了解當(dāng)前的輿論導(dǎo)向以及支持自身做出一些重要性的決定等等,所以針對網(wǎng)絡(luò)社交平臺中海量數(shù)據(jù)的挖掘分析顯得尤為重要。
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)分為數(shù)據(jù)準(zhǔn)備模塊、文本轉(zhuǎn)換向量模塊、數(shù)據(jù)分詞模塊、可視化模塊、模型訓(xùn)練模塊、模型預(yù)測模塊、程序運(yùn)行模塊。通過從twitter數(shù)據(jù)中抽取有用信息,結(jié)合文本分析算法處理文本內(nèi)容,使用機(jī)器學(xué)習(xí)相關(guān)算法從訓(xùn)練數(shù)據(jù)集中訓(xùn)練出隨機(jī)森林模型,再使用模型針對測試數(shù)據(jù)集進(jìn)行預(yù)測分析,結(jié)合可視化組件直觀展示民意分布,即時(shí)了解輿情導(dǎo)向。
大數(shù)據(jù)行業(yè)應(yīng)用—生態(tài)環(huán)境數(shù)據(jù)分析
項(xiàng)目名稱:生態(tài)環(huán)境數(shù)據(jù)分析
通過對環(huán)境數(shù)據(jù)的分析,監(jiān)測出環(huán)境相關(guān)數(shù)據(jù)的變化、趨勢,最終直觀的將各分析結(jié)果也直觀的方式展現(xiàn)出來。
配備《實(shí)驗(yàn)手冊》《系統(tǒng)安裝部署文檔》項(xiàng)目源代碼及代碼注釋
大數(shù)據(jù)行業(yè)應(yīng)用—交通軌跡
項(xiàng)目描述:隨著各種打車軟件的發(fā)展,人們足不出戶就可以約車,本案例主要是來探究生活中存在的打車難的問題,這個(gè)問題限制了我們有些時(shí)間的出行,浪費(fèi)了我們的時(shí)間。在哪些地方容易打車,什么時(shí)候的車更容易搭乘,這是我們要著手解決的問題。
項(xiàng)目解決方案:本系統(tǒng)采用模塊化設(shè)計(jì),分為數(shù)據(jù)準(zhǔn)備, 解析csv數(shù)據(jù), 構(gòu)建特征向量,聚類模型訓(xùn)練,聚類模型測試, 分析預(yù)測結(jié)果,數(shù)據(jù)可視化。通過spark和機(jī)器學(xué)習(xí)算法等相關(guān)技能,對打車的現(xiàn)狀進(jìn)行分析,并最終用可視化的手段直觀的展示分析結(jié)果。為用戶提供決策支持。
大數(shù)據(jù)行業(yè)應(yīng)用—銀行貸款風(fēng)險(xiǎn)評估
項(xiàng)目名稱:銀行貸款風(fēng)險(xiǎn)評估案例
使用MLlib分析用戶數(shù)據(jù)對用戶做風(fēng)險(xiǎn)等級評估,給業(yè)務(wù)人員提供決策支持。
約15G數(shù)據(jù)、配備《實(shí)驗(yàn)手冊》《系統(tǒng)安裝部署文檔》及項(xiàng)目源代碼及代碼注釋
大數(shù)據(jù)行業(yè)應(yīng)用—搜索引擎構(gòu)建
項(xiàng)目描述:互聯(lián)網(wǎng)時(shí)代輿論觀點(diǎn)都散布在各種社交網(wǎng)絡(luò)平臺或新聞提要中。對于這種網(wǎng)上海量分布的數(shù)據(jù),可以挖掘各種重要信息,可以了解當(dāng)前的輿論導(dǎo)向以及支持自身做出一些重要性的決定等等,所以針對網(wǎng)絡(luò)社交平臺中海量數(shù)據(jù)的挖掘分析顯得尤為重要。
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)分為數(shù)據(jù)準(zhǔn)備模塊、文本轉(zhuǎn)換向量模塊、數(shù)據(jù)分詞模塊、可視化模塊、模型訓(xùn)練模塊、模型預(yù)測模塊、程序運(yùn)行模塊。通過從twitter數(shù)據(jù)中抽取有用信息,結(jié)合文本分析算法處理文本內(nèi)容,使用機(jī)器學(xué)習(xí)相關(guān)算法從訓(xùn)練數(shù)據(jù)集中訓(xùn)練出隨機(jī)森林模型,再使用模型針對測試數(shù)據(jù)集進(jìn)行預(yù)測分析,結(jié)合可視化組件直觀展示民意分布,即時(shí)了解輿情導(dǎo)向。
大數(shù)據(jù)行業(yè)應(yīng)用—線上競拍
項(xiàng)目描述:Ebay在國外很受歡迎,網(wǎng)民可以拍賣的形式出售和競價(jià)商品,但是并不是所有拍賣都可以成功,因此我們利用ebay的歷史數(shù)據(jù)使用機(jī)器學(xué)習(xí)方法訓(xùn)練模型并預(yù)測一項(xiàng)拍賣是否會成功,并預(yù)測成功交易的最終價(jià)格
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)采用模塊化設(shè)計(jì),分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲模塊、數(shù)據(jù)分析模塊、模型訓(xùn)練模塊、模型預(yù)測模塊。通過歷史數(shù)據(jù)利用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,找出商品所有特征項(xiàng)與拍賣成功與否的正負(fù)相關(guān)性,預(yù)測拍賣能否成功,并預(yù)測價(jià)格的準(zhǔn)確度。
大數(shù)據(jù)行業(yè)應(yīng)用—NBA賽事預(yù)測
項(xiàng)目描述:目前可以通過球隊(duì)的排名對比賽的結(jié)果進(jìn)行賽前估計(jì),但是這種猜測一般覺有不確定性。所以利用機(jī)器學(xué)習(xí)算法對球隊(duì)的以往表現(xiàn),以及對手的表現(xiàn)綜合各方面的因素做一個(gè)統(tǒng)計(jì),從中學(xué)習(xí)出某種規(guī)律,這樣我們就可以得到可靠性比較高的預(yù)測結(jié)果。
項(xiàng)目解決方案:本系統(tǒng)架構(gòu)采用模塊化設(shè)計(jì),分為數(shù)據(jù)獲取模塊、特征選擇模塊、數(shù)據(jù)分析模塊、模型訓(xùn)練模塊、模型預(yù)測模塊,程序運(yùn)行模塊等。通過從已有數(shù)據(jù)中抽取有用的信息并通過相應(yīng)算法,將球隊(duì)重新劃分等級,利用機(jī)器學(xué)習(xí)算法,從中學(xué)習(xí)出特有的規(guī)律預(yù)測比賽結(jié)果。
大數(shù)據(jù)行業(yè)應(yīng)用—航班線路
項(xiàng)目描述:飛機(jī)航班常因?yàn)樘鞖饣驒C(jī)場原因,導(dǎo)致航班的延誤甚至取消,該項(xiàng)目基于一批航班的歷史數(shù)據(jù)對航班的各種重要指標(biāo)做統(tǒng)計(jì)分析,如最繁忙航線、某機(jī)場起降最頻繁時(shí)段等;最后利用機(jī)器學(xué)習(xí),對航班延誤做預(yù)測,旅客可參考這些統(tǒng)計(jì)及預(yù)測結(jié)果調(diào)整行程安排。
項(xiàng)目解決方案:本案例使用Hadoop作為底層支持,其中HDFS提供底層存儲支持,Yarn提供集群中應(yīng)用的資源調(diào)度支持;Hive提供spark sql中的元數(shù)據(jù)訪問支持;spark core作為spark sql的核心支持。使用spark sql分析航空數(shù)據(jù)的一些指標(biāo)。