課程(cheng)描述INTRODUCTION
Python實現大數據挖掘技術培訓
日(ri)程安排SCHEDULE
課程大綱Syllabus
Python實現大數據挖掘技術培訓
【課程目標】
Python已經成為數據分析和數據挖掘的*語言,作為除了Java、C/C++/C#外*的語言。
本課程基于Python工具來實(shi)現大數(shu)據(ju)(ju)(ju)的(de)數(shu)據(ju)(ju)(ju)分(fen)析和數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue)項(xiang)目。基于業(ye)務問題,在數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue)標準(zhun)過程指導下,采用(yong)Python分(fen)析工具,實(shi)現數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue)項(xiang)目的(de)每一步操作(zuo),從數(shu)據(ju)(ju)(ju)預處(chu)理、數(shu)據(ju)(ju)(ju)建(jian)模、數(shu)據(ju)(ju)(ju)可視(shi)化(hua),到最(zui)終數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue)結束,幫助(zhu)學(xue)員掌(zhang)握Python用(yong)于數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue),提升學(xue)員的(de)數(shu)據(ju)(ju)(ju)化(hua)運營及(ji)數(shu)據(ju)(ju)(ju)挖(wa)(wa)(wa)掘(jue)(jue)的(de)能力。
通過本課程的學習,達到如下目的:
1、全面掌握Python語言以及其編程思想。
2、掌握常用擴展庫的使用,特別是數據挖掘相關庫的使用。
3、學會使用Python完成數據挖掘項目整個過程。
4、掌握利用Python實現可視化呈現。
5、掌握(wo)數據挖掘(jue)常(chang)見算法在Python中的實現。
【授課時間】2~5天時間
(全部模塊講完需要5天時間,可以根據時間需求拆分內容模塊)。
【授課對象】業(ye)務支持部、IT系統部、大數據系統開發部、大數據分析中心(xin)、網絡運維部等(deng)相(xiang)關(guan)技術人員。
【學員要求】
課程為實戰課程,要求:
1、每個學員自備一臺便攜機(必須)。
2、便攜機中事先安裝好Python 3.6版本及以上。
注:講師現(xian)場(chang)提供開源(yuan)的安裝程序、擴展(zhan)庫,以及現(xian)場(chang)分析(xi)的數據源(yuan)。
【授課方式】
語言基礎 + 挖掘模型 + 案例演練 + 開發實踐 + 可視化呈現
采用互動(dong)式教學,圍繞(rao)業務問題,展開數據分(fen)析過程(cheng)(cheng),全過程(cheng)(cheng)演練操作(zuo),讓學員在(zai)分(fen)析、分(fen)享(xiang)、講授、總結、自我實踐(jian)過程(cheng)(cheng)中獲得能(neng)力提升(sheng)。
【課程大綱】
第一部分:Python語言基礎
目的:掌握基本的Python編程思想與編程語句,熟悉常用數據結構的操作
1、Python簡介
2、開發環境搭建
.Python的安裝
.擴展庫的安裝
3、掌握Python的簡單數據類型
. 字符串的使用及操作
.整數、浮點數
4、掌握基本語句:
.if、while、for、print等
.基本運算:
.函數定(ding)義(yi)、參數傳(chuan)遞(di)、返(fan)回值(zhi)
5、掌握復雜的數據類型:列表/元組
.列表操作:訪問、添加、修改、刪除、排序
.列表切片、復制等
.列表相關的函數、方法
.元組的應用
6、復雜數據類型:字典
.創建、訪問、修改、刪除、遍歷
.字典函數和方法
7、復雜數據類型:集合
8、掌握面向對象編程思想
.創建類、繼承類
.模塊
9、函數定義、參數傳遞、返回值
10、標準庫與擴展庫的導入
11、異常處理:try-except塊
演(yan)練:基本的(de)Python編程(cheng)語句
第二部分:Python擴展庫
目的:掌握數據集結構及基本處理方法,進一步鞏固Python語言
1、數據挖掘常用擴展庫介紹
.Numpy數組處理支持
.Scipy矩陣計算模塊
.Matplotlib數據可視化工具庫
.Pandas數據分析和探索工具
.StatsModels統計建模庫
.Scikit-Learn機器學習庫
.Keras深度學習(神經網絡)庫
.Gensim文本挖掘庫
2、數據集讀取與操作:讀取、寫入
.讀寫文本文件
.讀寫CSV文件
.讀寫Excel文件
.從數據庫獲取數據集
3、數據集的核心數據結構(Pandas數據結構)
.Dataframe對象及處理方法
.Series對象及處理方法
演練:用Python實現(xian)數據(ju)的基本統計分析功能
第三部分:數據可視化處理
目的:掌握作圖擴展庫,實現數據可視化
1、常用的Python作圖庫
.Matplotlib庫
.Pygal庫
2、實現分類匯總
演練:按性別統計用戶人數
演練:按產品+日期統計各產品銷售金額
3、各種圖形的畫法
.直方圖
.餅圖
.折線圖
.散點圖
4、繪圖的美化技巧
演(yan)練:用Python庫作圖來實(shi)現(xian)產品銷量分析,并(bing)可視化(hua)
第四部分:數據理解和數據準備
目的:掌握數據預處理的基本環節,以及Python的實現
1、數據預處理
.異常值處理:3σ準則,IQR準則
.缺失值插補:均值、拉格朗日插補
.數據篩選/抽樣
.數據的離散化處理
.變量變換、變量派生
2、數據的基本分析
.相關分析:原理、公式、應用
.方差分析:原理、公式、應用
.卡方分析:原理、公式、應用
.主成分分析:降維
案例:用Python實現數據預處(chu)理及(ji)數據準備
第五部分:分類預測模型實戰
1、常見分類預測的模型與算法
2、如何評估分類預測模型的質量
.查準率
.查全率
.ROC曲線
3、邏輯回歸分析模型
.邏輯回歸的原理
.邏輯回歸建模的步驟
.邏輯回歸結果解讀
案例:用sklearn庫實現銀行貸款違約預測
4、決策樹模型
.決策樹分類的原理
.決策樹的三個關鍵問題
.決策樹算法與實現
案(an)例:電(dian)力竊漏用戶自動識(shi)別
5、決策樹算法
.最優屬性選擇算法:ID3、ID4.0、ID5.0
.連續變量分割算法
.樹剪枝:預剪枝、后剪枝
6、人工神經網絡模型(ANN)
.神經網絡概述
.神經元工作原理
.常見神經網絡算法(BP、LM、RBF、FNN等)
案例:神經網絡預測產品銷量
7、支持向量機(SVM)
.SVM基本原理
.維災難與核心函數
案例:基于水質圖像的水質評價
8、貝葉斯分析
.條件概率
.常見貝葉(xie)斯網(wang)絡(luo)
第六部分:數值預測模型實戰
1、常用數值預測的模型
.通用預測模型:回歸模型
.季節性預測模型:相加、相乘模型
.新產品預測模型:珀爾曲線與龔鉑茲曲線
2、回歸分析概念
3、常見回歸分析類別
4、回歸分析常見算法
.梯度上升/下降法
.普通最小二乘法OLS
.局部加權線性回歸LWLR
.嶺回歸(RR)
.套索回歸Lasso
.ElasticNet回歸
第七部分:聚類分析(客戶細分)實戰
1、客戶細分常用方法
2、聚類分析(Clustering)
.聚類方法原理介紹及適用場景
.常用聚類分析算法
.聚類算法的評價
案例:使用SKLearn實現K均值聚類
案例:使用TSNE實現聚類可視化
3、RFM模型分析
.RFM模型,更深入了解你的客戶價值
.RFM模型與市場策略
案(an)例:航(hang)空公(gong)司客戶價值分析
第八部分:關聯規則分析實戰
1、關聯規則概述
2、常用關聯規則算法
.Apriori算法
.發現頻繁集
.生成關聯規則
.FP-Growth算法
.構建FP樹
.提取規則
3、時間序列分析
案例:使用apriori庫實現關聯分析
案例:中(zhong)醫(yi)證(zheng)型關聯(lian)規則(ze)挖掘(jue)
第九部分:案例實戰(學員主導,老師現場指導)
1、電商用戶行為分析及服務推薦
2、基于基站定位數據的商圈分析
結束:課程總(zong)結與問題(ti)答疑。
Python實現大數據挖掘技術培訓
轉載://citymember.cn/gkk_detail/237141.html
已開課時間Have start time
- 傅一航
大數據課程內訓
- 能源電力企業數字化轉型探索 李開(kai)東
- 企業區塊鏈技術的應用場景與 李(li)璐
- 《大數據分析與客戶開發》 喻(yu)國(guo)慶
- 數據創造價值——大數據分析 張曉如
- 《流量神器,銷量升級:如何 武建(jian)偉
- 大數據項目解決方案及應用 胡(hu)國慶(qing)
- 數據驅動價值 ——基于Ex 張(zhang)曉如(ru)
- 《大數據精益化營銷思維與運 喻國慶
- 《銀行--網絡消費行為與網 武(wu)建(jian)偉
- 建材門店--微信獲客與運營 武建偉
- 大數據提升:用戶體驗提升與 武建偉
- 《精細運營——京東/天貓平 武建偉