智能大數據研修

首頁 >企業內訓 > 智能大數據研修

智能大數據研修

  大數據分析和挖掘在互聯網公司中已經得到實質性的推進和應用,典型的應用場景包括搜索引擎的搜索結果和搜索廣告排序、電商網站的商品推薦和虛假信息檢測、電子郵件服務中垃圾郵件檢測、互聯網安全公司的病毒和木馬檢測、視頻和新聞分享網站中視頻和新聞推薦、互聯網金融服務中的用戶信譽評估等。

  特別的場景包裹,社交網絡的火爆可以看成是促使大數據技術迅猛發展的直接驅動原因。社交網絡的數據呈現大規模、異構、網狀相連的特征,為大數據挖掘提供了更復雜、更有挑戰的案例。在社交網絡中,大數據挖掘的應用更是覆蓋了70%左右的場景。經典的使用場景諸如好友新鮮事(tweets)智能排序、好友推薦、好友搜索、社交廣告等。

  當前,本地生活服務、O2O、互聯網金融、企業級服務等的火爆,更是大數據的用武之地,成為成為助推業務發展最有效的技術利器和產品設計及運營的思維。大數據受到廣泛認可,究其原因,主要是如果大數據相關技術得到較好的使用,會帶來從服務的訪問量到收入變現能力等關鍵數據指標的實質提升。以講師親身項目經驗為例:一個新的好友推薦算法的上線可能帶來80%以上的“關注量”或者“加好友申請量”的提高;對手機通訊錄匹配算法的優化升級,可使手機號對應的社交網絡的用戶帳號匹配量增加55%以上;社交廣告中用戶定向和廣告排序算法的引入,可使廣告收入暴漲100%以上。又如,用戶社交圈智能劃分算法的上線,使很多用戶的三四百個好友被自動合理分到合適的社交圈中,免去他們手動逐個操作的麻煩,提升了用戶體驗,他們評價“真心覺得做到了我的心里”、“給數據挖掘跪了”。

目標收益

  本課程將圍繞大數據最本質的特點—智能化為主線,從大數據的產品思維、數據分析重要工具、數據挖掘核心技術等層面深入講述數據挖掘的高階話題,包括有偏數據挖掘、數據流挖掘、在線學習、高級數據預處理技術等。同時課程案例豐富,重點從社交網絡圖譜挖掘、推薦引擎等做實站案例講解。

  該課程使學員:

  理解大數據基本概率、理解大數據產品設計思維、理解大數據基礎技術架構

  掌握社交圖譜挖掘的一到兩個經典數據挖掘案例的解決方案

  掌握社交好友推薦中一到兩個經典案例的解決方案

  掌握如何搭建一個實用的推薦引擎的方法

  掌握數據挖掘的經典方法論:數據挖掘過程、模型評估標準等

  側重掌握最普遍使用的分類預測技術的方法

培訓對象

  重點面向產品和技術人員,包括數據挖掘工程師、數據分析師、大數據工程師、算法專家、項目經理、技術經理、數據產品經理以及其他具有一定數據挖掘經驗的人員。


課程大綱

1.大數據時代概述

1.1 大數據解決的問題是什么?
1.2 大數據公司(部門)的都在做什么?
1.3 如何建立自己的大數據能力?

2.數據挖掘過程和實用工具使用

2.1 數據挖掘過程的方法及其思想介紹
2.1.1 常見的數據收集途徑和方式
2.1.2 數據探索與可視化技巧
2.1.3 數據準備
2.1.4 特征選擇
2.1.5 樣本選擇
2.1.6 機器學習實用算法羅列與思想介紹(側重分類算法)
2.1.7 提高模型準確率方法
2.1.8 模型評估和比較
2.1.9 如何選擇合適的評估指標
2.1.10 模型可視化
2.2 挖掘工具Weka使用實踐
2.2.1 數據挖掘常用工具介紹及優缺點對比
2.2.2 Weka使用介紹
2.2.3 Weka使用舉例:金融服務中用戶信譽評估

3.深入分類挖掘新技術

3.1 產業實戰中如何研發一個新的數據挖掘算法
3.1.1 算法建模的思路
3.1.1.1 需求驅動的算法建模
3.1.1.2 理論驅動的算法建模
3.1.2 產業實戰一個新算法的通用流程
3.2 機器學習算法理論深入
3.2.1 Bias Variance困境
3.2.2 Under fitting, Over fitting
3.3 常用多模型算法詳解
3.3.1 Ensemble Selection
3.3.2 Bagging
3.3.3 Boosting
3.3.4 Stacking
3.3.5 Meta-learning
3.3.6 Random Forest
3.3.7 Random Trees
3.3.8 Error-Correcting Output Codes(ECOC)
3.4 Dynamic Data Mining(DDM):分而治之的多模型框架研發過程
3.4.1 理論驅動
3.4.2 DMM建模研發
3.4.3 算法驗證及上線
3.5 模型評估高級話題
3.5.1 模型評估方法
3.5.2 模型評估指標深入討論
3.5.2.1 Accuracy, Errorrate
3.5.2.2 Recall, Precision, F-?‐measure
3.5.2.3 Specificity, Sensitivity, G-?‐mean
3.5.2.3 ROC,AUC

4.深入常用實戰數據預處理與有偏挖掘技術

4.1 有偏數據挖掘
4.1.1 有偏數據挖掘的場景
4.1.2 有偏數據挖掘的問題根源
4.1.3 有偏數據挖掘的解決方案
4.1.3.1 Under sampling, Oversampling
4.1.3.2 Weighting
4.1.3.3 Data Synthesis
4.1.3.4 Cost-sensitive learning
4.2 高級數據預處理實戰策略
4.2.1 重視Missing Values
4.2.2 合理抽取特征
4.2.3 數據清洗:數據一致性檢測
4.2.4 噪聲平滑
4.2.5 特征泛化

5.深入在線學習與數據流挖掘

5.1 在線數據流挖掘基本概念
5.1.1 Batch Learningvs. Online Mining
5.2 數據流挖掘的關鍵挑戰
5.2.1 概念、概念漂移、數據規模Stream Mining, Online
5.3 兩類經典在線流挖掘算法匯總
5.3.1 基于概念漂移主動監測的算法
5.3.2 基于概念漂移自適應的算法
5.3.3 個人創新性方法:DDM-T,DDM-P
5.4 進階:有偏在線數據流挖掘的解決方案
5.4.1 DDM-T的有偏流挖掘的改進
5.5 在線數據流挖掘總結

6.深入社交圖譜及推薦引擎實戰

6.1 推薦引擎解決的問題
6.2 推薦系統歷史
6.3 通用推薦引擎基礎架構
6.3.1 統一展示邏輯
6.3.2 實驗分流平臺
6.3.3 推薦結果預處理
6.3.4 推薦結果召回
6.3.5 推薦過濾去重
6.3.6 推薦排序
6.3.7 推薦解釋
6.3.8 實時數據統計分析平臺
6.3.9 系統監控平臺
6.3.10 數據挖掘和推薦算法管理
6.4 社會化推薦引擎
6.4.1 好友推薦使用場景舉例
6.4.2 好友推薦主要挑戰
6.4.3 好友推薦引擎架構
6.5 社會化推薦引擎算法案例講解
6.5.1 Online Learning的特點和一般流程
6.5.1.1 在線挖掘數據特點
6.5.1.2 在線挖掘基本過程
6.5.2 二度好友模型:案例講解
6.5.2.1 二度好友模型解決的問題
6.5.2.2 二度好友模型的建模過程
6.5.2.3 二度好友模型的效果評估
6.5.3 好友簇算法:案例講解
6.5.3.1 好友簇算法解決的問題
6.5.3.2 聚類方法原理
6.5.3.3 好友簇算法的建模過程
6.5.3.4 好友簇算法的效果評估
6.5.4 加好友申請接受率預估模型:案例講解
6.5.4.1 加好友申請接受率預估解決的問題
6.5.4.2 加好友申請接受率預估的建模過程
6.5.4.3 加好友申請接受率預估的效果評估
6.6 社交圖譜挖掘介紹
6.6.1 社交網絡數據挑戰
6.6.2 社交網絡中的數據挖掘意義
6.6.3 社交圖譜挖掘主要任務
6.6.4 社交圖譜挖掘通用路標
6.7 社交圖譜挖掘案例講解:好友親密度模型
6.7.1 好友親密度模型的意義
6.7.2 經典用戶行為分析建模方法簡介
6.7.3 好友親密度建模過程
6.7.4 好友親密度模型效果分析
6.8 社交圖譜挖掘案例講解:好友自動分組
6.8.1 好友智能分組的意義
6.8.2 社區發現簡介
6.8.3 好友自動分組建模過程
6.8.4 好友自動分組效果評估


97夜夜澡人人爽人人喊中国片-国产成人国拍亚洲精品-国产网红无码精品视频-性xxxx欧美老妇胖老太肥肥