在july的網站購買了kaggle課程,自己學習并作筆記記錄,非給july打廣告,只是為了不忘記或自己學習查詢。
在這里感謝july提供的該課程。
下面開始筆記。
主要內容 
應用領域 
常用算法 
算法之間的聯系 
工具 
常用scikit-learn ,文本分析用gensim,數據處理用Numpy、matplotlib、pandas,深度學習有tensorflow、caffe、keras
解決問題的流程
圖中的鏈接: http://blog.csdn.net/han_xiaoyang/article/details/50469334
http://blog.csdn.net/han_xiaoyang/article/details/52910022
內容很詳細,值得一看。
數據預處理
上采樣: 下采樣: 數據樣本均衡: 正例、負例樣本量保持均衡,之間數量差別不要太大。
特征工程
這里建議看特征工程三把刀那篇博文: http://www.36dsj.com/archives/69769
特征類型
參考內容: ?http://scikit-learn.org/stable/modules/PReprocessing.html
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction
方法
鏈接:http://scikit-learn.org/stable/modules/feature_selection.html
交叉驗證
鏈接:http://scikit-learn.org/stable/modules/cross_validation.html
模型參數選擇
鏈接: 交叉驗證http://scikit-learn.org/stable/modules/grid_search.html
http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
模型狀態評估
用于判斷模型是否過擬合還是欠擬合
學習曲線 
模型訓練后的訓練誤差和測試誤差




鏈接:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html





鏈接:http://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble

新聞熱點
疑難解答