
隨著“互聯(lián)網(wǎng)+”概念的普及,我國互聯(lián)網(wǎng)金融行業(yè)迅速發(fā)展,個人信貸業(yè)務市場份額也快速增長,使得業(yè)務數(shù)據(jù)變得復雜多樣。傳統(tǒng)的信貸風控大多是模型驅(qū)動的策略,已經(jīng)不能夠滿足違約風險預測的需求,導致各類違約事件頻發(fā),給機構帶來較大的損失。因此,需要引入機器學習算法,來完善信貸風控機制,促進信貸業(yè)務市場健康、可持續(xù)發(fā)展。本文采用機器學習算法針對信貸風控場景中的兩個問題進行解決。第一,在新的信貸產(chǎn)品投放初期,由于沒有業(yè)務積累,僅有少量標記數(shù)據(jù)和大量無標記數(shù)據(jù),因此不能建立數(shù)據(jù)驅(qū)動的有監(jiān)督信貸風控模型;第二,在信貸產(chǎn)品投放一段時間后,積累到了一定量的數(shù)據(jù),大多數(shù)機構會采用邏輯回歸(Logistics Regression,LR)來實現(xiàn)信貸風控建模,LR模型簡單且易于實現(xiàn)、訓練速度快,但是這種模型屬于線性模型,學習能力有限,不能學習到特征間的非線性關系,需要信貸業(yè)務經(jīng)驗豐富的風控工程師做人工特征組合,因此需要耗費大量的人工成本。圍繞以上問題,本文主要工作如下:(1)針對信貸產(chǎn)品投放初期,不能建立數(shù)據(jù)驅(qū)動的有監(jiān)督信貸風控模型的問題,本文提出了基于狄利克雷過程混合模型(Dirichlet Process Mixture Model,DPMM)和隔離森林(Isolation Forest,IForest)的冷啟動方法。該方法采用DPMM計算出了無標記樣本的違約相似度,采用IForest計算出了無標記樣本的違約異常度,綜合違約相似度和違約異常度篩選出可靠正常樣本和潛在違約樣本,為后續(xù)監(jiān)督模型訓練提供充足樣本。(2)針對信貸產(chǎn)品投放后期,單一LR模型對數(shù)據(jù)特征間非線性關系學習能力不足的問題,本文提出了基于Bagging的XGBoost-LR模型融合方法。該方法采用極限梯度提升樹模型(e Xtreme Gradient Boosting,XGBoost)進行特征轉換,將其葉子節(jié)點的輸出,作為LR模型的輸入,進而提升LR對非線性數(shù)據(jù)特征的學習能力,同時引入Bagging機制,對XGBoost的行采樣參數(shù)和列采樣參數(shù)進行擾動,建立多個XGBoost-LR融合模型,進一步提升模型預測能力。為了驗證上述兩種設計方法的有效性,本文利用某互聯(lián)網(wǎng)金融公司信貸脫敏數(shù)據(jù)集和多個UCI數(shù)據(jù)集,對上述方法進行了實驗仿真。同時,為了體現(xiàn)設計方法的實用性,本文設計了一個信貸風控系統(tǒng)。
基本信息
| 題目 | 基于機器學習的信貸風控研究 |
| 文獻類型 | 碩士論文 |
| 作者 | 劉子揚 |
| 作者單位 | 南京郵電大學 |
| 導師 | 劉斌 |
| 文獻來源 | 南京郵電大學 |
| 發(fā)表年份 | 2020 |
| 學科分類 | 信息科技,經(jīng)濟與管理科學 |
| 專業(yè)分類 | 自動化技術,金融,投資 |
| 分類號 | TP181;F832.4 |
| 關鍵詞 | 狄利克雷過程混合模型,隔離森林,邏輯回歸,極限梯度提升樹,信貸風控 |
| 總頁數(shù): | 68 |
| 文件大?。?/td> | 2819K |
論文目錄
| 摘要 |
| abstract |
| 第一章 緒論 |
| 1.1 課題背景 |
| 1.1.1 課題研究背景 |
| 1.1.2 課題研究意義 |
| 1.2 國內(nèi)外研究現(xiàn)狀 |
| 1.3 研究內(nèi)容 |
| 1.4 本文創(chuàng)新點 |
| 1.5 本文組織結構 |
| 第二章 基礎知識和相關理論 |
| 2.1 信貸風控體系介紹 |
| 2.2 信貸風控冷啟動方法 |
| 2.2.1 無樣本可依下的信貸風控冷啟動方法 |
| 2.2.2 無標記樣本下的信貸風控冷啟動方法 |
| 2.3 機器學習算法 |
| 2.3.1 DPMM |
| 2.3.2 IForest |
| 2.3.3 LogisticsRegression |
| 2.3.4 XGBoost |
| 2.4 本章小結 |
| 第三章 基于DPMM和 IForest的信貸風控冷啟動方法 |
| 3.1 問題分析 |
| 3.2 方法設計 |
| 3.2.1 基于DPMM計算違約相似度 |
| 3.2.2 基于IForest計算違約異常度 |
| 3.2.3 樣本篩選及權重設置 |
| 3.2.4 監(jiān)督模型訓練 |
| 3.3 仿真實驗 |
| 3.3.1 數(shù)據(jù)集 |
| 3.3.2 評估指標 |
| 3.3.3 實驗環(huán)境 |
| 3.3.4 實驗及結果分析 |
| 3.4 本章小結 |
| 第四章 基于Bagging的 XGBoost-LR信貸風控模型融合方法 |
| 4.1 問題分析 |
| 4.2 方法設計 |
| 4.2.1 基于XGBoost的特征構造方法 |
| 4.2.2 LR分類預測 |
| 4.2.3 XGBoost-LR模型融合方法 |
| 4.2.4 基于Bagging的 XGBoost-LR模型融合方法 |
| 4.3 仿真實驗 |
| 4.3.1 數(shù)據(jù)集 |
| 4.3.2 評估指標 |
| 4.3.3 實驗及結果分析 |
| 4.4 本章小結 |
| 第五章 信貸風控系統(tǒng) |
| 5.1 系統(tǒng)框架 |
| 5.2 數(shù)據(jù)分析模塊 |
| 5.2.1 選擇目標變量 |
| 5.2.2 原始數(shù)據(jù)統(tǒng)計分析 |
| 5.2.3 壞賬用戶特征分析 |
| 5.3 數(shù)據(jù)清洗模塊 |
| 5.3.1 缺失值填充 |
| 5.3.2 數(shù)據(jù)過濾 |
| 5.4 特征工程模塊 |
| 5.4.1 特征抽象 |
| 5.4.2 特征縮放 |
| 5.4.3 特征選擇 |
| 5.5 評分模塊 |
| 5.5.1 模型分析 |
| 5.5.2 評分轉換 |
| 5.6 本章小結 |
| 第六章 總結與展望 |
| 6.1 總結 |
| 6.2 展望 |
| 參考文獻 |
| 附錄1 攻讀碩士學位期間申請的專利 |
| 附錄2 UCI數(shù)據(jù)集劃分說明 |
| 致謝 |
參考文獻
| [1] 我國日常型消費信貸產(chǎn)品的現(xiàn)狀及發(fā)展趨勢[J]. 現(xiàn)代商業(yè) 2019(33) |
| [2] 推進信貸產(chǎn)品整合[J]. 農(nóng)業(yè)發(fā)展與金融 2020(03) |
| [3] 我國銀行業(yè)綠色信貸產(chǎn)品創(chuàng)新問題研究[J]. 時代金融 2020(21) |
| [4] 中小銀行信貸產(chǎn)品供給結構性問題與對策研究——以福建省中小銀行為例[J]. 福建商學院學報 2020(03) |
| [5] 消費信貸產(chǎn)品監(jiān)管的路徑與機制研究——基于美國《多德-弗蘭克法》1031(d)條款的評析[J]. 金融監(jiān)管研究 2020(07) |
| [6] 新常態(tài)背景下我國村鎮(zhèn)銀行科技信貸產(chǎn)品的創(chuàng)新[J]. 現(xiàn)代營銷(下旬刊) 2019(01) |
| [7] 公司線上信貸產(chǎn)品風險防范研究[J]. 現(xiàn)代經(jīng)濟信息 2019(09) |
| [8] 初創(chuàng)期信貸產(chǎn)品申請評分建模方法綜述[J]. 中國信用卡 2019(09) |
| [9] 我國商業(yè)銀行綠色信貸產(chǎn)品創(chuàng)新的典型事實與因應策略[J]. 山東財經(jīng)大學學報 2019(06) |
| [10] 淺談銀行綠色信貸產(chǎn)品面臨的創(chuàng)新問題[J]. 納稅 2018(06) |
| [11] 適時調(diào)整完善信貸產(chǎn)品和制度[J]. 農(nóng)業(yè)發(fā)展與金融 2018(09) |
| [12] 霧霾治理的綠色信貸產(chǎn)品創(chuàng)新研究[J]. 金融理論與教學 2016(06) |
| [13] 銀行網(wǎng)絡信貸產(chǎn)品體系建設研究與思考[J]. 金融電子化 2016(08) |
| [14] 我國商業(yè)銀行綠色信貸產(chǎn)品創(chuàng)新[J]. 全國流通經(jīng)濟 2017(09) |
| [15] 新常態(tài)背景下我國村鎮(zhèn)銀行信貸產(chǎn)品創(chuàng)新:模式建構與實施[J]. 經(jīng)濟管理 2016(03) |
| [16] 科技信貸產(chǎn)品創(chuàng)新的拓展空間探究[J]. 財會月刊 2014(22) |
| [17] 淺析小微企業(yè)信貸產(chǎn)品——以建設銀行聊城市分行為例[J]. 金融經(jīng)濟 2017(24) |
| [18] 信貸產(chǎn)品及制度體系存在的問題和建議[J]. 農(nóng)業(yè)發(fā)展與金融 2018(10) |
| [19] 精準扶貧信貸產(chǎn)品創(chuàng)新實施效果及面臨的問題[J]. 北方金融 2016(11) |
| [20] 信貸產(chǎn)品創(chuàng)新——破解小企業(yè)融資難的有效途徑[J]. 現(xiàn)代商業(yè) 2014(06) |
| [21] 農(nóng)村信用社信貸產(chǎn)品研發(fā)的難點與對策[J]. 科技視界 2013(11) |
| [22] 基于現(xiàn)代農(nóng)業(yè)的農(nóng)村信用社信貸產(chǎn)品創(chuàng)新的思考[J]. 企業(yè)導報 2013(07) |
| [23] 南京中小企業(yè)融資信貸產(chǎn)品創(chuàng)新研究[J]. 現(xiàn)代商業(yè) 2012(34) |
| [24] 農(nóng)村信貸產(chǎn)品創(chuàng)新與風險定價的實證分析:吉安縣個例[J]. 武漢金融 2011(03) |
| [25] 陜西農(nóng)村經(jīng)濟增長視角的農(nóng)村信貸產(chǎn)品創(chuàng)新研究[J]. 西安石油大學學報(社會科學版) 2011(02) |
| [26] 農(nóng)村消費信貸產(chǎn)品的優(yōu)化設計[J]. 金融經(jīng)濟 2011(12) |
| [27] 農(nóng)村信貸產(chǎn)品創(chuàng)新中的風險隱患及對策——來自江西省九江市的實證分析[J]. 武漢金融 2010(01) |
| [28] 以產(chǎn)品創(chuàng)新推進農(nóng)發(fā)行可持續(xù)發(fā)展——農(nóng)發(fā)行客戶三部信貸產(chǎn)品創(chuàng)新與業(yè)務發(fā)展論壇側記[J]. 農(nóng)業(yè)發(fā)展與金融 2010(05) |
| [29] 信貸產(chǎn)品創(chuàng)新:銀行業(yè)增長方式轉變的新途徑——對青海省銀行業(yè)金融機構的調(diào)查[J]. 青海金融 2009(02) |
| [30] 農(nóng)村信貸產(chǎn)品和服務創(chuàng)新難點及建議[J]. 金融與經(jīng)濟 2009(06) |
相似文獻
| [1]大數(shù)據(jù)在定興聯(lián)社小微信貸產(chǎn)品的應用探究[D]. 楊子琦.河北金融學院2019 |
| [2]JT銀行金華分行小微企業(yè)信貸產(chǎn)品創(chuàng)新研究[D]. 陳佳怡.西安電子科技大學2019 |
| [3]小額消費信貸產(chǎn)品風險防控與創(chuàng)新研究[D]. 王雨竹.浙江大學2019 |
| [4]商業(yè)銀行服務小微企業(yè)的信貸產(chǎn)品創(chuàng)新研究[D]. 翁子斐.貴州財經(jīng)大學2019 |
| [5]東方微銀小微企業(yè)信貸產(chǎn)品創(chuàng)新案例研究[D]. 高英.大連理工大學2019 |
| [6]吉林省農(nóng)村信貸產(chǎn)品創(chuàng)新研究[D]. 董淑怡.吉林財經(jīng)大學2019 |
| [7]網(wǎng)絡消費信貸產(chǎn)品在大學生群體中的擴散與使用行為研究[D]. 王嘉琪.廈門大學2018 |
| [8]商業(yè)銀行中小微企業(yè)信貸產(chǎn)品供求匹配問題研究[D]. 李永鑫.南京農(nóng)業(yè)大學2017 |
| [9]商業(yè)銀行綠色信貸產(chǎn)品創(chuàng)新問題研究[D]. 王瑤瑤.蘭州大學2019 |
| [10]中國農(nóng)業(yè)銀行伊春分行綠色信貸產(chǎn)品創(chuàng)新研究[D]. 楊晶.哈爾濱工業(yè)大學2018 |