企业信用评估模型是银行和企业风险管理的重要工具。关于如何为不平衡的企业信用评估构建一个有效的决策树集成模型的研究很少。本文为少数的不平衡企业信用评估构建了新的决策树集成模型。这个模型基于采用差异化采样率的合成少数类过采样技术和袋装算法,名为DTE-SBD。在基础决策树分类器重复训练的不同时间段,通过使用差异化采样率的合成少数类过采样技术,一定程度上产生新的阳性(高风险)样品,通过使用差异化采样率的袋装算法替换一部分阳性样本并绘制不同数量的阴性(低风险)样本。在采用固定采样率重复的相同时段,包含原始和新的阳性训练样本与绘制的阴性训练样本数量是相同的,并且它们可以被组合以作为训练决策树的基础分类。因此,DTE-SBD不仅可以处理企业信用评估的类不平衡问题,还增加决策树集成基本分类器的多样性。
除人工智能以外的企业信用评估方法有三类。第一类是基于资本市场理论或信息经济学,这种模型有严谨的理论基础,但不会依据数据驱动机制自动输出信用评估结果。第二类基于数据驱动的统计方法,这种模型用样本公司的历史数据构建企业信用评估模型。如线性判别分析和逻辑回归的统计方法被早期应用于企业信用评估。但是,它们的应用受到统计假设的限制。例如,线性判别式分析需要假设自变量正态分布,逻辑回归不允许共线性自变量。第三类是基于评估理论。这种类型最经典的方法是5Cs专家评分方法,被广泛应用于银行的日常评估中。
基于人工智能的企业信用评估方法也有三类。人工智能在企业信用评估中的早期应用是基于单一分类器的。早期神经网络广泛用于企业信用评估建模。为了克服单一分类器的弱点,越来越多的研究集中在构建集合模型进行企业信用评估,并发现集合分类器方法比基础单一分类器方法表现更好。基于类不平衡的企业信用评估方法是一种将混合特征选择与不平衡导向的多分类器结合的综合方法,这种方法使用支持向量机和多重判别分析作为基准预测器,是实践中进行不平衡企业信用评估的重要工具。
目前,主要有两种技术可用于不平衡分类问题:一个来自算法级别,另一个来自数据级别。随机抽样是处理数据类不平衡的基本技术,它比算法方法更简单,使用更广泛。 比较常用的评估模型有以下几种。合成少数类过采样技术的基本假设是类似的两个真实阳性样本存在虚拟阳性样本。因此,合成少数类过采样技术算法试图创造一个新的阳性样本,人为地在两个彼此接近的真实阳性样本之间进行采样。袋装算法通过替换,随机重复从原始数据集选择一定数量的训练样本。即当随机选择样本时,立即将其放回原始数据集,再次进行下一次选择。所选择的训练样本数量在每次重复中都是相同的,但是它们的样本分布在某种程度上是不同的。因此,存在部分不同模型结构的基础分类器是可以使用相同的分类算法训练的,并且可以将它们的输出组合以多数通过产生最终投票结果。当使用差分采样率对少数/阳性进行过采样时,可以采用不同程度的过采样率数据集训练多个分类器。因此,每个基础分类器的阳性训练样本数量是不同的,这进一步确保了基本分类器的多样性,并一定程度上避免过度拟合。DTE-SBD算法将合成少数类过采样技术和袋装算法和差异化采样率结合,构建不平衡的决策树集成分类器进行企业信用评估。它不仅涉及合成少数类过采样技术进行信用评估的类不平衡问题,而且还涉及通过差异化采样率确保基础分类器的多样性,并通过袋装算法提高分类稳定性。
为了验证DTE-SBD模型的性能,以552家中国上市公司的财务数据运行了100次实验,将其他五种型号的模型:纯决策树集成模型,过采样决策树集成模型,过采样欠采样决策树集成模型,采用合成少数类过采样技术的决策树集成模型,采用袋装算法的决策树集成模型和DTE-SBD进行比较。采用G-measure,F-measure,Positive 等模型评价指标模型有效评估采用准确性和总体准确性。实验结果表明如下结论:首先,DTE-SBD明显优于其他五种模型,对于不平衡的企业信用评估有效。其次,采用袋装算法的决策树集成模型可以将企业信用评估的类不平衡问题的处理提高整体准确性。第三,过采样欠采样决策树集成模型和合成少数类过采样技术决策树集成模型也可以处理类不平衡企业信用评估问题,在一定程度上提高了积极的准确性,但大大牺牲了阴性分类认可度。第四,纯决策树集成模型和过采样决策树集成模型都具有相对较差的表现,不适合类不平衡的企业信用评估。
(详细内容请参看原文)
原文链接:
https://www.sciencedirect.com/science/article/pii/S0020025517310083