基于Lasso-logistic模型的个人信用风险预警方法 CNKI文献
将Lasso-logistic模型引入个人信用评估,通过模拟实验发现,逐步回归法倾向于保留一些不重要的变量,而且选出正确模型的概率较低,而Lasso不仅计算更加快捷,可以同时进行变量选择和参数估计,而且能更准确地筛选出重要的...
方匡南 章贵军... 《数量经济技术经济研究》 2014年02期 期刊
关键词: 信用风险 / Lasso-logistic模型 / 变量选择
下载(9121)| 被引(373)
基于Sai-GA-SVR的我国IPO制度与新股市场特征研究 CNKI文献
针对"中国IPO高抑价之谜",提出了Sai-GA-SVR方法,从市场特征的角度来判断新股是抑价还是溢价,分析了我国1997年―2011年不同制度下的IPO市场特征.研究发现:审批制和价格管制导致了较为严重的抑价,但是随着市...
基于半监督广义可加Logistic回归的信用评分方法 CNKI文献
传统的信用评分模型主要基于有监督学习(supervised learning)方法,但是,在实际的贷款问题中,有标记样本信息的获取往往成本较高、难度较大、周期较长,而无标记样本信息则大量存在.为了能在建模中充分利用无标记样本信...
方匡南 陈子岚 《系统工程理论与实践》 2020年02期 期刊
关键词: 半监督 / 广义可加logistic回归 / 信用评分 / 无标记样本
下载(807)| 被引(24)
基于网络结构Logistic模型的企业信用风险预警 CNKI文献
随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。本文在充分考虑变量间的...
关键词: 企业信用风险 / 网络结构 / logistic模型
下载(4253)| 被引(158)
考虑数据源网络结构的高维数据整合分析与子群识别研究 CNKI文献
大数据时代,收集到的数据维度越来越高,数据来源也越来越多。针对多源高维数据,本文提出了一种考虑数据源网络结构的多源高维数据整合分析方法,利用k近邻方法构建数据源间的网络结构,对于有网络连接的数据集的模...
随着信息技术的发展,数据来源越来越多,虽然可以更加精准、科学地刻画个人信用状况,但由于数据来源多、结构复杂等问题,给传统的征信技术带来了挑战。本文提出了基于多源数据融合的个人信用模型,可以同时对多个数据集...
关键词: 多源数据 / 整合分析 / Logistic回归 / 信用评分
下载(1942)| 被引(37)
SGL-SVM方法研究及其在财务困境预测中的应用 CNKI文献
针对分类问题,本文提出了稀疏组Lasso支持向量机方法(Sparse group lasso SVM,SGLSVM),即在SVM模型的损失函数中引入SGL惩罚函数,能同时进行组间变量和组内变量的筛选。由于SGL-SVM的目标函数求解比较复杂,本文又提出...
本文基于CGSS《中国城乡居民生活综合调查》2006年的家庭微观调查数据分析了我国城乡家庭消费支出的分布特征,按有无社会保障把城乡家庭分别分为两组,利用分位数回归方法研究不同消费层次上,社会保障对城乡家庭消费的...
本文首次构建了基于非参数随机森林(Random Forest,RF)的住房贷款违约风险评估模型,利用某大型银行个人住房贷款数据,研究了借款人特征、贷款特征、房产特征和经济文化特征等因素对贷款违约的影响。实证研究发现已偿还...
本文通过引入责任准备金,提出了新的保险客户利润贡献度公式,综合考虑了历史购买行为和未来可预见的现金流,更有效地度量客户的真实贡献。此外,本文首次把非参数随机森林回归法应用到保险客户利润贡献度预测中,并和其...
局部稀疏函数型聚类及其在经济增长模式分析中的应用 CNKI文献
针对在区间上具有局部稀疏性的函数型数据,提出了局部稀疏函数型K-means聚类,能同时进行聚类分析和识别稀疏区间,可以提高聚类效果和聚类结果的可解释性。蒙特卡洛模拟表明,对于具有明显局部稀疏结构的函数型数据,该方...
本文基于沪深300股指期货5分钟高频数据,利用协整检验、误差修正模型和脉冲响应函数研究了我国股指期货长短期的价格发现机制,并用信息共享模型、共因子模型研究了我国股指期货市场的价格发现贡献程度;在此基础上,引入...
传统的聚类方法由于无法提取样本和变量间的局部对应关系,并且当数据具有高维性和稀疏性时表现不佳,因此学者们提出了双向聚类,基于样本和变量间的局部关系,同时对样本和变量进行聚类,形成一系列子矩阵的聚类结果。近...
信用卡市场具有信贷信息不对称的特征,是信用卡风险产生的主要原因之一。在信贷信息不对称条件下,如何利用统计分析、数据挖掘等高新技术,建立可靠的分析模型,对信用卡用户的行为进行风险识别和预测,具有非常重要的意...
随着电子商务的快速发展,网络零售额占社会消费品零售总额的比重越来越高。基于网络零售商品的价格数据编制的阿里网购价格指数(aSPI)和基于传统编制方法的官方CPI之间的关系,采用交叉谱分析方法研究了二者之间变动在...
随机森林(RF)是一种统计学习理论,它是利用bootsrap重抽样方法从原始样本中抽取多个样本,对每个bootsrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,对异常值和...
本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实...
当响应变量为连续比例数据时,即其取值为(0,1)区间时,经典的线性回归或者数据变换方法的结果往往不理想。这种情况下可以使用Ferrari and Cribari-Neto提出的beta回归模型。但是传统的beta回归模型仅局限于参数线性回...
基于随机森林方法的基金收益率方向预测与交易策略研究 CNKI文献
笔者引入一种新的非参数随机森林方法预测我国基金超额收益率方向,并和自回归移动平均、随机游走、支持向量机等方法进行比较,发现随机森林方法在收益率方向预测上有很好的效果,一定程度上证明了我国金融市场的可预测...