当前位置：首页 > news >正文

网站结构图怎么画上海网络seo优化公司

news 2025/7/23 10:09:16

网站结构图怎么画,上海网络seo优化公司,wordpress第三方登陆插件,国家职业资格证书网站本篇内容来自《信用评分工具》一书的8.3KS统计量。KS统计量全称为Kolmogorov-Smirnov统计量，基于经验累积分布函数，是一种非参数的统计检验方法，用于检验两个分布是否一致。对于两个分布，其计算公式如下：其中和分别表…

本篇内容来自《信用评分工具》一书的8.3KS统计量。

KS统计量全称为Kolmogorov-Smirnov统计量，基于经验累积分布函数，是一种非参数的统计检验方法，用于检验两个分布是否一致。对于两个分布，其计算公式如下：

其中

和

分别表示两个分布的累积函数，

和

分别表示两个分布的样本数量。其原假设

为

和

来自同一个分布，备择假设

为

和

来自不同的分布。如果根据

计算所得P小于我们设定的阈值，则拒绝原假设，反之亦然。简单理解，就是如果两个分布来自同一个分布，则对于每一个点的累积概率，二者是相差不大，如果差值的最大值超过一定程度，则说明二者并不来自同一分布。比如，如果两个分布都来自标准正态分布，则在0处，二者的累积概率都应该在0.5左右，如果其中一个仅有0.2，则二者很可能不都属于标准正态分布。

而在信用评分卡中的KS，借鉴的正是上式中的

，可以理解为违约组和未违约组应该来自不同的分布，而我们就是要用评分的形式将这两组区分开，则在评分维度上其累积概率应存在差异，不同评分累积概率差值的最大值越大，说明相应的评分体系区分度越好。因此，KS值越大，说明模型的区分度越好。一般的评判标准如下：

KS不会为负值，因为违约组主要分布在低分区域，按照评分由低到高排序，违约组的累积概率会先于未违约组到1，因此二者累积概率差值的最大值不会小于0。

以上是对KS的理论上的解释，那么在业务上如何理解呢？在信用评分卡中，通常会选择一个分数作为阈值，信用评分不高于这个阈值的客户会被拒绝，但在被拒绝的客户中，难免会存在信用实际良好不存在违约的客户，那么我们会希望违约的客户尽量多地被拒绝，这个用tpr（也称为灵敏度或召回率）来衡量，即违约组的累积概率；被拒绝而未违约的客户尽量少地被拒绝，这个用fpr（也称为假阳性率）来衡量，即为违约组的累积概率。二者公式如下：

其中，tp即被拒绝客户中实际违约的客户数，p为整体违约客户总数；fp为被拒绝客户中实际未违约客户数，n为整体未违约客户总数。我们希望tpr尽可能大，而fpr尽可能小，而KS的公式为：

那么自然而然KS越大，说明我在尽量减少误伤优秀客户的情况下，排除了尽可能多的坏客户。

KS的计算步骤一般如下：

1、将所有客户按照信用评分升序排列（如果是违约概率则为降序排列）；

2、计算每一个分数下（或者将分数进行十等分，等频或者等距，计算每一分数段下）违约客户数和未违约客户数；

3、按照排序分别计算每一分数下（或分数段下）累计违约客户数与整体违约客户总数的比值tpr，累计未违约客户数与整体未违约客户总数的比值fpr；

4、用tpr减fpr即得到每个分数或分数段对应的KS。

python代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-white')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
data = pd.read_excel('score.xlsx', index = False, header = 0)def KS(score_df, score, y, path):'''计算KS统计表和KS图形score_df 分布图y 是非违约字段的名称score 信用评分字段的名称path 输出路径返回：KS图形，KS统计表，表中字段包含分数（由小到大排列），累计违约占比，累计未违约占比，KS值'''score_df = score_df.sort_values(by = score, ascending = True)total_bad = score_df[y].sum()total_good = score_df.shape[0] - total_badscore_df = pd.crosstab(index = score_df[score], columns = score_df[y]).fillna(0) #计算每个分数对应的违约客户数和未违约客户数score_df['tpr'] = score_df[1].cumsum() / total_bad #计算tprscore_df['fpr'] = score_df[0].cumsum() / total_good #计算fprscore_df['ks'] = score_df.tpr - score_df.fpr #计算ksmax_ks = score_df.ks.max() #取最大ksmax_ks_score = score_df[score_df.ks == max_ks].index.values[0] #取最大KS对应的分数score_df.tpr.plot(label = 'tpr', c = 'red')score_df.fpr.plot(label = 'fpr', c = 'green')score_df.ks.plot(label = 'ks', c = 'black')plt.text(max_ks_score, max_ks, s = f'{max_ks_score:.2f}, {max_ks:.4f}')plt.legend()plt.savefig(path)plt.show()return score_df.loc[:, ['tpr', 'fpr', 'ks']]ks_df = KS(data, 'SCORE', '是否违约', 'KS.jpg')
ks_df.head()

图形输出如下：

从上图中可以得到，当选取100.79作为阈值时，KS最大为0.45。那么我们是不是就选择KS最大值所对应的分数作为实际评分卡中的阈值呢？KS更多的是评估模型的区分能力，在具体选择阈值中要结合实际业务需要，综合tp、fp、tn和fn的占比（参考第八章评价测度之混淆矩阵），考量违约率和产品的预计盈利等情况。

查看全文

http://www.lbrq.cn/news/2426923.html