当前位置: 首页 > news >正文

网站结构图怎么画上海网络seo优化公司

网站结构图怎么画,上海网络seo优化公司,wordpress第三方登陆插件,国家职业资格证书网站本篇内容来自《信用评分工具》一书的8.3KS统计量。KS统计量全称为Kolmogorov-Smirnov统计量,基于经验累积分布函数,是一种非参数的统计检验方法,用于检验两个分布是否一致。对于两个分布,其计算公式如下:其中 和 分别表…

本篇内容来自《信用评分工具》一书的8.3KS统计量。

KS统计量全称为Kolmogorov-Smirnov统计量,基于经验累积分布函数,是一种非参数的统计检验方法,用于检验两个分布是否一致。对于两个分布,其计算公式如下:

其中

分别表示两个分布的累积函数,
分别表示两个分布的样本数量。其原假设
来自同一个分布,备择假设
来自不同的分布。如果根据
计算所得P小于我们设定的阈值,则拒绝原假设,反之亦然。简单理解,就是如果两个分布来自同一个分布,则对于每一个点的累积概率,二者是相差不大,如果差值的最大值超过一定程度,则说明二者并不来自同一分布。比如,如果两个分布都来自标准正态分布,则在0处,二者的累积概率都应该在0.5左右,如果其中一个仅有0.2,则二者很可能不都属于标准正态分布。

而在信用评分卡中的KS,借鉴的正是上式中的

,可以理解为违约组和未违约组应该来自不同的分布,而我们就是要用评分的形式将这两组区分开,则在评分维度上其累积概率应存在差异,不同评分累积概率差值的最大值越大,说明相应的评分体系区分度越好。因此,KS值越大,说明模型的区分度越好。一般的评判标准如下:

6f6644b9243b6c51bc90958904c847ef.png

KS不会为负值,因为违约组主要分布在低分区域,按照评分由低到高排序,违约组的累积概率会先于未违约组到1,因此二者累积概率差值的最大值不会小于0。

以上是对KS的理论上的解释,那么在业务上如何理解呢?在信用评分卡中,通常会选择一个分数作为阈值,信用评分不高于这个阈值的客户会被拒绝,但在被拒绝的客户中,难免会存在信用实际良好不存在违约的客户,那么我们会希望违约的客户尽量多地被拒绝,这个用tpr(也称为灵敏度或召回率)来衡量,即违约组的累积概率;被拒绝而未违约的客户尽量少地被拒绝,这个用fpr(也称为假阳性率)来衡量,即为违约组的累积概率。二者公式如下:

其中,tp即被拒绝客户中实际违约的客户数,p为整体违约客户总数;fp为被拒绝客户中实际未违约客户数,n为整体未违约客户总数。我们希望tpr尽可能大,而fpr尽可能小,而KS的公式为:

那么自然而然KS越大,说明我在尽量减少误伤优秀客户的情况下,排除了尽可能多的坏客户。

KS的计算步骤一般如下:

1、将所有客户按照信用评分升序排列(如果是违约概率则为降序排列);

2、计算每一个分数下(或者将分数进行十等分,等频或者等距,计算每一分数段下)违约客户数和未违约客户数;

3、按照排序分别计算每一分数下(或分数段下)累计违约客户数与整体违约客户总数的比值tpr,累计未违约客户数与整体未违约客户总数的比值fpr;

4、用tpr减fpr即得到每个分数或分数段对应的KS。

python代码如下:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('seaborn-white')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
data = pd.read_excel('score.xlsx', index = False, header = 0)def KS(score_df, score, y, path):'''计算KS统计表和KS图形score_df 分布图y 是非违约字段的名称score 信用评分字段的名称path 输出路径返回:KS图形,KS统计表,表中字段包含分数(由小到大排列),累计违约占比,累计未违约占比,KS值'''score_df = score_df.sort_values(by = score, ascending = True)total_bad = score_df[y].sum()total_good = score_df.shape[0] - total_badscore_df = pd.crosstab(index = score_df[score], columns = score_df[y]).fillna(0) #计算每个分数对应的违约客户数和未违约客户数score_df['tpr'] = score_df[1].cumsum() / total_bad #计算tprscore_df['fpr'] = score_df[0].cumsum() / total_good #计算fprscore_df['ks'] = score_df.tpr - score_df.fpr #计算ksmax_ks = score_df.ks.max() #取最大ksmax_ks_score = score_df[score_df.ks == max_ks].index.values[0] #取最大KS对应的分数score_df.tpr.plot(label = 'tpr', c = 'red')score_df.fpr.plot(label = 'fpr', c = 'green')score_df.ks.plot(label = 'ks', c = 'black')plt.text(max_ks_score, max_ks, s = f'{max_ks_score:.2f}, {max_ks:.4f}')plt.legend()plt.savefig(path)plt.show()return score_df.loc[:, ['tpr', 'fpr', 'ks']]ks_df = KS(data, 'SCORE', '是否违约', 'KS.jpg')
ks_df.head()

图形输出如下:

e42da7dec200001f6473ef41869427c0.png

4a3e35c6d9b2dd5cc823acca724b47a7.png

从上图中可以得到,当选取100.79作为阈值时,KS最大为0.45。那么我们是不是就选择KS最大值所对应的分数作为实际评分卡中的阈值呢?KS更多的是评估模型的区分能力,在具体选择阈值中要结合实际业务需要,综合tp、fp、tn和fn的占比(参考第八章评价测度之混淆矩阵),考量违约率和产品的预计盈利等情况。

http://www.lbrq.cn/news/2426923.html

相关文章:

  • 合肥做网站便宜网页广告怎么投放
  • 做视频网站如何赚钱百度安装免费下载
  • 湘潭做网站公司谷歌香港google搜索引擎入口
  • 深圳做网站比较好的公司seo发外链的网站
  • 服务器怎么限制ip访问网站吗零基础seo入门教学
  • 大型网站技术架构核心原理与案例分析it培训机构排行榜
  • 怎么在虚拟空间做两个网站2022磁力链接搜索引擎推荐
  • 网站的用户运营值得做吗seo优化工作有哪些
  • 北京免费网站建设网站规划与设计
  • 网站目录结构设计应注意的问题常德网站优化公司
  • 深圳中小型网站建设公司最好的推广平台是什么软件
  • 荆州市做网站的play商店
  • 100款软件app免费下载大全站群seo
  • 一个域名一个ip做多个网站电商网站排名
  • wordpress漫画站主题西安网站建设制作公司
  • wordpress 内容编码错误哈尔滨企业网站seo
  • 公司注册资金可以乱写吗武汉seo招聘信息
  • 简单动态网页制作代码关键词优化心得
  • 怎样在网站图片做超级链接百度精准引流推广
  • 金融网站建设公司排名dsp投放方式
  • 设计网络网站建设百度搜索引擎收录
  • 山东一级造价师考试时间南宁seo多少钱报价
  • 做科学实验的网站谷歌官方app下载
  • 湖南住房和城乡建设厅网站免费培训课程
  • 站长之家 网站模板百度企业推广
  • 基于h5的个人网站建设推广关键词优化
  • 网络品牌网站建设行业关键词
  • 百度网站推广关键词怎么查合肥网站关键词优化公司
  • 怎么做类似美团的网站吗免费发帖推广网站
  • 做网站什么商品好百度官方
  • 设计模式——责任链模式
  • uniapp各大平台导航组件
  • AI 音频产品开发模板及流程(二)
  • React探索高性能Tree树组件实现——react-window、react-vtree
  • 中文分词模拟器 - 华为OD统一考试(Java 题解)
  • 《C++》函数内联,auto关键字