当前位置: 首页 > news >正文

梭子手做鱼网站/武汉网络推广有限公司

梭子手做鱼网站,武汉网络推广有限公司,中装建设股票行情,深圳设计深圳设计公司前段时间在网上看到了coursera公开课台大机器学习基石课程,比较全面而且清晰地将机器学习所需的基本知识、理论基础给与了讲解。foundation中有几个比较重要的概念和思想,先进行一下回顾,然后开启对后续技法课程的学习和总结。 1. VC dimensi…

前段时间在网上看到了coursera公开课台大机器学习基石课程,比较全面而且清晰地将机器学习所需的基本知识、理论基础给与了讲解。foundation中有几个比较重要的概念和思想,先进行一下回顾,然后开启对后续技法课程的学习和总结。

1. VC dimension(VC维,非常重要的概念)

能够shutter 二分类问题的上限。也是衡量模型复杂度的工具(类似自由度的概念)。之所以这个概念比较重要是它能够解释为什么机器能够学习。

1),以概率统计中常用的手段:用sample来估计整体,机器学习也是如此,就是说,通过对采样得到的sample进行学习,能够用来对out of sample进行估计、处理、预测、分类等等。所谓的学习就是从一堆Hypothesis(set)中,利用sample,通过learning algorithm赛选出合适的hypothesis - g的过程。

2)塞选的标准通常是各种类型的error(0/1error,square error...),这些误差是用来调节W权重,最后得到比较小Error (in sample)的hypothesis(g)。

3)这个g只是在in sample上表现比较好,其实在in sample上表现好并没什么卵用,因为如果你只是处理in sample数据的话就没有必要进行机器学习,之所以使用机器学习,就是因为不可能得到所有的data,你只能sample一部分的sample。所以最好的g应当是在out of sample上表现好的。因为,我们并不能测得error in sample,所以最好的办法就是建立error in sample 与error out of sample的联系,能不能有一个upper bound来衡量两者之间的关系呢?答案是肯定,那就是Hoeffding's 不等式。

4)hoeffding不等式说明了一个问题,如果Hypothesis set中hypothesis能shutter很多种类(就是VC dimension很大),就会导致这个Error in sample与Error out of sample相差很大,也就是指模型复杂度很大。这样error in sample 你能做的很小,但是error out of sample会很大。

5)VC维大=>模型复杂度高=>error in sample 小=>模型不够平滑=>generalization能力弱=>error out of sample大=>overfitting=>模型并没有卵用。


2. Generalization(泛化能力)

1)衡量模型在out of sample上的表现;

2)通常曲线越平滑,泛化能力越强,但error in sample就可能越大,underfitting;曲线也复杂,error in sample就可能做的越小,但泛化能力越弱,overfitting;


3. Regularization(正则化)

1)用来控制模型复杂度,从而实现Error in sample与Error out  of sample的逼近,也就是使得既具有较好的精度,又有较好的泛化能力;

2)不同的regularizer对应不同的回归方法:L1,L2,...实际上就是一种惩罚措施。用来权衡是要好的error和好的generalization能力;


除了以上三个我觉得极为重要的概念和思想,还有一些主要内容比如:导致overfitting的几种原因:过度使用vc dimension,noise和limited data size N,解决overfitting的几种方法、技巧:validation(cross validation,leave one out validation, N-folder valiation...),data hinting, data cleaning/pruning, regularization, start from simple model等等。这里都不再进行总结。

待续

2015-7-8 18:12



转载于:https://www.cnblogs.com/huty/p/8519344.html

http://www.lbrq.cn/news/1280053.html

相关文章:

  • 天天自学网网址/苏州seo报价
  • 宁波市镇海建设交通局网站首页/网站制作的服务怎么样
  • 顺昌网站建设/数据分析报告
  • 网站首页新闻模板/深圳seo推广外包
  • 饲料网站源码/深圳今天重大事件新闻
  • 做网站开发app/济南网站seo
  • 2003系统做网站/百度怎么注册自己的网站
  • 北航做网站公司/进入百度首页官网
  • 赤峰网站开发公司/seo的优点
  • 网站建设公司的公司哪家好/财经新闻最新消息
  • 分析网站的关键词/今日新闻
  • 网站建设公司怎么做的/泉州百度关键词优化
  • 最专业的外贸网站建设/新站快速收录
  • 云服务器建网站/阿里云域名查询
  • 代做道路毕业设计网站/关键词seo培训
  • 做电子请帖网站有哪些/seo百度首页排名业务
  • 好推建站/pc网站优化排名
  • 做网站总结体会/优化方案英语
  • wordpress首页文件/seo人员招聘
  • html企业网站源码下载/百度公司地址
  • 国内网站开发不用wordpress/电子商务网站建设流程
  • 网站每个月8g流量/今日刚刚发生的军事新闻
  • 长春做网站 长春万网/自己怎么免费做百度推广
  • 广东网站建设服务供应商/做百度推广一个月多少钱
  • 东营网站建设方案/有哪些平台可以发布推广信息
  • 网站模版超市/拓客最有效方案
  • 做暧暧网站在线/关键词推广排名
  • 域名备案未做网站/seo外链推广
  • 政府网站维护运行方案/百度下载app下载安装
  • 山东省住房建设厅网站考试项目/深圳市seo上词贵不贵
  • [电网备考]计算机组成与原理
  • LeetCode第350题_两个数组的交集II
  • Windows10系统使用Cmake4.1.0构建工具+Visual Studio2022编译Opencv4.11教程
  • solidity从入门到精通 第六章:安全第一
  • Python-初学openCV——图像预处理(三)
  • 最优估计准则与方法(4)最小二乘估计(LS)_学习笔记