第1章 机器学习和统计学习

本文由用户“lizhaiqin”分享发布 更新时间:2020-03-21 12:58:00 举报文档

以下为《第1章 机器学习和统计学习》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

第一章 统计学习方法概论提纲: 1 大 机器学习维基百科:

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。提纲: 1 大 网络教学信息斯坦福机器学习

http://v.163.com/special/opencourse/machinelearning.html

CMU 机器学习课程

http://www.cs.cmu.edu/~epxing/Class/10715/

http://www.cs.cmu.edu/~epxing/Class/10708/ 视频

http://www.cs.cmu.edu/~epxing/Class/10701

https://sites.google.com/site/10601a14spring/syllabus

http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705

提纲: 1 大 相关学术文章下载资源COLT和ICML(每年度的官网): http://www.cs.mcgill.ca/~colt2009/proceedings.html

CV:http://doc.001pp.com/index.html;

NIPS: http://books.nips.cc/;?

JMLR(期刊): http://jmlr.csail.mit.edu/papers/;??

提纲: 1 大 机器学习维基百科:

机器学习有下面几种定义:

“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。

“机器学习是对能通过经验自动改进的计算机算法的研究”。

“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

英文定义:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.提纲: 1 大 机器学习应用数据挖掘

计算机视觉

自然语言处理

生物特征识别

搜索引擎

医学诊断

检测信用卡欺诈

证券市场分析

DNA序列测序

语音和手写识别

战略游戏

机器人提纲: 1 大 Game深蓝是并行计算的电脑系统,建基于RS/6000 SP,另加上480颗特别制造的VLSI象棋芯片。下棋程式以C语言写成,运行AIX 操作系统。1997年版本的深蓝运算速度为每秒2亿步棋,是其1996年版本的2倍。1997年 6月,深蓝在世界超级电脑中排名第259位,计算能力为11.38 gigaflops。提纲: 1 大 Text to speech and speech recognition提纲: 1 大 Computer vision提纲: 1 大 Genebioinformatics提纲: 1 大 bioinformaticsGene提纲: 1 大 Financial Information提纲: 1 大 Robotic Control提纲: 1 大 Deep Learning提纲: 1 大 aerospace提纲: 1 大 机器学习的发展历程“黑暗时代”,人工智能的诞生(1943年~1956年)

Warren McCulloch和Walter Pitts在1943年发表了人工智能领域的开篇之作,提出了人工神经网络模型。

John von Neumann。他在1930年加入了普林斯顿大学,在数学物理系任教,和阿兰·图灵是同事。

Marvin Minsky和Dean Edmonds建造第一台神经网络计算机。

1956年:John McCarthy从普林斯顿大学毕业后去达特***工作,说服了Marvin Minsky和Claude Shannon在达特***组织一个暑期研讨会,召集了对机器智能、人工神经网络和自动理论感兴趣的研究者,参加由IBM赞助的研讨会。提纲: 1 大 机器学习的发展历程提纲: 1 大 新的方向:

集成学习

可扩展机器学习(对大数据集、高维数据的学习等)

强化学习

迁移学习

概率网络

深度学习机器学习的发展历程提纲: 1 大 国内外的研究者M. I. Jordan

Andrew Ng

Tommi Jaakkola

David Blei

Eric Xing。。。

D.Koller

2001年IJCAI计算机与思维奖:Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者

Peter L. Bartlett

J. D. Lafferty

国内:李某某,周某某, 杨某某,王某某,唐某某,唐某某,刘某某,何某某,朱某某,吴某某,

张某某,戴某某,余某某,邓某某,孙某某

。。。

提纲: 1 大 卡内基梅隆大学的计算机科学学士学位,

麻省***的电子工程和计算机科学硕士学位,

加州大学伯克利分校的计算机科学博士学位。

在斯坦福大学计算机科学和电子工程学系担任教授,讲授机器学习课程

吴恩达(Andrew Ng)

硅谷人工智能实验室

XX深度学习实验室

XX大数据实验室国内外的研究者提纲: 1 大 机器学习和数据挖掘的关系机器学习是数据挖掘的重要工具。

数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。

机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等等。

数据挖掘试图从海量数据中找出有用的知识。

大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。提纲: 1 大 机器学习和数据挖掘的关系提纲: 1 大 机器学习的一个形象描述23提纲: 1 大 为什么要研究大数据机器学习?例“尿布→啤酒”关联规则

实际上,在面对少量数据时关联分析并不难,可以直接使用统计学中有关相关性的知识,这也正是机器学习界没有研究关联分析的一个重要原因。

关联分析的困难其实完全是由海量数据造成的,因为数据量的增加会直接造成挖掘效率的下降,当数据量增加到一定程度,问题的难度就会产生质变,

例如,在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等。提纲: 1 大 机器学习相关学术期刊和会议机器学习

学术会议:NIPS、ICML、ECML和COLT,

学术期刊:《Machine Learning》和《Journal of Machine Learning Research》

数据挖掘

学术会议:SIGKDD、ICDM、SDM、PKDD和PAKDD

学术期刊:《Data Mining and Knowledge Discovery》和《IEEE Transactions on Knowledge and Data Engineering》

人工智能

学术会议:IJCAI和AAAI、

数据库

学术会议:SIGMOD、VLDB、ICDE,

其它一些顶级期刊如

《Artificial Intelligence》、

《Journal of Artificial Intelligence Research》、

《IEEE Transactions on Pattern Analysis and Machine Intelligence》、

《Neural Computation》等也经常发表机器学习和数据挖掘方面的论文提纲: 1 大 机器学习相关学术期刊和会议提纲: 1 大 机器学习相关学术期刊和会议提纲: 1 大 机器学习相关学术期刊和会议提纲: 1 大 机器学习相关学术期刊和会议提纲: 1 大 机器学习相关学术期刊和会议提纲: 1 大 机器学习和统计学习维基百科:

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。提纲: 1 大 统计学习和机器学习Brendan O’Connor的博文Statistics vs. Machine Learning, fight!,初稿是08年写的,或许和作者的机器学习背景有关,他在初稿中主要是贬低了统计学,思想和[1]有点类似,认为机器学习比统计学多了些Algorithm Modeling方面内容,比如SVM的Max-margin,决策树等,此外他认为机器学习更偏实际。但09年十月的时候他转而放弃自己原来的观点,认为统计才是real deal: Statistics, not machine learning, is the real deal, but unfortunately suffers from bad marketing.

提纲: 1 大 统计学习和机器学习提纲: 1 大 统计学习和机器学习---Simon Blomberg:

From R’s fortunes package: To paraphrase provocatively, ‘machine learning is statistics minus any checking of models and assumptions’.

---Andrew Gelman:

In that case, maybe we should get rid of checking of models and assumptions more often. Then maybe we’d be able to solve some of the problems that the machine learning people can solve but we can’t!

提纲: 1 大 统计学习和机器学习研究方法差异

统计学研究形式化和推导

机器学习更容忍一些新方法

维度差异

统计学强调低维空间问题的统计推导(confidence intervals, hypothesis tests, optimal estimators)

机器学习强调高维预测问题

统计学和机器学习各自更关心的领域:

统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution, semiparametric inference, bootstrapping, time series.

机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.

提纲: 1 大 统计学习和机器学习(专业术语)统计学????? ? 机器学习 ———————————–————– Estimation????????Learning Classifier?????? ?? Hypothesis Data point???? ?? Example/Instance Regression??? ?? Supervised Learning Classification??? Supervised Learning Covariate??? ?? ? Feature Response????? ??? Label

提纲: 1 大 统计学习统计学习的对象

data :计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。

数据的基本假设是同类数据具有一定的统计规律性。

统计学习的目的

用于对数据(特别是未知数据)进行预测和分析。

提纲: 1 大 统计学习统计学习的方法

分类:

Supervised learning

Unsupervised learning

Semi-supervised learning

Reinforcement learning

监督学习:

训练数据 training data

模型 model ------- 假设空间 hypothesis

评价准则 evaluation criterion -------- 策略 strategy

算法 algorithm

提纲: 1 大 统计学习的研究:

统计学习方法

统计学习理论(统计学习方法的有效性和效率和基本理论)

统计学习应用

统计学习提纲: 1 大 监督学习Instance,feature vector,feature space

输入实例x的特征向量:

x(i)与xi 不同,后者表示多个输入变量中的第i个

训练集:

输入变量和输出变量:

分类问题、回归问题、标注问题

提纲: 1 大 联合概率分布

假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)

P(X,Y)为分布函数或分布密度函数

对于学习系统来说,联合概率分布是未知的,

训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。

假设空间

监督学习目的是学习一个由输入到输出的映射,称为模型

模式的集合就是假设空间(hypothesis space)

概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)监督学习提纲: 1 大 问题的形式化

监督学习提纲: 1 大 无监督学习训练集:

模型函数:

条件概率分布:

提纲: 1 大 强化学习提纲: 1 大 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 Research, we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.

输出:At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.

提纲: 1 大 回归问题回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由 著名的最小二乘法(least squares)求解。

股价预测提纲: 1 大 Q&A?[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

  1. 第1章 机器学习和统计学习
  2. 学院疫情防控期间“金蓝领”培训工作方案
  3. CATTI 汉译英学习 1-57汇总
  4. SpringMVC概述
  5. 英语演讲印度喜剧电影《三傻大闹宝莱坞》
  6. 游戏规则-“猜谜语”
  7. Unit-1-Fresh-start练习答案综合教程三
  8. 1_外研版三起五年级英语下册1-10模块各单元测试题
  9. 20本艺术第二学期朗读材料共16周(文本)
  10. 寒假学习规划
  11. 小学英语学科指导建议
  12. 继续教育教学设计预约
  13. 教学设计及反思】
  14. 疫情相关节目目录
  15. Teaching Plan for Orientation 1英语 准备期教案
  16. 42号传祺(英文剧本)
  17. WHO新冠疫苗技术线路(英文)
  18. -XX区六年级上学期英语期末试题
  19. 冀教版一上英语教案
  20. 授课安排及考核

以上为《第1章 机器学习和统计学习》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览