Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础_第1页
Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础_第2页
Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础_第3页
Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础_第4页
Matlab 数据分析 课件 康海刚 第1、2章 数据的基本概念及其应用、Matlab 基础_第5页
已阅读5页,还剩68页未读, 继续免费阅读

下载本文档

kok电子竞技权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

kok电子竞技:文档简介

Matlab数据分析第1章数据的基本概念及其应用第2章Matlab基础第3章随机模拟第4章数据预处理第5章数据探索与分析第6章多元线性回归模型第7章聚类分析第8章分类第1章数据的基本概念及其应用1.1数据与数据处理1.1.1数据的相关基本概念1.数据2.大数据(1)Volume(大量)数据存储单位从过去的GB、TB,到现在的PB、EB、ZB量级了。(2)Velocity(高速)生活中每个人都离不开互联网,每个人每天都在向大数据中心提供大量的信息,通过互联网传输,大数据的产生非常迅速。(3)Variety(多样)广泛的数据来源决定了大数据形式的多样性,任何形式的数据都可以产生作用。(4)Value(价值)大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式的预测分析有价值的数据。3.信息1.1数据与数据处理4.信息量1.1.2数据处理的主要概念1.算法2.数据挖掘3.机器学习1.1数据与数据处理1.1.3数据处理的流程第一阶段:制定目标?该组织或单位什么要设立和研究该项目?缺少什么以及需要什么??该组织或单位正在做什么事情来解决问题?什么还不够好?是否有可借鉴的经验??你需要什么种类的数据以及需要多少?团队需要什么人员、哪些技术、多少时问?计算资源是什么??该组织或单位如何实施和应用你的结果?为了成功地应用部署,必须满足哪些约束条件?1.1数据与数据处理第二阶段:数据准备?什么数据可以我所用??这些数据是否有助于解决问题??这些数据是否足够多??数据的质量是否足够好?第三阶段:建立模型1)特征化。2)打分。3)排序。4)关联。5)分类。1.1数据与数据处理6)聚类。7)异常检测。第四阶段:评价与批判模型?对你的需求来说是否足够准确?它是否能很好地概括需求??它是否比“直观猜测”表现得更好?比你当前使用的任何估计都表现得更好?比之前使用的模型方法是否更好??模型结果(系数、聚簇、规则)在专业领域的情景是否有意义?也就是说,模型给出的结果是否符合实际情况??模型是否足够精确?是否有更好的方式?第五阶段:展示结果和文档第六阶段:模型实施与维护1.1数据与数据处理1.1.4数据处理的误区1.不要用单一类型的数据去评价全局2.不要夸大偶然事件,认为带来必然结果3.避免唯数据论4.不是从问题实际出发,寄希望于软件“黑箱”工具1.2数据处理涉及的主要领域1.2.1统计学1.2.2数据挖掘1)处理的数据规模十分庞大,达到GB、TB数量级。2)查询一般是决策制定者提出的即时查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的内容。3)在一些应用领域,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。4)数据挖掘中,规则的发现基于统计规律。5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。1.2数据处理涉及的主要领域1.2.3云计算(1)超大规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。(2)虚拟化云计算支持用户在任意位置、使用各种终端获取应用服务。(3)高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。(4)通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(5)高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务“云”是一个庞大的资源池,可按需购买;云可以像白来水、电、煤气那样计费。(7)极其廉价由于“云”的特殊容错性,可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之1.2数据处理涉及的主要领域传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。(8)潜在的危险性云计算除了提供计算服务外,还必然提供了存储服务。常见的云计算平台有以下9个:(1)GoogleAppEngine

GoogleAppEngine是Google提供的服务,允许开发者在Google的基础架构上运行网络应用程序。(2)AmazonElasticBeanstalkElasticBeanstalk为在AWS(AmazonWebServices)云中部署和管理应用提供了一种方法。(3)微软云Azure云计算服务平台可以使客户选择的权力部署在以云计算基础的互联网服务上,或通过服务器,或把它们混合起来以任何方式提供给需要的业务。(4)阿里云与传统的操作系统相比,依托云计算的阿里云OS具有明显的优势。1.2数据处理涉及的主要领域(5)百度BAE平台针对大数据的规模大、类型多、价值密度低等特征,百度云平台提供的BAE(百度应用引擎)将提供高并发的处理能力,以满足处理速度快的要求。(6)新浪SAE云计算平台作为典型的云计算,SAE采用“所付即所用,所付仅所用”的计费理念,通过日志和统计中心精确地计算每个应用的资源消耗(包括CPU、内存、磁盘等)。(7)腾讯云腾讯云有着深厚的基础架构,并且有着多年对海量互联网服务的经验,可以为开发者及企业提供云服务器、云存储、云数据库和弹性Web引擎等整体一站式服务方案。(8)华为云华为云通过基于浏览器的云管理平台,以互联网线上自助服务的方式,为用户提供云计算IT基础设施服务。(9)盛大云盛大云是一个安全、快捷、自助化Taas和Paas服务的门户入口。1.3数据处理的主要方法1.3.1数据采集(1)数据抓取通过程序从现有的网络资源中提取相关信息,录入到数据库中。(2)数据导入将指定的数据源导入数据库中,通常支持的数据源包括Excel表格、数据库文件、XMI文档、文本文件以及常用的数据库(如SQLServer、Oracle、MySQL等)。(3)传感设备自动采集数据有关数据或信息通过传感设备传输到主控板,主控板对数据或信息进行信号解析、算法分析和数据量化,将数据通过无线通信方式进行传输。1.3.2数据预处理(1)数据清理它是通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据的。(2)数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。1.3数据处理的主要方法(3)数据变换通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。(4)数据归约数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,这就使数据量小得多,但仍然接近于保持原数据的完整性,使结果与归约前结果相同或几乎相同。1.3.3数据分析1)老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图。2)新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。1.描述性数据分析2.探索性数据分析3.验证性数据分析1.3数据处理的主要方法1.3.4数据挖掘算法1.3数据处理的主要方法1.监督学习模型(1)决策树决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。(2)贝叶斯算法贝叶斯(Bayes)算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(NaiveBayes)算法。(3)神经网络神经网络是一种具有类似于大脑神经突触连接结构并能进行信息处理等应用的数学模型。(4)支持向量机(SupportVectorMachine,SVM)支持向量机是根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。(5)集成学习分类模型集成学习是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著地提高学习系统的1.3数据处理的主要方法泛化能力。(6)其他分类学习模型此外还有logistics回归模型、隐马尔科夫分类模型(HMM)、基于规则的分类模型等众多的分类模型,对于处理不同的数据、分析不同的问题,各种模型都有自己的特性和优势。2.无监督学习模型(1)k-means聚类k-means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇,然后按平均法重新计算各个簇的质心,从而确定新的簇心,一直迭代,直到簇心的移动距离小于某个给定的值。(2)基于密度的聚类根据密度完成对象的聚类。(3)层次聚类层次聚类就是对给定的数据集进行层次分解,直到满足某种条件为止。(4)谱聚类谱聚类(SpectralClustering,SC)是一种基于图论的聚类方法———将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量较远,以达到常见聚类1.3数据处理的主要方法的目的。第2章Matlab基础2.1

Matlab简介2.1

Matlab简介2.1.1Matlab的特点1)Matlab是一个交互式软件系统,输入一条命令,立即就可以得到该命令的结果。2)具有强大的数值计算功能。3)Matlab符号运算功能。4)Matlab绘图功能。5)编程功能。6)丰富的APPS。7)源程序开放。2.1.2Matlab窗口简介?命令窗口(CommandWindow)?历史命令窗口(HistoryCommandWindow)2.1

Matlab简介?编辑调试窗口(Edit/DebugWindow)?图像窗口(FigureWindow)?工作空间(Workspace)?当前目录文件夹(CurrentFolder)?帮助窗口(HelpBrowser)?当前路径窗口(CurrentDirectoryBrowser)本节将简单介绍其中几个窗口的基本操作方式。2.1

Matlab简介1.命令窗口(CommandWindow)2.1

Matlab简介2.1

Matlab简介2.历史命令窗口(HistoryCommandWindow)3.编辑调试窗口(Edit/DebugWindow)2.1

Matlab简介4.图像窗口(FigureWindow)2.1

Matlab简介5.工作空间(Workspace)2.1

Matlab简介2.1

Matlab简介6.当前目录文件夹(CurrentFolder)2.1

Matlab简介2.2数组及其运算2.2.1变量和数组1.数值的记述2.变量命名规则1)变量名、函数名对字母大小写是敏感的,如变量myvar和MyVar表示两个不同的变量。2)变量名的第一个字符必须是英文字母,最多可包含63个字符(英文、数字和下连符),如myvar201是合法的变量名。3)变量名中不得包含空格、标点、运算符,但可以包含下连符。4)尽量避免与预定义变量名相同。3.Matlab默认的预定义变量2.2数组及其运算①如果用户对表中任何一个预定义变量进行赋值,则该变量的默认值将被用户新赋的值“临时”覆盖。②在遵循IEEE算法规则的机器上,被0除是允许的。2.2数组及其运算4.数组2.2数组及其运算5.数据类型2.2数组及其运算2.2.2变量的初始化1)用赋值语句初始化变量。2)用input函数从键盘输入初始化变量。3)从文件读取一个数据。1.用赋值语句初始化变量2.用捷径表达式赋值3.用内置函数来初始化2.2数组及其运算4.用关键字input初始化变量2.2.3多维数组1.多维数组在内存中的存储2.2数组及其运算2.用单个下标访问多标数组2.2数组及其运算2.2.4子数组1.end函2.子数组在左边的赋值语句的使用3.用一标量来给子数组赋值4.子数组的删除2.2.5单元阵列2.2数组及其运算2.2数组及其运算2.2.6显示输出数据1.改变默认格式2.2数组及其运算2.disp函数3.用fprintf函数格式化输出数据2.2.7数据文件2.2.8数组运算和矩阵运算2.2数组及其运算2.2数组及其运算2.2.9内置函数1.常用内置函数2.2数组及其运算2.其他内置函数(1)randrand产生一个在(0,1)之间的均匀分布的数。(2)randnrandn产生一个服从N(0,1)正态分布的随机数。(3)find找出非0元素,也可以查找指定条件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2数组及其运算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩阵I,如果x是一个向量,则Y=x(I)。(5)fprintf格式化数据输出与C语言中的printf函数用法相似,常见的数值处理函数见表2-8。2.2数组及其运算2.3作图入门2.3作图入门2.3.1简单的直角坐标系作图1.基本作图操作2.3作图入门2.3作图入门2.3作图入门2.联合作图2.3作图入门2.3作图入门2.3作图入门2.3.2作图的附加特性1.图例2.3作图入门2.3作图入门2.控制坐标轴范围2.3作图入门3.在同一坐标系内画出多个图像2.3作图入门2.3作图入门4.创建多个图像窗口5.子窗口2.3作图入门2.3作图入门6.对画线的增强控制2.3作图入门2.3作图入门7.极坐标图像2.4

Matlab程序设计2.4.1关系运算符和逻辑运算符1.关系运算符2.4

Matlab程序设计2.逻辑运算符2.4

Matlab程序设计3.逻辑函数2.4.2选择结构1.if结构2.4

Matlab程序设计例2.1求一元二次方程的根。步骤1打开Script文件,在CommandWindow中输入edit命令或按“Ctrl+N”组合键。步骤2在edit文件中输入下述命令:步骤3保存Script文件。步骤4运行和调试Script文件。2.switch结构例2.2编写一个学生成绩管理程序。3.try/catch结构2.4

Matlab程序设计2.4.3循环结构1.

while循环例2.3使用欧几里得算法求两个整数的最大公约数,伪代码如下:2.4

Matlab程序设计2.for循环1)在for循环开始时,Matlab产生了控制表达式。2)第一次进入循环,程序把循环控制表达式的第一列赋值于循环变量index,然后执行循环体内的语句。3)在循环体的语句被执行后,程序把循环控制表达式的下一列赋值于循环变量index,程序将再一次执行循环体语句。4)只要在循环控制表达式中还有剩余的列,步骤3)将会重复执行。例2.4阶乘(factorial)函数。例2.5输入一系列的测量数,计算它们的平均数和标准差。1)在2.2节已经学过,用赋值的方法可以扩展一个已知的数组。2)用for循环和向量计算是非常常见的。2.4

Matlab程序设计例2.6为了比较循环和向量算法执行程序所用的时间,分别用这两种方法编程,测试3个运算所花的时间。1)用for循环计算1~10000之间的每个整数的平方,而事先不初始化平方数组。2)用for循环计算1~10000之间的每个整数的平方,而事先初始化平方数组。3)用向量算法计算1~10000之间的每个整数的平方。3.break和continue语句例2.7for循环中的continue语句:2.4

Matlab程序设计4.循环嵌套例2.8用两重for循环嵌套来计算。例2.9在for循环嵌套中包含break语句。2.5自定义函数(1)子程序的独立检测每个子程序都可以当作一个独立的单元来编写。(2)代码的可复用性在许多情况下,一个基本的子程序可应用在程序的许多地方。(3)远离意外副作用函数通过输入参数列表(inputargumentlist)从程序中读取输入值,通过输出参数列表(outputargumentlist)给程序返回结果。例2.10自定义函数dist2,用于计算笛卡儿坐标系中的点(x1,y1)与点(x2,y2)之间的距离。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论