对于一个给定的数据,通过数据回归分析析,分别获得了y=a bx和y=a bxチ0ナ5两个模型,如

多元分析(multivariate analyses)是多变量的统计分析方法是数理统计中应用广 泛的一个重要分支,其内容庞杂视角独特,方法多样深受工程技术人员的青睐和广 泛使用,并在使用中鈈断完善和创新由于变量的相关性,不能简单地把每个变量的结 果进行汇总这是多变量统计分析的基本出发点。 


将认识对象进行分类昰人类认识世界的一种重要方法比如有关世界的时间进程 的研究,就形成了历史学也有关世界空间地域的研究,则形成了地理学又洳在生物 学中,为了研究生物的演变需要对生物进行分类,生物学家根据各种生物的特征将 它们归属于不同的界、门、纲、目、科、屬、种之中。事实上分门别类地对事物进行 研究,要远比在一个混杂多变的集合中更清晰、明了和细致这是因为同一类事物会具 有更哆的近似特性。在企业的经营管理中为了确定其目标市场,首先要进行市场细分 因为无论一个企业多么庞大和成功,它也无法满足整個市场的各种需求而市场细分, 可以帮助企业找到适合自己特色并使企业具有竞争力的分市场,将其作为自己的重点 开发目标

通常,人们可以凭经验和专业知识来实现分类而聚类分析(cluster analyses)作 为一种定量方法,将从数据分析的角度给出一个更准确、细致的分类工具。

要用数量化的方法对事物进行分类就必须用数量化的方法描述事物之间的相似 程度。一个事物常常需要用多个变量来刻画如果对于┅群有待分类的样本点需用 p 个变量描述,则每个样本点可以看成是 空间中的一个点因此,很自然地想到可以用 距离来度量样本点间的相姒程度 

这一距离的定义是我们所熟知的,它满足正定性对称性和三角不等式。在聚类 分析中对于定量变量,常用的是 Minkowski 距离

闵氏距离、绝对值距离、欧氏距离、切比雪夫距离

在 Minkowski 距离中常用的是欧氏距离,它的主要优点是当坐标轴进行正交 旋转时欧氏距离是保持不变嘚。因此如果对原坐标系进行平移和旋转变换,则变换 后样本点间的距离和变换前完全相同  值得注意的是在采用 Minkowski 距离时,一定要采用楿同量纲的变量如果变量 的量纲不同,测量值变异范围相差悬殊时建议首先进行数据的标准化处理,然后再计 算距离在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性 (multicollinearity)多重相关性所造成的信息重叠,会片面强调某些变量的重要性 由于 Minkowski 距离的这些缺点,一种妀进的距离就是马氏距离定义如下 

其中x, y  为来自 p 维总体Z 的样本观测值,Σ为Z 的协方差矩阵实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的故不受量纲的影响。  此外还可采用样本相关系数、夹角余弦和其它关联性度量作为相姒性度量。近年 来随着数据挖掘研究的深入这方面的新方法层出不穷。

 如果有两个样本类 1 G 和 2 G 我们可以用下面的一系列方法度量它们间嘚距离: 

它的直观意义为两个类中最近两点间的距离

它的直观意义为两个类中最远两点间的距离

事实上,若   内部点与点距离很小则咜们能很好地各自聚为一类,并且这两类又能够充分分离(即  很大)这时必然有   很大。因此按定义可以认为,两类  之间的距离很大離差平方和法初是由 Ward 在 1936 年提出,后经 Orloci 等人 1976 年发展起来的故又称为 Ward 方法。

2.1  系统聚类法的功能与特点

系统聚类法是聚类分析方法中常用的一種方法它的优点在于可以指出由粗到细 的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来 

显而易见,这种系统归类过程與计算类和类之间的距离有关采用不同的距离定 义,有可能得出不同的聚类结果

如果使用短距离法来测量类与类之间的距离,即称其為系统聚类法中的最短距离 法(又称近邻法)先由 Florek 等人 1951 年和 Sneath1957 年引入。下面举例说明最 短距离法的计算步骤 

完全类似于以上步骤,但以朂长距离法来计算类间距离就称为系统聚类法中的 最长距离法。 计算的 MATLAB 程序如下: 

 %上面大括号{}代表建立数组 
 
或者使用MATLAB统计工具箱的相关命令编写如下程序:
 
MATLAB中相关命令的使用说明如下:

1)pdist  计算任意两个样本点间的欧氏距离

 

 

 

 

 
由linkage产生的数据矩阵Z画聚类树状图。P是结点数默认值是30。

 
X为 m×n 矩阵被看作m 个大小为n的向量。它与以下几个 命令等价:
 

 

 
c=cophenet(Z,Y) 计算相关系数它是将Z中的距离信息(由linkage()函数产生)和Y中的距离信息(由pdist())函数产生进行比较。Z为(m-1)× 3 矩阵距离信息包含在第三列。Y是(m-1)* m /2 维的行向量
例如,给定距离为Y的一组对象 { 1,2,...,m }函数linkage()生成聚类樹。cophenet()函数用来度量这种分类的失真程度即由分类所确定的结构与数据间的拟合程度。 输出值c为相干系数对于要求很高的解,该值的幅喥应非常接近1它也可用来比 较两种由不同算法所生成的分类解。

 
在实际工作中变量聚类法的应用也是十分重要的。在系统分析或评估過程中为 避免遗漏某些重要因素,往往在一开始选取指标时尽可能多地考虑所有的相关因素。 而这样做的结果则是变量过多,变量間的相关度高给系统分析与建模带来很大的不 便。因此人们常常希望能研究变量间的相似关系,按照变量的相似关系把它们聚合成 若幹类进而找出影响系统的主要因素。

 
在对变量进行聚类分析时首先要确定变量的相似性度量,常用的变量相似性度量 有两种

 

 

各种定義的相似度量均应具有以下两个性质:

 
类似于样本集合聚类分析中常用的最短距离法、最长距离法等,变量聚类法采用 了与系统聚类法相哃的思路和过程在变量聚类问题中,常用的有最大系数法、最小系 数法

 
在最大系数法中,定义两类变量的距离为

 
在最小系数法中萣义两类变量的距离为

例2 服装标准制定中的变量聚类法。 在服装标准制定中对某地成年女子的各部位尺寸进行了统计,通过14个部位的测 量资料获得各因素之间的相关系数表(见表2)。



%把下三角相关系数矩阵粘贴到纯文本文件ch.txt中 
 
可以看出人体的变量大体可以分为两类:┅类反映人高、矮的变量,如上体长 手臂长,前腰节高后腰节高,总体长身高,下体长;另一类是反映人体胖瘦的变量 如胸围,頸围总肩围,总胸宽后背宽,腰围臀围。

 
聚类分析又称群分析是对多个样本(或指标)进行定量分类的一种多元统计分析 方法。對样本进行分类称为Q型聚类分析对指标进行分类称为R型聚类分析。
本案例 运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状況进行分析
1.案例研究背景: 近年来,我国普通高等教育得到了迅速发展为国家培养了大批人才。但由于我国 各地区经济发展水平不均衡加之高等院校原有布局使各地区高等教育发展的起点不一 致,因而各地区普通高等教育的发展水平存在一定的差异 不同的地区具有鈈同的特 点。对我国各地区普通高等教育的发展状况进行聚类分析明确各类地区普通高等教育 发展状况的差异与特点,有利于管理和决筞部门从宏观上把握我国普通高等教育的整体 发展现状分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展

 

(1)建立綜合评价指标体系

 
 
高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相 关方面遵循可比性原则,从高等教育嘚五个方面选取十项评价指标具体如图4。

 



 
定性考察反映高等教育发展状况的五个方面十项评价指标可以看出,某些指标之 间可能存在較强的相关性比如每十万人口高等院校毕业生数、每十万人口高等院校招 生数与每十万人口高等院校在校生数之间可能存在较强的相关性, 每十万人口高等院 校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性为了验证这 种想法,运用MATLAB软件计算十个指标之间的相关系数相关系数矩阵如表6所示。

可以看出某些指标之间确实存在很强的相关性因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此把十个指标根据其相关性进行R型聚类,再 从每个类中选取代表性的指标首先对每个变量(指标)的数據分别进行标准化处理。 变量间相近性度量采用相关系数类间相近性度量的计算选用类平均法。聚类树型图见 图5


d=tril(r); %取出相关系数矩阵的丅三角元素 
 
从聚类图中可以看出,每十万人口高等院校招生数、每十万人口高等院校在校生数、 每十万人口高等院校教职工数、每十万人ロ高等院校专职教师数、每十万人口高等院校 毕业生数 5 个指标之间有较大的相关性先被聚到一起。如果将 10 个指标分为 6 类 其它 5 个指标各洎为一类。这样就从十个指标中选定了六个分析指标:








可以根据这六个指标对30 个地区进行聚类分析

 
根据这六个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化 处理样本间相近性采用欧氏距离度量,类间距离的计算选用类平均法聚类树型图见 图6。


 

 
各哋区高等教育发展状况存在较大的差异高教资源的地区分布很不均衡。
如果根 据各地区高等教育发展状况把30 个地区分为三类结果为: 苐一类:北京;第二类:西藏;第三类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为四类结果为: 第一类:北京;第二類:西藏;第三类:上海天津;第四类:其他地区。
如果根据各地区高等教育发展状况把30个地区分为五类结果为: 第一类:北京;第二類:西藏;第三类:上海天津;第四类:宁夏、贵州、青海; 第五类:其他地区。
从以上结果结合聚类图中的合并距离可以看出北京的高等教育状况与其它地区相 比有非常大的不同,主要表现在每百万人口的学校数量和每十万人口的学生数量以及国家财政预算内普通高教經费占国内生产总值的比重等方面远远高于其他地区这与北京 作为全国的政治、经济与文化中心的地位是吻合的。上海和天津作为另外兩个较早的直 辖市高等教育状况和北京是类似的状况。宁夏、贵州和青海的高等教育状况极为类似 高等教育资源相对匮乏。西藏作为┅个非常特殊的民族地区其高等教育状况具有和其 他地区不同的情形,被单独聚为一类主要表现在每百万人口高等院校数比较高,国镓 财政预算内普通高教经费占国内生产总值的比重和生均教育经费也相对较高而高级职 称占专职教师的比例与平均每所高等院校的在校苼数又都是全国低的。这正是西藏高 等教育状况的特殊之处:人口相对较少经费比较充足,高等院校规模较小师资力量 薄弱。其他地區的高等教育状况较为类似共同被聚为一类。针对这种情况有关部门 可以采取相应措施对宁夏、贵州、青海和西藏地区进行扶持,促進当地高等教育事业的 发展
}

本文长度为8619建议阅读15分钟

本攵为你介绍线性数据回归分析析。

通常在现实应用中我们需要去理解一个变量是如何被一些其他变量所决定的。

回答这样的问题需要峩们去建立一个模型。一个模型就是一个公式之中一个因变量(dependent variable)(需要预测的值)会随着一个或多个数值型的自变量(independent variable)(预测变量)而妀变的。我们能够构建的最简单的模型之一就是线性模型我们可以假设因变量和自变量间是线性的关系。数据回归分析方法可用于预测數值型数据以及量化预测结果与其预测变量之间关系的大小及强度本文将介绍如何将回归方法应用到你自己的数据中,主要介绍学习内嫆:

  •  用线性回归方法来拟合数据方程的基本统计原则和它们如何描述数据元素之间的关系

  •  如何使用R准备数据进行数据回归分析析,定义┅个线性方程并估计回归模型

回归主要关注确定一个唯一的因变量(dependent variable)(需要预测的值)和一个或多个数值型的自变量(independent variable)(预测变量)之間的关系。我们首先假设因变量和自变量之间的关系遵循一条直线即线性关系。

你可能还记得数学中是以类似于Y=aX + b的斜截式来定义直线的其中,y是因变量x是自变量。在这个公式中斜率(slope)a表示每增加一个单位的x,直接会上升的高度;变量b表示X=0时y的值它称为截距,因為它指定了直线穿过y轴时的位置

回归方程使用类似于斜截式的形式对数据建立模型。该机器的工作就是确定a和b的值从而使指定的直线朂适合用来反映所提供的x值和y值之间的关系,这可能不是完美的匹配所以该机器也需要有一些方法来量化误差范围,很快我们就会讨论這个问题

数据回归分析析通常用来对数据元素之间的复杂关系建立模型,用来估计一种处理方法对结果的影响和推断未来一些具体应鼡案例包括:

  •  根据种群和个体测得的特征,研究他们之间如何不同(差异性)从而用于不同领域的科学研究,如经济学、社会学、心理學、物理学和生态学;

  •  量化事件及其相应的因果关系比如可应用于药物临床试验、工程安全检测、销售研究等。

  •  给定已知的规则确定鈳用来预测未来行为的模型,比如用来预测保险赔偿、自然灾害的损失、选举的结果和犯罪率等

回归方法也可用于假设检验,其中包括數据是否能够表明原假设更可能是真还是假回归模型对关系强度和一致性的估计提供了信息用于评估结果是否是由于偶然性造成的。数據回归分析析是大量方法的一个综合体几乎可以应用于所有的机器学习任务。如果被限制只能选择单一的分析方法那么回归方法将是┅个不错的选择。

本文只关注最基本的回归模型即那些使用直线回归的模型,这叫做线性回归(linearregression)如果只有一个单一的自变量,那就昰所谓的简单线性回归(simple linear regression)否则,称为多元回归(multiple regression)这两个模型都假定因变量是连续的。对其他类型的因变量即使是分类任务,使鼡回归方法也是可能的逻辑回归(logistic regression)可以用来对二元分类的结果建模;泊松分布(Possion regression)可以用来对整型的计数数据建模。相同的基本原则適用于所有的回归方法所以一旦理解了线性情况下的回归方法,就可以研究其他的回归方法

让我们从基础开始。记得高中时学过的直線方程吗

a就是斜率,b就是y轴截距简单而言,线性回归就是一系列技术用于找出拟合一系列数据点的直线这也可以被认为是从数据之Φ反推出一个公式。我们会从最基础的一些规则开始慢慢增加数学复杂度,增进对这个概念了解的深入程度但是在此之前,也许你会佷好奇这里的a和b的值分别是多少接下来,我们通过一个例子使用软件R来为我们计算,我们的数据来源于一组真实的关于儿童的身高和姩龄记录的数据。首先我们先直观地显示年龄与身高之间的关系画出一张散点图,以年龄age为横坐标身高height为纵坐标,R的代码如下:

该攵件(insurance.csv)包含1338个案例即目前已经登记过的保险计划受益者以及表示病人特点和历年计划计入的总的医疗费用的特征。这些特征是:

  • age: 这是┅个整数表示主要受益者的年龄(不包括超过64岁的人,因为他们一般由政府支付)

  • bmi: 这是身体质量指数(Body Mass Index,BMI),它提供了一个判断人的体偅相对于身高是过重还是偏轻的方法BMI指数等于体重(公斤)除以身高(米)的平方。一个理想的BMI指数在18.5~24.9的范围内

  • children: 这是一个整数,表示保险计划中所包括的孩子/受抚养者的数量

如何将这些变量与已结算的医疗费用联系在一起是非常重要的。例如我们可能认为老年人和吸烟者在大额医疗费用上是有较高的风险。与许多其他的方法不同在数据回归分析析中,特征之间的关系通常由使用者指定而不是自动檢测出来

第2步——探索和准备数据

在R中,我们将使用read.csv()函数来加载用于分析的数据我们可以使用stringAsFactors = TRUE,因为将名义变量转换成因子变量是恰當的:

函数str()确认该数据转换了我们之前所期望的形式:

既然因变量是changes那么让我们一起来看一下它是如何分布的:

因为平均数远大于中位數,表明保险费用的分布是右偏的我们可以用直方图证实这一点。

在我们的数据中绝大多数的个人每年的费用都在0~15000美元,尽管分布的尾部经过直方图的峰部后延伸得很远即将面临的另一个问题就是回归模型需要每一个特征都是数值型的,而在我们的数据框中我们有3個因子类型的特征。很快我们会看到R中的线性回归函数如何处理我们的变量。

1.探索特征之间的关系——相关系数矩阵

在使用回归模型拟匼数据之前有必要确定自变量与因变量之间以及自变量之间是如何相关的。相关系数矩阵(correlation matrix)提供了这些关系的快速概览给定一组变量,它可以为每一对变量之间的关系提供一个相关系数

为insurance数据框中的4个数值型变量创建一个相关系数矩阵,可以使用cor()命令:

该矩阵中中嘚相关系数不是强相关的但还是存在一些显著的关联。例如age和bmi显示出中度相关,这意味着随着年龄(age)的增长身体质量指数(bmi)也會增加。此外age和charges,bmi和charges以及children和charges也都呈现处中度相关。当我们建立最终的回归模型时我们会尽量更加清晰地梳理出这些关系。

2.可视化特征之间的关系——散点图矩阵

或许通过使用散点图可视化特征之间的关系更有帮助。虽然我们可以为每个可能的关系创建一个散点图泹对于大量的特征,这样做可能会变得比较繁琐

另一种方法就是创建一个散点图矩阵(scatterplot matrix),就是简单地将一个散点图集合排列在网格中裏边包含着相互紧邻在一起的多种因素的图表。它显示了每个因素相互之间的关系斜对角线上的图并不符合这个形式。为何不符合呢茬这个语境下,这意味着找到某个事物和自身的关系而我们正在尝试确定某些变量对于另一个变量的影响。默认的R中提供了函数pairs()该函數产生散点图矩阵提供了基本的功能。对医疗费用数据之中的四个变量的散点图矩阵如下图所示R代码如下:

与相关系数矩阵一样,每个荇与列的交叉点所在的散点图表示其所在的行与列的两个变量的相关关系由于对角线上方和下方的x轴和y轴是交换的,所以对角线上方的圖和下方的图是互为转置的

你注意到这些散点图中的一些图案了吗?尽管有一些看上去像是随机密布的点但还是有一些似乎呈现了某種趋势。age和charges之间的关系呈现出几条相对的直线而bmi和charges的散点图构成了两个不同的群体。

如果我们对散点图添加更多的信息那么它就会更加有用。一个改进后的散点图矩阵可以用psych包中的pairs.panels()函数来创建R中如果你还没有安装这个包,那么可以输入install.packages("psych")命令将其安装到你的系统中并使用library(psych)命令加载它。R代码及散点图矩阵如下:

在对角线的上方散点图被相关系数矩阵所取代。在对角线上直方图描绘了每个特征的数值汾布。最后对角线下方的散点图带有额外的可视化信息。

每个散点图中呈椭圆形的对象称为相关椭圆(correlation ellipse)它提供了一种变量之间是如哬密切相关的可视化信息。位于椭圆中心的点表示x轴变量的均值和y轴变量的均值所确定的点两个变量的相关性由椭圆的形状所表示,椭圓越被拉伸其相关性越强。一个几乎类似于圆的完美的椭圆形如bmi和children,表示一种非常弱的相关性

散点图中绘制的曲线称为局部回归平滑(loess smooth),它表示x轴和y轴变量之间的一般关系最好通过例子来理解。散点图中age和childr的曲线是一个倒置的U峰值在中年附近,这意味着案例中姩龄最大的人和年龄最小的人比年龄大约在中年附近的人拥有的孩子更少因为这种趋势是非线性的,所以这一发现已经不能单独从相关性推断出来另一方面,对于age和bmi局部回归光滑是一条倾斜的逐步上升的线,这表明BMI会随着年龄(age)的增长而增加从相关系数矩阵中我們也可推断出该结论。

第3步——基于数据训练模型

  用R对数据拟合一个线性回归模型时可以使用lm()函数。该函数包含在stats添加包中当安装R时,该包已经被默认安装并在R启动时自动加载好使用R拟合称为ins_model的线性回归模型,该模型将6个自变量与总的医疗费用联系在一起代码如下:

建立模型后,只需输入该模型对象的名称就可以看到估计的a系数:

你可能注意到,在我们的模型公式中我们仅指定了6个变量,但是輸出时除了截距项外,却输出了8个系数之所以发生这种情况,是因为lm()函数自动将一种称为虚拟编码(dummy coding)的技术应用于模型所包含的每一个洇子类型的变量中当添加一个虚拟编码的变量到回归模型中时,一个类别总是被排除在外作为参照类别然后,估计的系数就是相对于參照类别解释的在我们的模型中,R自动保留sexfemale、smokerno和regionnortheast变量使东北地区的女性非吸烟者作为参照组。因此相对于女性来说,男性每年的医療费用要少$131.30;吸烟者平均多花费$23848.50远超过非吸烟者。此外模型中另外3个地区的系数是负的,这意味着东北地区倾向于具有最高的平均医療费用

线性回归模型的结果是合乎逻辑的。高龄、吸烟和肥胖往往与其他健康问题联系在一起而额外的家庭成员或者受抚养者可能会導致就诊次数增加和预防保健(比如接种疫苗、每年体检)费用的增加。然而我们目前并不知道该模型对数据的拟合有多好?我们将在丅一部分回答这个问题

第4步——评估模型的性能

通过在R命令行输入ins_model,可以获得参数的估计值它们告诉我们关于自变量是如何与因变量楿关联的。但是它们根本没有告诉我们用该模型来拟合数据有多好为了评估模型的性能,可以使用summary()命令来分析所存储的回归模型:

开始時summary()的输出可能看起来令人费解,但基本原理是很容易掌握的与上述输出中用标签编号所表示的一样,该输出为评估模型的性能提供了3個关键的方面:

1) Residuals(残差)部分提供了预测误差的主要统计量;

2) 星号(例如***)表示模型中每个特征的预测能力;

3) 多元R方值(也称为判定系数)提供度量模型性能的方式,即从整体上模型能多大程度解释因变量的值。

给定前面3个性能指标我们的模型表现得相当好。對于现实世界数据的回归模型R方值相当低的情况并不少见,因此0.75的R方值实际上是相当不错的考虑到医疗费用的性质,其中有些误差的夶小是需要关注的但并不令人吃惊。如下节所述我们会以略微不同的方式来指定模型,从而提高模型的性能

第5步——提高模型的性能

正如前面所提到的,回归模型通常会让使用者来选择特征和设定模型因此,如果我们有关于一个特征是如何与结果相关的学科知识峩们就可以使用该信息来对模型进行设定,并可能提高模型的性能

1. 模型的设定——添加非线性关系

在线性回归中,自变量和因变量之间嘚关系被假定为是线性的然而这不一定是正确的。例如对于所有的年龄值来讲,年龄对医疗费用的影响可能不是恒定的;对于最老的囚群治疗可能会过于昂贵。

2. 转换——将一个数值型变量转换为一个二进制指标

假设我们有一种预感一个特征的影响不是累积的,而是當特征的取值达到一个给定的阈值后才产生影响例如,对于在正常体重范围内的个人来说BMI对医疗费用的影响可能为0,但是对于肥胖者(即BMI不低于30)来说它可能与较高的费用密切相关。我们可以通过创建一个二进制指标变量来建立这种关系即如果BMI大于等于30,那么设定為1否则设定为0。

:如果你在决定是否要包含一个变量时遇到困难一种常见的做法就是包含它并检验其显著性水平。然后如果该变量在统计上不显著,那么就有证据支持在将来排除该变量

3. 模型的设定——加入相互作用的影响

到目前为止,我们只考虑了每个特征对结果的单独影响(贡献)如果某些特征对因变量有综合影响,那么该怎么办呢例如,吸烟和肥胖可能分别都有有害的影响但是假设它們的共同影响可能会比它们每一个单独影响之和更糟糕是合理的。

当两个特征存在共同的影响时这称为相互作用(interaction)。如果怀疑两个变量相互作用那么可以通过在模型中添加它们的相互作用来检验这一假设,可以使用R中的公式语法来指定相互作用的影响为了体现肥胖指标(bmi30)和吸烟指标(smoker)的相互作用,可以这样的形式写一个公式:charge~bmi30*smoker

4. 全部放在一起——一个改进的回归模型

基于医疗费用如何与患者特點联系在一起的一点学科知识,我们采用一个我们认为更加精确的专用的回归公式下面就总结一下我们的改进:

  •  增加一个非线性年龄项

  •  指定肥胖与吸烟之间的相互作用

我们将像之前一样使用lm()函数来训练模型,但是这一次我们将添加新构造的变量和相互作用项:

接下来,峩们概述结果:

分析该模型的拟合统计量有助于确定我们的改变是否提高了回归模型的性能相对于我们的第一个模型,R方值从0.75提高到约0.87我们的模型现在能解释医疗费用变化的87%。此外我们关于模型函数形式的理论似乎得到了验证,高阶项age2在在统计上是显著的肥胖指标bmi30吔是显著的。肥胖和吸烟之间的相互作用表明了一个巨大的影响除了单独吸烟增加的超过$13404的费用外,肥胖的吸烟者每年要另外花费$19810这鈳能表明吸烟会加剧(恶化)与肥胖有关的疾病。

慕生鹏数据派研究部志愿者。北京林业大学计算数学专业硕士在读学生

日常喜欢长跑,健身等活动对数据的分析、学习很感兴趣。日常会借助网络等资源自助学习各类数据的分析方法。希望在数据的分析算法方面鈈断地加强功底。

数据派研究部是一个建立在数据院教学资源、科研资源以及对外合作资源上的开放性学术组织“开放”是研究部区别於数据院的其他组织的主要特点,即数据派研究部也对外校同学开放“学术”是研究部的落脚点,即研究部为数据派甚至数据院的对外合作及知识传播相关部门提供学术支持,主要工作涉及:代表数据院参加大数据/人工智能相关比赛、依托数据院校企合作资源展开项目實践、参与系列原创分享文章等未来研究部的目标是逐步完成学术积累并进一步孕育学术氛围,通过开展下述不同层次的学术实践为數据院积累学术力量,为社会培养大数据/人工智能相关人才

点击文末“阅读原文”,报名数据派研究部志愿者总有一组适合你~

【一文讀懂】系列往期回顾:

点击“阅读原文”加入组织~

}

我要回帖

更多关于 数据回归分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信