如何用线性回归模型做数据分析?
编辑导语:在日常工作中,很多时候都会用到数据分析的方法,线性回归模型看起来非常简单,但实际上它的十分重要;本文作者分享了关于如何用线性回归模型做数据分析的方法,我们一起来学习一下。
一、什么是线性回归
线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系;对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。
线性回归应用于数据分析的场景主要有两种:
驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);预测:自变量与因变量呈线性关系的预测;模型数学形式:𝑦=𝑎0+𝑎1𝑥1+𝑎2𝑥2+⋯+𝑎𝑛𝑥𝑛
例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄。
线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数。
二、线性系数的计算:最小二乘法
我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数——最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实际数据之间误差的平方和为最小。
将上述模型公式简化成一个四个点的线性回归模型来具体看:分数=-2.1+0.56*年龄
最小二乘法选取能使模型 误差平方和= 𝒆1𝟐+ 𝒆2𝟐+ 𝒆3𝟐+ 𝒆4𝟐最小化的直线,生成直线后即可得出模型自变量的系数和截距。
三、决定系数R方(R-squared)与调整R方
R方(适用一元线性回归)。
R方也叫决定系数,它的主要作用是衡量数据中的因变量有多准确可以被某一模型所计算解释。
公式:
离差平方和:代表因变量的波动,即因变量实际值与其平均值之间的差值平方和。
误差平方和:代表因变量实际值与模型拟合值之间的误差大小。
故R方可以解释因变量波动中,被模型拟合的百分比,即R方可以衡量模型拟合数据的好坏程度;R方的取值范围<=1,R方越大,模型对数据的拟合程度越好。
使用不同模型拟合自变量与因变量之间关系的R方举例:
R方=1 模型完美的拟合数据(100%)
R方=0.91 模型在一定程度较好的拟合数据(91%)
R方<0 拟合直线的趋势与真实因变量相反
调整R方(适用多元线性回归):
一般的R方会存在一些问题,即把任意新的自变量加入到线性模型中,都可能会提升R方的值,模型会因加入无价值的变量导致R方提升,对最终结果产生误导。
故在建立多元线性回归模型时,我们把R方稍稍做一些调整,引进数据量、自变量个数这两个条件,辅助调整R方的取值,我们把它叫调整R方;调整R方值会因为自变量个数的增加而降低(惩罚),会因为新自变量带来的有价值信息而增加(奖励);可以帮助我们筛选出更多有价值的新自变量。
n:数据量大小(行数)->数据量越大,新自变量加入所影响越小;p:自变量个数->自变量个数增加,调整R方变小,对这个量进行惩罚;一句话,调整R方不会因为模型新增无价值变量而提升,而R方会因为模型新增无价值变量而提升!通过观测调整R方可以在后续建模中去重多重共线性的干扰,帮助我们选择最优自变量组合。
R方/调整R方值区间经验判断:
<0.3->非常弱的模型拟合0.3-0.5->弱的模型拟合0.5-0.7->适度的模型拟合>0.7->较好的模型拟合四、线性回归在数据分析中的实战流程
我们以共享单车服务满意分数据为案例进行模型实战,想要去分析不同的特征对满意分的影响程度,模型过程如下:
1. 读取数据
2. 切分因变量和自变量、分类变量转换哑变量
3. 使用VIF去除多重共线性
多重共线性:就是在线性回归模型中,存在一对以上强相关变量,多重共线性的存在,会误导强相关变量的系数值。
强相关变量:如果两个变量互为强相关变量,当一个变量变化时,与之相应的另一个变量增大/减少的可能性非常大。
当我们加入一个年龄强相关的自变量车龄时,通过最小二乘法所计算得到的各变量系数如下,多重共线性影响了自变量车龄、年龄的线性系数。
这时候,可以使用VIF消除多重共线性:VIF=1/(1-R方),R方是拿其他自变量去线性拟合此数值变量y得到的线性回归模型的决定系数。某个自变量造成强多重共线性判断标准通常是:VIF>10
我们发现,年龄的VIF远大于10,故去除年龄这一变量,去除后重新计算剩余变量VIF发现所有均<10,即可继续。
4. 计算调整R方
5. 数据标准化
我们希望不同自变量的线性系数,相互之间有可比性,不受它们取值范围影响。
6. 拟合模型,计算回归系数
共享单车分数案例,因变量是分数,自变量是年龄、组别、城区,线性回归的结果为:分数 = 5.5 + 2.7 * 年龄 +0.48 * 对照组 + 0.04 * 朝阳区 + 0.64 * 海淀区 + 0.19 * 西城区。
7. 生成分析洞见——驱动力因素
最终产出不同用户特征对用户调研分数的驱动性排名——驱动力分数反应各个变量代表因素,对目标变量分数的驱动力强弱,驱动力分数绝对值越大,目标变量对因素的影响力越大;反之越小,驱动力分数为负时,表明此因素对目标变量的影响为负向。
8. 根据回归模型进行预测
至此,回归模型已经建好,预测就不写了,把要预测的数据x自变量导入模型即可预测y。
相信大家读完这篇文章,对线性回归模型已经有了一些了解,大家快快动起手来把模型应用到自己的实际工作中吧!
作者:赵小洛,公众号:赵小洛洛洛
本文由 @赵小洛 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
深度学习模型速成,三分钟解决经典线性回归模型(附完整代码)
每天给小编五分钟,小编用自己的代码,带你轻松学习人工智能!本文将会带你做完一个深度学习进阶项目,让你熟练掌握线性回归这一深度学习经典模型,然后在此基础上,小编将在下篇文章带你通过此模型实现对股票涨幅的预测。野蛮智能,小白也能看懂的人工智能。
线性回归
干货快递点:
线性回归是什么? 假如给定数据集{[x1,y1],[x2,y2][x3,y3]……},线性回归希望用一个近似函数来描述这组数据,这个数据集里y的影响因素只有一个就是x,那描述的结果应该就是y = wx + b这样一条直线。这时就把这个解题模型叫做一维线性回归。以此类推,当我们给定一组数据集{[x11,x12,x13,x14,y1],[x21,x22,x23,x24,y2],[x31,x32,x33,x34,y3]……},可以看到这组数据有4个自变量,一个因变量,就可以把它称为多维线性回归,对应产生的直线也是更高维度的,所以总结一下:线性回归目的是创造一条线,使这条线尽可能多的经过我们的数据点,从而显现出数据的一般规律,进而预测出更多的规律。线性回归的优势: 也许你看完上边的解释,你会觉得线性回归技术含量太低,但是,越简单越实用,这确实人工智能领域经久不衰的数学模型之一,面对比较复杂的现实问题,我们只要用更高的维度来描述,就可以把这组数据的规律描述清楚。而且这个模型的可解释性好,所有的参数和对应的权重,我们都可以清晰地看到对应的含义。所以当前很多应用问题,我们都是用的这个模型的基础上变化出很多版本来使用。都获得了很好的效果。线性回归的应用: 既然线性回归创造的这条线拟合了过去的数据,那么数据的规律就蕴藏在这条线中,可以用它来实现未来的预测,所以在下篇文章中,小编将带着大家做一个真正的,股票市场的涨幅预测模型。另一个应用是描述权重,通过线性回归,可以得到不同属性对最后结果的影响大小。进而帮助为我们选择其他数学模型提供信息支持。代码配送站:
如果你还没有搭建好自己的深度学习模型。参考小编的文科生也能看懂的深度学习入门宝典:pytorch+tensorflow快速上手,快速搭建你的深度学习环境。下面进入实战。
以下是小编的代码,为了帮助大家多多练习,特意印成了图片格式。
在这段代码中,首先是导入必要的包,其中第一二行的matplotlib.pyplot和numpy是用来画图的,torch.nn是神经网络模组,用来进行神经网络的相关处理。Variable是将张量转换为变量的函数。
然后构建数据想x_train和y_train,一共12组,即为12个点。然后用matplotlib工具的scatter和show将这12个点画出来。运行结果如下图所示:
class内的部分,定义了这个训练的模型,也就是线性回归,先用super初始化,然后调用nn.linear创建一层神经元。然后使用前向传播并返回执行结果。if_else部分是这个线性回归模型放在GPU或者CPU上的选择。优先放在GPU上,没有GPU就使用CPU。
criterion = nn.MSELoss()定义了损失函数。optimizer定义了优化器,选择使用的是SGD(梯度下降)。最后就是进行训练了,我们设定迭代1000次,然后把数据放在GPU上(或者CPU上),然后将输入数据装入模型,保存模型运行出来的结果out。然后算出loss值,在进行梯度优化前进行归零,对loss值求导后进行梯度优化。等待三到五秒,模型训练完毕。中间输出以下结果。
然后进行模型测试,首先需要将模型的状态转为测试,通过eval()完成。然后将原来的训练集传入测试,观察输出的预测值。中间需要注意下述部分:
predict = model(Variable(x_train).cuda())#如果你是cpu模式的,就不用输入".cuda()"了,这部分代码功能是将数据放到GPU上。
predict = predict.data.cpu().numpy()#同样的道理,如果你是CPU模式,也不用输入".cpu()"部分了,这部分功能是将GPU数转换为CPU数,因为numpy只能运行在cpu上。最后依旧利用plot画图工具,得到如下测试结果。
整体效果,还不错,那么自己也去敲一遍代码吧。出现问题,可以在评论区留言,小编看到就会回的。野蛮智能,小白也能看懂的人工智能,欢迎大家跟小编一起来学习。
相关问答
【什么是 线性回归模型 ?】作业帮[最佳回答]1、有的假定不直接涉及总体分布形式,如在回归分析中常假定分析对象可表示为一些影响因素的线性函数称为线性回归模型文献来源2、有的假定不直接涉...
线性回归模型 和非线性回归模型的区别是什么呢?如题请通俗易...[最佳回答]线性就是每个变量的指数都是1非线性就是至少有一个变量的指数不是1
怎样用eviews做多元 线性回归模型 的软件实现?需要详细操作步骤?1、建立workfile2、建立序列对象,将你的数据输入或者导入,比如序列分别为yx1x2x33、在命令窗口中输入lsycx1x2x3回车,得到结果。第一步是基础,它的含义其实是...
一般 线性回归 怎么做两个 模型 ?在一般线性回归(GLM)中,我们通常只建立一个模型来解释一个或多个自变量与因变量之间的关系。然而,在某些情况下,您可能需要建立两个或多个模型来解释不同的...
什么是古典 线性回归 ?定义满足如下条件的线性回归模型:解释变量与误差项不相关;误差项的期望或均值为零;同方差假定,即每个误差项的方差为一常数;无自相关假定,即两个误差项之...
为什么大多数 回归模型 都是 线性 的?线性回归是由两个关键词来构成,分别是“线性“和”回归“。这里的线性指的是它具有线性的决策边界,在二维空间里其实就是一条线,多维空间里,可以看成是一个超...
建设什么样的简单 线性回归模型 分析中国旅游业将达到世界旅游...多元线性回归模型”域旅作战略的进一步实施,中国将迎来提质增效发展阶段,世界将充分分享中国巨大的出境旅游、投资市场、人才引进和资本输出。中国...
一元 线性回归 有几个随机变量?首先需要区分理论模型与拟合线:理论模型:Yi=β0+β1Xi+εiY_i=\beta_0+\beta_1X_i+\varepsilon_iY_i=\beta_0+\beta_1X_i+\varep...
python怎么做一元 线性回归模型 ?关于这个问题,可以使用Python中的scikit-learn库来进行一元线性回归模型的构建。首先,我们需要加载数据集并准备数据。假设我们的数据集包含了X和Y两列,X表示...
高中 线性回归模型 拟合系数多少回归模型拟合系数丨r丨>0.75。回归模型拟合系数丨r丨>0.75。