020-88888888
Python数据科学:线性回归“开云(中国)Kaiyun体育”
发布者:开云(中国)Kaiyun体育浏览次数: 发布时间:2024-10-02
本文摘要:变量分析:①涉及分析:一个连续变量与一个连续变量间的关系。

变量分析:①涉及分析:一个连续变量与一个连续变量间的关系。②双样本t检验:一个二分分类变量与一个连续变量间的关系。

③方差分析:一个多分类分类变量与一个连续变量间的关系。④卡方检验:一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。本次讲解:线性重返:多个连续变量与一个连续变量间的关系。

其中线性重返分成非常简单线性重返和多元线性重返。/01/数据分析与数据挖掘数据库:一个存储数据的工具。因为Python是内存计算出来,无法处置几十G的数据,所以有时数据清除需在数据库中展开。

统计学:针对小数据的数据分析方法,比如对数据取样、描述性分析、结果检验。人工智能/机器学习/模式识别:神经网络算法,仿效人类神经系统运作,不仅可以通过训练数据展开自学,而且还能根据自学的结果对不得而知的数据展开预测。/02/回归方程01非常简单线性重返非常简单线性重返只有一个自变量与一个因变量。所含的参数有「回归系数」「截距」「扰动项」。

其中「扰动项」又称「随机误差」,遵从均值为0的正态分布。线性重返的因变量实际值与预测值之差称作「残差」。线性重返目的使残差平方和最小化。下面以书中的案例,构建一个非常简单线性重返。

创建收益与月均信用卡开支的预测模型。importnumpyasnpimportpandasaspdimportstatsmodels.apiassmimportmatplotlib.pyplotaspltfromstatsmodels.formula.apiimportols#避免pandas输入省略号情况及空格情况pd.set_option('display.max_columns',500)pd.set_option('display.width',1000)#读取数据,skipinitialspace:忽视分隔符后的空白df=pd.read_csv('creditcard_exp.csv',skipinitialspace=True)print(df.head())读取数据,数据如下。对数据展开相关性分析。

#提供信用卡有开支的行数据exp=df[df['avg_exp'].notnull()].copy().iloc[:,2:].drop('age2',axis=1)#提供信用卡无开支的行数据,NaNexp_new=df[df['avg_exp'].isnull()].copy().iloc[:,2:].drop('age2',axis=1)#描述性统计分析exp.describe(include='all')print(exp.describe(include='all'))#相关性分析print(exp[['avg_exp','Age','Income','dist_home_val']].corr(method='pearson'))输入结果。找到收益(Income)和平均值开支(avg_exp)相关性较小,值为0.674。用于非常简单线性重返创建模型。

#用于非常简单线性重返创建模型lm_s=ols('avg_exp~Income',data=exp).fit()print(lm_s.params)#输入模型基本信息,回归系数及检验信息,其他模型临床信息print(lm_s.summary())一元线性回归系数的输入结果如下。从上由此可知,回归系数值为97.73,截距值为258.05。模型概况如下。其中R值为0.454,P值相似于0,所以模型还是有一定参照意义的。

用于线性重返模型测试训练数据集,得出结论其预测值及残差。#分解的模型用于predict产生预测值,resid为训练数据集的残差print(pd.DataFrame([lm_s.predict(exp),lm_s.resid],index=['predict','resid']).T.head())输入结果,可与最开始读取数据时输入的结果对比一下。用于模型测试预测数据集的结果。#对待预测数据集用于模型展开预测print(lm_s.predict(exp_new)[:5])输入结果。


本文关键词:开云(中国)Kaiyun体育,开yun体育登录网页入口,云开体育官网入口登录,开yun官方登录入口,Kaiyun体育官方网站全站入口

本文来源:开云(中国)Kaiyun体育-www.meijiashiye.com