Menu
产品
Tempo大数据分析平台
Tempo商业智能平台
Tempo人工智能平台
Tempo数据工厂平台
Tempo数据治理平台
Tempo主数据管理平台
Tempo指标平台
解决方案
自助式可视化分析
算法模型管理
指标管理解决方案
数字指挥中心
湖仓一体解决方案
智能场景应用构建
主数据应用监管
数据中台
行业应用
发电
电网
制造
油气
煤炭
高校
政企
金融
科研院所
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
DAMA认证
关于我们
美林数据
合作生态
内容中心
帮助中心
美林新闻
行业资讯
申请试用
方案咨询
产品
Tempo大数据分析平台
面向企业级用户的一体化大数据分析平台
Tempo商业智能平台
面向业务人员的自助式可视化分析平台
Tempo人工智能平台
自动化、智能化的分析模型构建平台
Tempo数据工厂平台
批流一体的大数据开发平台
Tempo数据治理平台
打破数据治理困境,为业务价值保驾护航
Tempo主数据管理平台
解决主数据集成难、应用难的问题
Tempo指标平台
让管理更敏捷、业务更智能
解决方案
自助式可视化分析
数据指导行动,让每一次都有进步
算法模型管理
构建企业级模型管理与应用平台
指标管理解决方案
轻量化打造指标体系,让企业高质量发展
数字指挥中心
从数据中获得见解,让决策有据可依
湖仓一体解决方案
一体化的数据存储、集成、开发解决方案
智能场景应用构建
从数据开发到智能分析的一站式解决方案
主数据应用监管
解决企业主数据应用无法监管难题
数据中台
打造企业数字化转型数据底座
行业应用
发电
数字化赋能新能源电厂提质增效
电网
助力数字电网建设
制造
数字化智造从顶层设计到落地实施
油气
以AI视角优化油气行业生产流程
煤炭
AI赋能智慧煤矿安全、高效生产
高校
教学、实践、科研一体化实验室解决方案
政企
助力智慧政务决策
金融
客群价值深度挖掘,打造精准营销新模式
科研院所
提升科研转化能力,助力产业应用创新
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
掌握DCMM国家标准,全面提升数据管理技能
DAMA认证
学习国际数据管理业界权威知识体系,培养数据人才
关于我们
美林数据
连续7年大数据企业50强
合作生态
基于多年成功经验,提供技术与方法论支持
内容中心
大数据专业知识沉淀与成果共享
帮助中心
Tempo产品操作手册及常见问题解析
美林新闻
美林数据动态尽在掌握
行业资讯
第一时间洞察最新行业资讯
美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
产品简介
Tempo商业智能平台
提供了从数据接入、数据准备、数据可视化分析于一体的完整的解决方案
Tempo人工智能平台
为“全民数据科学家”提供自动化、智能化的数据分析模型构建能力。
Tempo数据工厂平台
支持大规模数据的快速集成和高效计算,构建流批一体大数据开发平台。
Tempo指标平台
指标的体系化建设和全生命周期管理。
Tempo数据治理平台
面向企业数据治理、数据中台落地的应用平台。
Tempo主数据管理平台
为用户提供全生命周期管控的主数据治理工具。
相关推荐
数据变现狂潮!细数数据资产入表如何助力企业“一夜暴富”?
RAG vs 微调:大模型知识的进化之路
大模型在企业数智化转型中可以做哪些事情?
美林新闻
/
NEWS
首页
美林数据
行业资讯
【数据挖掘算法分享】机器学习平台——回归模型评估
2022-12-12 16:35:00
次
回归模型评估是
机器学习平台
中用来评价一个回归任务中的模型表现。比较一种回归一组参数、不同参数组合或者多种回归算法之间的分析性能,检验回归模型的准确性和可靠性。
主要包含以下几种指标:
假设y_i是第i个样本的真实值,
为对第i个样本的预测值,其中i=1,2,…,n,n为样本个数。
1、整体量化指标
其中n为样本数,p为回归方程自变量个数,AIC(赤信息量)和BIC(贝叶斯信息量)作为回归模型的选择标准,两个值越小代表模型越好。
R方描述了由自变量的线性函数值所能反应的y的总变化量的比例,R方越大自变量与因变量的线性关系越显著,模型越好
其中
SSR=SST-SSE
自变量个数的增加将影响到因变量中被回归方程所解释的变异比例,即会影响判定系数R方的大小,当增加变量时,会使残差平方和减少,从而使R方变大,也就是说,如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R方也会变大,因此为避免增加自变量而高估R方,因此提出调整R方,记为〖Ra〗^2
D-W检验又称杜宾瓦特森检验,D-W检验用于检验随机误差项具有一阶自回归形式的序列相关问题,也即残差的自相关检验,D-W取值一般在0-4之间:
D-W值接近于0表示残差存在正相关;
D-W值接近于4表示残差存在负相关;
D-W值近似于2 表示残差不存在相关性,此时回归模型较好。
2、误差指标:
误差序列为
误差方差
均方误差
均方根误差
平均绝对误差
最大绝对误差
最小绝对误差
平均相对误差
最大相对误差
最小相对误差=
其中回归主要参考的误差为均方误差,平均绝对误差其值越小代表模型越好。
4、方差分析指标
因变量的Y的观测值
之所以有差异,是由以下面两个原因引起的:一是通过函数
,当
取不同的值引起Y值的变化;二是由其他未加考虑的因素以及随机因素所产生的影响。下面将
的总变化量分解成上述两部分,通过比较这两部分的相对大小,分析
的函数所能反应
总变化量的程度,以考察Y与
的之间的关系是否显著。
令
,则
的变化量可以用所谓的总离差平方和(Total Sum of Squares)度量,即用
残差平方和或称为误差平方和(Error Sum of Squares)
回归平方和(Regression Sum of Squares)
其中SST= SSE + SSR
F检验是用于回归系数的显著性检验。
其中MSR=SSR/(p-1),MSE=SSE/(n-p)分别称为均方回归和均方残差,p-1称为SSR的自由度,它等于回归模型中自变量的个数;n-p称为SSE的自由度,它等于样本容量n与回归模型中未知参数p之差;进一步成,(p-1)+(n-p)=n-1为SST的自由度,可以证明当H_0为真的,有
F~F(p-1,n-p)
其中F(p-1,n-p)表示自由度为p-1和n-p的F分布,由样本所求得的统计量F的观测值为F_0,假设检验的p值为
F值越大说明自变量的线性函数值所解释y的变化量越多,因变量与自变量关系越显著。
4、图形指标:
残差图是指以残差为纵坐标,以任何其他有关量的值为横坐标的散点图。通过考察各类残差图可以对误差项分布的正态性,等方差性及回归关系等假设做出会直观检验。以样本为横坐标,残差为纵坐标,如果残差随着时间呈规律性变化,则残差存在正相关或者负相关。当描绘的点围绕残差等于0的直线上下随机散布,说明回归直线对原观测值拟合情况良好。否则回归直线对原观测值拟合不理想。
QQ图是残差正态性检验,若QQ图上的点近似地在一条直线上,可以认为样本数据来自正态总体,QQ图的点如果不在一条直线上,则误差的分布与正态分布有较大的偏离,回归模型效果较差。
上一篇:美林数据制造业质量控制实践分享—基于数据驱动的产品全生命周期质量控制
下一篇:【数据挖掘算法分享】机器学习平台——回归算法之逻辑回归算法
在线咨询
服务热线
400-608-2558
咨询热线
15502965860
电话联系
微信扫描二维码,立即在线咨询
微信沟通
申请试用