破解机器学习的误区——常见机器学习神话究竟从何而来?
2020-04-02 15:54:43
次
Forrester Research最近发布了一份名为“ 粉碎机器学习的七个神话”的报告。在其中,作者警告说:“不幸的是,一些对机器学习项目做出重要决策的企业领导者,普遍存在机器学习的误解。”
当高管和经理谈论AI以及机器学习时,他们有时会犯一些事实错误,显示出他们真正的知识水平。
卡尔森说:“当产品负责人说诸如“我们正在使用强化学习,因为我们将用户反馈纳入趋势模型中”时,这可能不是一件好事。“我曾经和其他分析师一起参加过座谈会,听到的声音是,'无监督的学习中,您不再需要人工参与或培训',而您正在等什么呢?”
ABI首席分析师 Lian Jye Su表示,根据他的经验,大多数高管围绕机器学习的基本知识和“垃圾进,垃圾出”的原则有一些想法,但是他们中的大多数人都认为机器学习模型是黑匣子,而机器学习需要大量数据。
“我认为这主要是由于卷积神经网络的普遍存在,它需要大量数据,并且在更多数量的卷积层上可以更好地工作,而且我相信,一旦其他机器学习算法变得越来越流行,这种看法就会慢慢消失,Lian Jye Su说。
一个问题是教育。决策者究竟应该在哪里学习有关机器学习的真相?尽管Forrester的Carlsson认为两者之间的交集不见了,但从业人员和企业级别的选择仍然很多。
▲福斯特(Frester)凯尔·卡尔森(Kjell Carlsson)
“我认为我们需要做最多工作和最大帮助的地方是帮助业务方面的人们充分了解该技术,从而知道这实际上有什么用?我可以将其应用于哪些类型的问题?” 卡尔森说。
以下是导致常见误解的一些因素。
术语不是很容易理解
问题的一部分是术语本身。人们有时将人工智能解释为像人一样思考的机器,而将机器学习解释为像人一样学习的机器。
ABI Research的Su说:“数据科学家并不是最擅长的术语。” “我认为我们应该部分归咎于分析师,因为我们经常用大胆的话来介绍新技术。”
不切实际的期望
人们普遍误以为AI是一门强大的东西,这导致人们相信AI可以做任何事情。替代地,当不同的技术适合于不同类型的用例时,有时将深度学习解释为比其他形式的机器学习“更好”。
Forrester的Carlsson说,仅仅从您想要的东西开始,例如用虚拟座席替换呼叫中心中的每个人,并不是很有帮助。他们以增强的方式建立起来,以帮助呼叫中心中的某人。
ABI Research的Su表示,不切实际的期望是炒作接管理性思考的一种情况。根据他的经验,高管们对期望不可能或不可能实现的想法越来越少。
▲苏连杰(Alian Research)
无法理解机器学习的概率性质
传统上,软件是确定性地构建的,这意味着给定的输入应导致给定的输出。基于规则的AI也是如此。另一方面,机器学习有一定的误差。
Forrester的Carlsson说:“在机器学习世界中,您极有可能永远无法预测要预测的事物,因为信号不在您拥有的数据中。”
ABI Research的Su表示反对使用机器学习的论点之一是结果的概率性质。它从来没有像工业机器视觉中使用的常规基于规则的AI那样清晰。
忽略重要细节
一家发动机制造商希望预测何时需要更换零件。该公司拥有大量有关发动机和发动机故障的数据,但是所有数据都是实验室数据。现场没有运行发动机传感器。因此,该模型实际上无法按预期部署。Forrester的Carlsson说:“在组织中,实际上没有人监督数据工程方面(机器学习方面)的所有不同事务。”
在技术能力和这些能力的ROI之间可能会丢失一些常识。例如,已经建立了一些模型,可以为销售人员推荐良好的客户。问题是销售人员已经知道了这些帐户。
无法理解机器学习“成功”的含义
外行对机器学习和AI的期望往往超出实际。尽管100%的精度看似合理,但在一些情况下,可以花大量时间和金钱再提高1%的精度。
上下文很重要。
例如,当某人的生命或自由受到威胁时,准确度水平会有所不同,而某个百分比的人口可能会因某些事情而受到轻微冒犯。
“围绕量化问题,有一种完整的思路,根据AI任务的性质,可以合理地降低AI模型的精度,这是一个折衷方案,但前提是这需要在AI上进行部署。边缘设备”,ABI Research的Su说。“毕竟,我们的人通常不那么准确。话虽如此,某些应用程序,例如对象分类,缺陷检查和装配线上的质量保证,确实有要求重复性的严格要求,而这正是传统的基于规则的AI所在的地方。
可能是首选。
弗雷斯特(Forrester)的卡尔森(Carlsson)说,每个人都可以创建一个模型,该模型几乎可以产生99.99%的准确性。预测恐怖主义就是一个例子。这种情况很少发生,因此如果该模型始终都没有预测到恐怖主义,那么它将是一个非常准确的模型。
未能轻易获胜
科幻小说和广告使人们相信,有些情况下,他们应该在AI和机器学习方面做得非凡。
Carlsson说:“当您说机器学习或AI时,人们会自动认为他们应该去模仿人类的行为,而这往往会错过这项技术的巨大潜力。” “机器学习技术确实擅长大规模处理数据,并进行我们人类真正可怕的大规模分析。”
要记住的7个技巧
1.了解机器学习的功能和局限性,并在某种程度上了解适合不同技术的用例。这样,您不太可能说出技术上不准确的内容。
2.一种机器学习技术并不适合所有情况。分类(例如识别猫和狗的图片)不同于在数据中查找以前未发现的信号。
3.机器学习不是“一劳永逸”技术的集合。生产中的模型倾向于“漂移”,这意味着它们变得不太准确。机器学习模型必须进行调整和重新训练,以保持其准确性。
Forrester的Carlsson表示:“在软件开发中,人们对迭代的必要性有这种理解。” “当涉及到依赖机器学习模型的应用程序时,它们必须进行更多的迭代,因为您要迭代数据,实际业务和您串联使用的方法。因为我们不知道您拥有哪些数据,或者您不知道该数据可以支持哪些业务场景,所以它确实固定在项目开始时。”
4.机器学习的准确性与实际数据有关。除了考虑与潜在错误相关的风险外,还应了解随着时间推移可能发生的变化。
Carlsson说:“ 50.1%的计算机视觉模型很棒。或者您可以说60%或70%的精度比我们以前做的要好得多。”
5.上下文至关重要。无论上下文如何,人工智能和机器学习都无法获得相同的结果。上下文确定了更好或更差的技术以及给定情况下可接受或不可接受的置信度。
上下文还与解决某个问题所需的数据以及偏差是可接受的还是不可接受的有关。例如,歧视通常被认为是一件坏事,但是为什么银行不会只向任何人贷款数百万美元,这是可以理解的。
Su说:“在很多情况下,机器学习绝对不利于识别隐藏在数据中的过去偏差。在其他情况下,数据质量很重要,例如像素数,清晰的注释和干净的数据集。” 。
另一方面,如果数据错误,则最干净的数据将无济于事。
“人们以为机器学习,甚至AI都将在数据不存在且行不通的情况下以某种方式做出神奇的事情。相反,人们假设只要我们拥有大量数据, Forrester的Carlsson说,我们将能够做一些神奇的事情,而这通常都不成立。“在正确的事情上拥有不良质量的数据实际上可以比在错误的事情上拥有大量数据更好。”
6.了解机器学习是硬件和软件的结合。具体来说,ABI Research的Su说,软件功能将仅与硬件可以交付或旨在交付的能力一样好。
7.传统的基于规则的AI可能会与基于机器学习的AI并存相当长的一段时间。苏说,某些任务将继续需要确定性的决策,而不是概率性的决策。
来源:CDA数据分析师