大数据应用
按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。
第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个。
当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同层次。不同层次的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战,大数据应用仍处于初级阶段。
大数据治理
随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险等。
一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。
然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)正式生效。在我国,2019年中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。
一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。
三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。
数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。
当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。
首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;
其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。
在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。
文章来源:《中国工业和信息化》杂志2021年5月刊总第34期