美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

如何让不懂代码的小白也能复用Python编码成果?机器学习平台来了!

2022-06-16 18:21:15
Tempo小课堂—Python扩展编程功能实用技巧第二篇来咯~
在上一期Tempo小课堂| 安利3个被数据分析师夸爆的Python编程小功能!中小T给大家介绍了如何在Tempo平台扩展编程中通过3个提高Python编程易用性的小功能,来弥补Python原生编程在企业实际数据分析场景中的不足。
但企业的业务数据化转型,当然不仅仅只和具备编码能力的专业数据分析人员有关。在实际的企业业务数据分析场景中,比如我们Tempo大数据分析平台的大量用户,其实都是一线的普通业务人员。
这些“小白”普遍对于算法语言(如Python、R、Java、Scala等)并不了解,通常只能通过平台内自带的算法节点以拖拽的方法实现建模分析。
随着业务数据分析维度的加深,往往就会出现一个尴尬的情况:
需要处理的业务数据分析情况较为复杂,平台内自带的算法节点不够用了,需要企业专业数据分析人员专门去开发业务相关的算法才能继续推进。
算法以算法语言(比如Python语言)形式呈现,业务人员既看不懂也不会用,新开发的算法需要封装成算法节点的形式,业务人员才能够上手使用。
系统管理员对业务涉及的相关算法也不够了解,无法快速完成对整个算子相关说明的封装过程,且系统管理员的权限往往只存在于少部分人员,对于业务用户和系统管理员双方的沟通成本和工作量都比较大,过程繁琐。
这时,我们就会发现,受限于编码等专业技术门槛,在面对一些更为复杂的业务数据分析需求时,普通业务人员还是没有办法深度参与到分析过程中。
因此为了避免此类问题,很多企业希望将封装算法的任务直接下发到与业务相关的算法设计人员,然后由系统管理员进行审核并管理,系统管理员只需审核通过或不通过,若审核不通过,则只需填写审核原因,告知项目组的相关人员即可。
这样一来不仅可以将数据平台系统管理员从繁琐、复制的自定义算法上传、封装、维护的重复性工作中释放出来,还可以简化相关沟通流程,让业务相关人员可以直接对接相关需求,提高整体工作效率。

大数据分析工具

便捷点选操作    快速实现算法封装   
为了满足大家在实际工作场景中的需求,Tempo平台支持将Python编程节点发布为自定义算法,通过简单几步点选操作,即可快速将原创算法转换为自定义算法节点,方便快捷。
以逻辑回归算法为例,若用户已经在Python编程实现了逻辑回归的主要代码,需要将其封装为一个自定义算法,算子的配置界面中支持用户设置正则化参数、最大迭代次数、惩罚函数类型3个参数,如下图所示。
Tempo机器学习平台

根据用户角色的不同,具体算法封装流程稍有不同。
普通设计用户
在Tempo AI—挖掘分析—设计区—建模—Python编程节点,支持直接将Python编程的代码发布为自定义算法;

机器学习平台——参数配置

参数配置
参数配置
执行流程
设置好参数后,就可以进行流程执行。节点执行成功后,在节点上右键,则支持“发布为自定义算法”功能。
机器学习平台
自定义算法配置
需要经过基本信息(填写算法名称、算法描述、上传算法图标)、元信息配置(设置输入和输出端口,输入端口需要上传数据集,输出端口需要设置元信息)、测试(保证封装的自定义算法可以正常使用)3个步骤,可提交“发布为自定义算法”的审核。

系统管理员
在Tempo AI-系统管理—挖掘平台配置—算法管理—自定义算法管理—待审核中,可审核通过或不通过;

机器学习平台系统配置
点击“审核”,可以选择让该算法通过或不通过,若通过,则需要选择该算法的目录层级,则可进行发布等操作。若不通过,则需要填写原因。审核结果都会以消息的方式提醒用户。
机器学习平台审核
此外,系统管理员还可对待审核、通过、未通过的算法进行查看、删除操作。查看算子时,支持查看算子的基本信息、代码、参数配置、输入和输出端口信息。
机器学习平台
知识成果统一管理   提高工作效率   
这个功能也能够帮助企业完善算法成果的日常管理和知识资产的沉淀积累。
举个例子,在企业或项目中,代码偏好人员的算法成果,往往以代码形式散落在个人电脑重,企业无法统一管理,甚至不清楚内部有多少成果,分别能够解决哪方面的业务问题。
那么当人员发生变动,算法成果就脱离企业的掌控了,当遇到相似的场景分析需求时,往往无法顺利复用已有算法成果,还是要从零开始梳理业务,进行重复性的代码开发等,无形中造成资源、成本的浪费。
而通过Tempo平台的代码快速转化为自定义算法的小功能,企业在日常项目管理中就可以轻松解决上述问题,还能在企业知识资产的积累过程中实现以下价值:
01、可以解决代码化分析及管理的难题,并与已有算法功能可交叉使用,无缝融合,更灵活。
02、可以将内部已有历史算法成果集成到平台,统一管理及维护,进行算法成果沉淀,形成企业独家内容资产。
03、在平台形成封装好的算法,业务人员可查看并直接拖拽使用,实现成果分享、资源复用,提升分析效率,降低学习门槛。
课后总结
今天的Tempo小课堂中,小T主要给大家介绍了如何通过Tempo平台中的Python扩展编程功能简化算法封装节点流程,提高算法成果复用、知识沉淀相关工作的效率。
下一期,小T将会继续给大家介绍,如何通过Tempo大数据分析平台中的Python扩展编程功能,实现Python编程的性能提升,敬请期待!

服务热线
400-608-2558
咨询热线
15502965860
美林数据
微信扫描二维码,立即在线咨询