Menu
产品
Tempo大数据分析平台
Tempo商业智能平台
Tempo人工智能平台
Tempo数据工厂平台
Tempo数据治理平台
Tempo主数据管理平台
Tempo指标平台
解决方案
自助式可视化分析
算法模型管理
指标管理解决方案
数字指挥中心
湖仓一体解决方案
智能场景应用构建
主数据应用监管
数据中台
行业应用
发电
电网
制造
油气
煤炭
高校
政企
金融
科研院所
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
DAMA认证
关于我们
美林数据
合作生态
内容中心
帮助中心
美林新闻
行业资讯
申请试用
方案咨询
产品
Tempo大数据分析平台
面向企业级用户的一体化大数据分析平台
Tempo商业智能平台
面向业务人员的自助式可视化分析平台
Tempo人工智能平台
自动化、智能化的分析模型构建平台
Tempo数据工厂平台
批流一体的大数据开发平台
Tempo数据治理平台
打破数据治理困境,为业务价值保驾护航
Tempo主数据管理平台
解决主数据集成难、应用难的问题
Tempo指标平台
让管理更敏捷、业务更智能
解决方案
自助式可视化分析
数据指导行动,让每一次都有进步
算法模型管理
构建企业级模型管理与应用平台
指标管理解决方案
轻量化打造指标体系,让企业高质量发展
数字指挥中心
从数据中获得见解,让决策有据可依
湖仓一体解决方案
一体化的数据存储、集成、开发解决方案
智能场景应用构建
从数据开发到智能分析的一站式解决方案
主数据应用监管
解决企业主数据应用无法监管难题
数据中台
打造企业数字化转型数据底座
行业应用
发电
数字化赋能新能源电厂提质增效
电网
助力数字电网建设
制造
数字化智造从顶层设计到落地实施
油气
以AI视角优化油气行业生产流程
煤炭
AI赋能智慧煤矿安全、高效生产
高校
教学、实践、科研一体化实验室解决方案
政企
助力智慧政务决策
金融
客群价值深度挖掘,打造精准营销新模式
科研院所
提升科研转化能力,助力产业应用创新
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
掌握DCMM国家标准,全面提升数据管理技能
DAMA认证
学习国际数据管理业界权威知识体系,培养数据人才
关于我们
美林数据
连续7年大数据企业50强
合作生态
基于多年成功经验,提供技术与方法论支持
内容中心
大数据专业知识沉淀与成果共享
帮助中心
Tempo产品操作手册及常见问题解析
美林新闻
美林数据动态尽在掌握
行业资讯
第一时间洞察最新行业资讯
美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
产品简介
Tempo商业智能平台
提供了从数据接入、数据准备、数据可视化分析于一体的完整的解决方案
Tempo人工智能平台
为“全民数据科学家”提供自动化、智能化的数据分析模型构建能力。
Tempo数据工厂平台
支持大规模数据的快速集成和高效计算,构建流批一体大数据开发平台。
Tempo指标平台
指标的体系化建设和全生命周期管理。
Tempo数据资产管理平台
面向企业数据治理、数据中台落地的应用平台。
Tempo主数据管理平台
为用户提供全生命周期管控的主数据治理工具。
相关推荐
Tempo+金融|银行智能分析决策平台建设实践
数字化转型的四大典型场景,TempoBI来支持
数据分析上手难?2招帮你快速生成高质量数据可视化报表
美林新闻
/
NEWS
首页
美林数据
大数据分析与应用
Tempo大数据分析平台之文本分析
2020-04-09 11:02:55
次
据IDC报告,当下数据以每年50%左右的速度快速增长,截至2020年全球数据规模将达44ZB,其中文本等非结构化数据占比高达75%-85%,因此对文本等非结构数据的挖掘分析显得尤为迫切和重要。
图1,全球非结构化数据量增长情况
文本分析
(Text Mining)指从大量非结构化文本数据中抽取未知的、可理解的、最终可用的知识,并运用这些知识更好地组织信息,进而获取用户感兴趣或有用模式的过程。
文本分析流程大致可以描述为:基于网页、文档、字符等非结构化文本数据,利用自然语言处理技术实现非结构化文本数据结构化,再结合机器学习、统计分析、可视化分析等技术进行挖掘分析,进而实现搜索引擎、舆情分析、新闻分类、邮件过滤、智能问答、话题分析等业务场景应用。其中,平台文本分析模块即是实现自然语言处理常用功能模块,比如:分词、信息抽取、特征选择、主旨话题分析、关键词、命名实体识别、向量空间、情感分析、垃圾信息检测等功能。
图2,文本挖掘分析常规挖掘流程
Tempo大数据分析平台文本分析模块前期建设理念是基于浅层语言分析实现非结构化文本数据结构化,进而结合平台机器学习、挖掘分析等技术实现文本分析挖掘。Tempo大数据分析平台文本挖掘模块功能模块架构如下图所示,功能架构分四个层次:数据层、基础层、分析层、应用层。数据层是平台输入的待处理文本数据,基础层为平台自然语言处理模块提供支撑,分析层主要完成非结构化文本的自然语言处理并基于结果进一步做机器学习、可视化分析、统计分析,应用层基于分析层的结果实现相关文本处理业务场景应用。
图3,Tempo大数据分析平台文本挖掘模块功能架构
Tempo大数据分析平台
文本挖掘核心是基于自然语言处理实现非结构化文本的处理功能,平台自然语言处理模块的功能概要如下表:
表1,自然语言处理模块的功能概要
基于自然语言处理和机器学习做文本挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行特征词选择、向量空间实现文本向量化,至此即可打通和平台机器学习(分类算法、聚类算法)的接口,最后,基于机器学习模块实现文本分类、文本聚类等相关业务场景应用,比如,新闻分类、文档聚类、舆情分析等。
如图4,基于新闻咨询数据实现的新闻自动分类建模流程,左半部分是基于自然语言处理(分词、特征选择、向量空间模块)实现文本向量化,右半部分基于平台的逻辑回归分类算法构建新闻分类器,并对模型进行评估分析。
图4,新闻分类挖掘流程
基于自然语言处理和可视化分析做文本挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行情感分析、信息抽取、信息检测、关键词抽取、主旨话题分析等文本分析,将以上分析结果由结构化输出节点进行结果重构输出,最后,可基于可视化分析技术实现文本分析。
如图5,基于电商平台手机评论数据实现手机产品市场分析流程:左半部分基于自然语言处理(分词、信息抽取、观点情感分析、关键词抽取、主旨话题分析)实现文本相关分析:
信息抽取实现从手机产品描述中抽取手机品牌和手机型号信息;
情感分析判别评论的情感倾向;
主旨话题分析评论文本的关注焦点;
右半部分将整合的数据输出到数据库,可进一步接入可视化分析平台实现手机产品市场分析场景:
不同品牌、型号的手机在市场上的受欢迎程度分析;
不同年龄段的顾客对手机的关注点分析;
产品在不同区域的市场占有情况分析;
图5,手机评论分析数据挖掘流程
文本挖掘模块特点: 流程化设计理念,丰富的功能模块,基于分布式计算法框架开发,和平台节点进行有机集成:
图6,平台文本挖掘模块特点
流程化设计:
平台文本挖掘采用流程挖掘模式,用户使用方便,业务流程易于理解;
功能丰富:
平台实现了自然语言处理常用基本模块,能够灵活方便实现业务挖掘场景;
分布式计算:
文本挖掘模块基于Spark集群框架实现,能够对大批量文本数据进行高效处理运算;
有机集成:
文本挖掘模块可以和平台
机器学习
、统计分析、可视化分析等模块进行无缝对接;
上一篇:大数据解决方案在医疗卫生领域的应用体现在哪些方面
下一篇:Tempo人工智能平台之智能学习模块
在线咨询
服务热线
400-608-2558
咨询热线
15502965860
电话联系
微信扫描二维码,立即在线咨询
微信沟通
申请试用