我被“非结构化数据包围了”,请求支援!
阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使用成为了难点。如果说结构化数据用详实的方式记录了企业的生产交易活动,那么非结构化数据则是掌握企业命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。而对大部分组织而言,掌握先进的非结构化数据分析能力仍是从“大数据”中获得价值的重大挑战。 当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。 非结构化数据概述 “非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。 相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。