基于 Embedding 算法的数据安全输出方案详解
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 传统的数据开放共享方式,很多是将原始数据以明文的方式直接输出,这样在数据安全和隐私保护方面存在显著风险,不符合日益完善的法律法规要求,也越来越不能满足当今数据体量、规模日益庞大而复杂的应用需求。另外,也存在加工为标签类的数据再进行输出的方式,但通常存在信息漏损,使用这类数据进行建模,效果大打折扣。 经过实践,TalkingData 借助机器学习技术探索出一套新的方案,通过对原始数据进行分布式的隐含表征提取计算(一种数据变换方式),再将变换后的数据用于开放共享,既可以满足数据输出的安全性要求,又提升了大数据输出的处理速度。该数据输出方式主要基于机器学习的分布式 embedding 算法(嵌入算法)。Embedding 算法是一系列算法的统称,该类算法能够对原始数据进行变换,并挖掘其中的潜在关联。Embedding 算法处理后的数据由于信息漏损较少,相对标签数据有更好的建模效果,被广泛用于推荐系统、自然语言处理等领域。 TalkingData 将该类算法应用到数据安全输出领域,使得原始数据在经过变换后,能够以不具备可识别性的方式输出,而数据获取方无法从中提取到与个人身份相关的敏感信息,也就实现了对隐私数据的匿名化保护。 基于保护用户隐私