数据要素市场发展起来后,自然的会形成大量数据资产。宏观上,数据要素价值流动,形成数据资产的过程示意图如下。数据资产列入资产负债表的时间问题,主要是需要解决诸如确权、定价、交易和计量等课题。这些方面的研究也随着相关政策和配套的法律法规的逐渐落地和实施而日益活跃起来。
本文对数据资产确权进行一些初步的分析和研究。采用的方法是,构造一个简单数据要素市场,建立一些核心概念和分析框架。然后运用这些核心概念、框架对数据资产确权的一些关键问题进行分析,提出一些解决方案和后续需要进一步研究的问题。
设想一个简单数据要素市场它由一级市场、二级市场组成。有两个卖家分别拥有两个独立数据源的原始数据集经过简单加工,分别形成数据资产
,进入一级市场进行交易。买家采用不同的策略进入市场进行交易。其中,买家C仅仅简单的买入后自己消费使用;买家D买入后,通过将两个数据资产进行加工输出新的数据集并最终形成数据资产,进入二级市场交易。市场图如下:
之所以设置一级和二级市场,主要是因为由原始数据集生成的数据资产的确权,和加工原始数据集之后形成的数据资产的确权有非常大的差异。因此,设定一级市场交易的是由原始数据集生成的数据资产;二级市场交易的是由一级市场数据资产经过加工后的生产的数据资产。
数据资产的生成需要一系列的过程和路径才能完成,包括从哪个数据源获取原始记录(Records)、通过什么传输通信网络将记录传输到记录/存储设施,并经过清洗、标注、合成等等一系列的加工过程,最终形成可以交付的资产。为简便,本文称之为数据资产生产链。
数据资产生产链的特性是由数据的“5V1P”特性决定的。“5V1P”指的是数据的量(Volume)、速度(Velocity)、类型(Variety)、可变性(Variability)、准确性(Veracity)和数据来源(Provenance)。一般情况下,数据资产的交付不是一次性的,而是持续的动态过程。
当数据资产进入市场后,如果不是被一次性的消费掉,那么如何使用这些数据资产就超出了卖家的控制。后续买家为了更好的使用数据,势必会对数据初始的来源、以及如何被处理的历史沿革需要更多的了解和把握。
由上面的示意图,可以看出,数据资产进入市场后,会不断的被处理、再加工、生成新的数据资产、再入市这样的迭代过程。为了确保每个数据资产价值在整个流通过程中保持,就需要对其生产链的完整性、一致性和准确性(以下简称“三性”)采取必要的措施进行保障。否则,数据资产的价值对于买家而言就没有任何保障。
由此,市场就势必会要求数据资产所有权人不仅需要静态的控制,还需要能够动态的控制生产链,也就是说能够支配和决定“生产活动的目的、对象、手段、方法和结果”。限于篇幅,本文仅讨论一级市场中,由原始数据集生成的数据资产确权问题。
一、一级市场的数据资产确权
一级市场的数据资产由原始数据集生成。其生产链可以形式化的表示为:一般的,数据资产和数据集虽然是两个不同层次的概念,但
中的数据是的一个子集,表示为通常情况下,数据集的所有权人和数据资产的所有权人是一致的。
数据源是IoT或传感器网络中的一个节点(设备),它将传感器/IoT的“感知”(为简便,可记为函数f) 编码为数据字节串,并被记录和存储在介质中。按照这个相同路径记录和存储下来的数据集合,就形成数据集
1、数据出生地
数据集中的数据是未经加工的原始数据,它们并不天然存在,而是被生成的。为了解决后续确权的需要,将这些原始数据首次记录和存储的地点称之为数据出生地(DBP:Data Birth Place),并可由首次被记录/存储的设备信息、地理信息和网络地址信息的组合唯一的标识(DBP-ID)。即任何一个数据集都有一个DBP-ID与之对应。出生地是确认数据集所有权非常重要的一个证据,在后面的分析中,也将看到,它也是构造整个数据市场的非常关键的基础。
2、数据出生证明
为了证明一个数据集是由某个数据源和函数f生成的,可以通过出具数据出生证明(DBC:Data Brith Certification)的方式实现。这是确保数据集生成过程中的一致性的非常重要的措施。因为,如果数据源或函数f发生变化,那么数据就不是以前的数据了。
数据出生证明是对原始数据集的生成路径做一致性和不变性做认证,即认证数据集中的数据都是由数据源和函数f生成,即符号代表一致性和不变性。
数据出生证明由第三方来出具。出具证明的认证机构(Issuer)可以是中心化的,也可以是联盟化的组织。理论上,当数据集产生一批新的原始数据后,就应该向认证机构申请该批数据的DBC。
本文为简化,假设整个数据集在生命周期内,不改变数据源和函数,因此,做一次DBC认证即可。由此,任何一个数据集就至少有一个DBC与之对应。其过程示意图如下:
3、生产链状态
由以上,数据集有一个DBP-ID、DBC与之对应,即可以对这样一个生产链状态建立一个描述:
{ datasetID: xxxxx
dataset name:
data birth place: DBP-ID;
data birth certificationID: xxxxxxxx
data source:
sensor device ID: xxxxxxxxx
sensor function:f
timestamp: xx-xx-xx
}
4、所有权确权
如A是数据源、DBP上的设备的所有权人,就可以确定数据集、数据资产的所有权人是A。但根据之前的分析,至此,所有权人的确权过程依然还没有完成。A作为所有权人,必须要向市场证明,每次产生新的数据时,数据都依然来自相同的数据源和函数,承诺和保证数据资资产生产链的“三性”,否则就无法证明A作为所有权人拥有的控制权有效,也就无法确定其为所有权人。
对数据资产所有权确权,事实上要求所有权人能够对其生产链的目的、对象、手段、方法和结果,也即生产链的“三性”的控制能力进行有效的鉴证。那么,如何实现上述确权的任务目标呢?
回到上述的简单市场,为了完成的所有权确权,A无法自证,需要一些基础设施辅助才能完成。为说明问题,笔者简单的构建了一个确权基础设施(示意图如下)。
首先,在数据源和出生地之间,采用安全可信计算环境(TEE)。并在数据源采用零知识证明(ZKP)方式,证明写入到数据集中的数据:1)都来源于;2)首次记录和存储。由此,可以建立数据集和DBP-ID的一致对应关系。
其次,在数据集全寿命周期中,每当新的数据生成时,就为其申请数据出生证明DBC。数据集的每个数据块都有DBC。并在映射数据集的数据到时,也将DBC一同映射。
最后,将数据资产生产链的实时状态信息写入区块链。
在具备上述三个基础设施后,在时刻对的所有权确权时,只需要如下步骤即可确权所有权为A:
1)数据资产的所有数据块的DBC一致;
2)数据块都来自相同的数据出生地DBP;
3)生产链状态一致,即
4)数据源设备、DBP的设备以及软件的所有权为A。
上述简化的讨论,主要是为便于建立基础的核心概念和分析框架。接下来,我们应用上述基本核心概念和框架,对由应用服务生成的原始数据资产的确权问题进行简要的讨论。
二、由应用服务生成的原始数据资产
由应用服务(以下简称“App”)生成的原始数据资产,指的是原始数据集出生地是在一个App里。数据源感知的是具有民事权利的主体,这里统称为用户(User)。
一个App我们可以看作是由服务构成的集合,即。为简便,我们假设感知函数仅包括User在此App上的使用不同服务产生的行为数据,即可以表示为应用服务App由提供商(SP)提供。用户的行为数据形成数据集,并形成数据资产,它的生产链形式化表示和示意图分别如下:
对数据资产的确权,主要需要考察用户和服务提供商之间的应用服务使用协议(Service agreement)。在这样的场景下,可以简单的理解为用户和服务提供商按照协议约定,生成了原始数据资产。确权应该按照协议进行约定。为此,服务提供商对这些约定应该进行公证,并告诉数据资产的买家。
因此,在生产链的状态描述信息中,需要增加公证的状态。由于每个用户的服务协议的具体条款可能不同,因此,公证需要维护一个动态变化的场景。处于效率的考虑,这类公证大多数采用可验证的单方隐私计算来解决。而不可能采用第三方公证的传统模式。由此,我们基于前述的框架,构建一个确权的示意图如图。由此,就可以进行有效的确权。
结论
笔者认为,原始数据资产的所有权确权是整个数据要素市场的基石。因为,如果不能在一级市场对由原始数据生成的数据资产的产权进行清晰的界定,那么数据一旦流通起来,后续的确权将变得十分复杂、低效和混乱,使得市场最终陷入无法持续运行的困境。因此,有必要构建一个产权清晰、有效运行的数据要素一级市场。建立高效的确权基础设施,在源头上就把产权关系理顺。
同时,由于数据的5V1P特性,决定了数据资产生产链的“三性”的重要性。因此,所有权确权的核心就是对所有权人支配和决定“生产活动的目的、对象、手段、方法和结果”的鉴证。而实现上述目标,光靠理论和法律制度的完善是无法完成的,必须依赖一定的配套基础设施才能实现。
参考文献
本文均指大数据。
张家林,《数据有价——数据资产定价研究初探》,2019
“大数据之父”维克托·迈尔·舍恩伯格。
中央关于数据要素、数据要素市场建设的文件以及数据相关法律、法规的一系列措施。
NIST 《大数据参考架构》
编辑:王菁
校对:林亦霖
来源:oschina
链接:https://my.oschina.net/u/4361935/blog/4708031