数据流区别特征_湖北汇智桥数据信息服务有限公司

数据流区别特征

2022-09-09 浏览次数：72次

与传统的关系数据模式区别

B.Babcock等[90]认为数据流模式在以下几个方面不同于传统的关系数据模式：

1. 数据联机到达；

2. 处理系统无法控制所处理的数据的到达顺序；

3. 数据可能是无限多的；

4. 由于数据量的庞大，数据流中的元素被处理后将被抛弃或存档（archive）。以后再想获取这些数据将会很困难，除非将数据存储在内存中，但由于内存大小通常远远小于数据流数据的数量，因此实际上通常只能在数据**次到达时获取数据。

三个特点

我们认为，当前所研究的数据流计算之所以不同于传统的计算模式，关键在于这些数据流数据本身具有如下三个特点：

数据的到达—快速

这意味着短时间内可能会有大量的输入数据需要处理。这对处理器和输入输出设备来说都是一个较大的负担，因此对数据流的处理应尽可能简单。

数据流

数据的范围—广域

这是指数据属性（维）的取值范围非常大，可能取的值非常多，如地域、手机号码、人、网络节点等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小，即使到来的数据量很大，也可以在较小的存储器中保存这些数据。例如，对于无线通信网来说，同样的100万条通话记录，如果只有1000个用户，那么使用1000个存储单位就可以保存足够多和足够精确的数据来回答“某一用户的累计通话时间有多长”的问题；而如果共有100000个用户，要保存这些信息，就需要100000个存储单位。数据流数据的属性大多与地理信息、IP地址、手机号码等有关，而且往往与时间联系在一起。这时，数据的维度远远**过了内存和硬盘容量，这意味着系统无法完整保存这些信息，通常只能在数据到达的时候存取数据一次。

数据到达的时间—持续

数据的持续到达意味着数据量可能是无限的。而且，对数据进行处理的结果不会是较终的结果，因为数据还会不断地到达。因此，对数据流的查询的结果往往不是一次性而是持续的，即随着底层数据的到达而不断返回较新的结果。

以上数据流的特点决定了数据流处理的特点一次存取，持续处理，有限存储，近似结果，快速响应。

近似结果是在**个条件限制下产生的必然结果。由于只能存取数据一次，而且只有相对较小的有限空间存储数据，因此产生精确的计算结果通常是不可能的。而将对结果的要求从过去的“精确”改为“近似”后，实现数据流查询的快速响应也就成为了可能。

huizhiqiao.b2b168.com/m/