工欲善事,必先利器:数字经济下的大数据“技术观”
众所周知,任何社会发展的潮流和趋势,背后都有一系列综合因素共同驱动,那么对于数字经济的发展也是一样。
我们要关注驱动数字经济发展的关键技术因素,或者说,影响社会发展大方向的底层“慢变量”到底是什么,其中从数据科学发展角度,最重要的“慢变量”就是大数据技术的成熟和普及。
大数据技术的发展,改变了传统的数据分析方法和人们对数据的使用方式,同时,也改变了在信息化、数字化产业实践中,如何存储、管理、传输、搜索、分析、观察等一系列数据相关技术活动的基本模式和评价方式。
大数据技术,让数据分析真正从“实验室环境”走向“生产环境和商业环境”,让数据分析的本质从“算法理论”转化为“算法工程”。
1.传统的数据分析方法为何已不能满足数字经济时代的现实业务需求
数字经济之所以快速发展,首先要归功于人们对数据分析处理能力的快速提升。自从2003年Google提出了分布式的数据存储与计算技术架构,大数据技术得到快速的发展和崛起。
无论是在软件方面、硬件方面,还是在关于数据处理的技术方面,都出现了越来越多的创新形态,揭示着人们在数据处理能力的边界得到了史无前例的拓展。
可以说,在以数据为基本对象的技术实践上,从传统的实验室环境,真正走向了现实业务的实战环境。数据不是为了验证某个科学理论,而是为了带来业务启发,提供智能决策能力,最终完成从数据要素到经济价值的完整过程转换。
为了突出说明大数据技术的重要性,还是要先回到传统的数据分析方法,了解传统方法的特征和局限性。
在传统的数据分析场景,数据是干净、纯粹、任务相关的,甚至是统计分布客观均匀的。比如要分析小麦作物与光照强度的相关性,那么会严格控制实验环境中温度、湿度、微生物指标等诸多物理参数,接着只要收集足够量的数据样本,就可以进行非常有效的数据分析。
上述这些数据都是在严格控制的环境下产生的,因此数据与目标问题的相关性非常强,通过有意“挑选”出来的数据对象可以很好地解释人们关心的问题,提供令人满意的解决方案。
因此,在传统通过数据分析场景中,数据量通常不需要太大,往往几十条、几百条就能支持业务分析应用。
人们此时可以把更多精力关注到数学模型的客观性、严谨性,以及可解释性。
对于传统的数据分析,常用的方法主要包括回归分析、统计推断、指标分析、传统机器学习、概率图模型等,这些模型要求变量的挑选以及变量之间的关系都设计精良,只有这样,才能充分发挥出这些数据的本源价值。
然而,传统的数据分析方法只适用于“实验室环境”的数据集,在真实世界中并没有太多施展拳脚的机会。
在真实世界场景中,数据环境是大数据的环境,虽然数据够多,但是数据质量并不好,也就是所谓的数据看起来多,实际上少(看似有用的数据少)。
那么,这个质量不好怎么理解呢?
其实,这里讲的就是所谓“著名的”大数据5V特征,即Volume(数据量大)、Velocity(数据高速产生)、Variety(数据形式多样)、Value(价值密度低)、Veracity(真实性差)。
大数据概念不是被设计出来的,而是被发现出来的。5V不就是客观世界中信息的最原始形态么?
数据本身是自然而然的状态,是按照最朴素的状态产生出来的:数据量很大,也不一定干净,有表格、文字、音频、视频、日志等不同格式,数据渠道来源不同,信息有真有假,内容有实有虚。
2.人们需要一套应付“非典型”数据问题的数据分析技术——大数据技术
大数据技术解决了两方面的问题,一是效率的问题,二是质量的问题,两方面问题本身也是彼此相关的。
面对效率问题,大数据技术得益于底层软硬件计算框架的能力发展,而面对质量问题,大数据技术则依赖于数据科学算法的研究和创新。
在效率方面,大数据技术提供更高效的数据处理性能。
首先,是数据存储。为了能够对不同格式的数据进行灵活的存储、读写、和管理,在传统的关系型数据库的基础之上,又先后兴起了NoSQL和NewSQL等非关系型数据库。
非关系型数据库可以对任意结构的数据源进行定义和存储,业务适用性更广泛,很好地回应了5V中Variety(多样)的特征。
此外,由于大数据场景下数据规模巨大(Volume),需要构建能够存储大规模数据的数据管理系统和文件管理系统,于是相应地就催生了分布式的数据存储架构。
该架构可以在单台机器存储能力有限的情况下,用多台机器组网构成存储节点集群,统一地存储和管理海量的数据资源。
其次,是数据计算。针对给定的数据计算问题,大数据技术实现了编程和执行策略的优化设计。
比如,通过引入并行计算架构,以及该架构下OpenMP、GPU、MPI等相应的并行编程技术,可以同时对多个近似的、单元化的计算任务进行并行处理,提升芯片的整体利用率。
再有,通过引入分布式计算架构,把单个复杂的计算任务分配给多个单台机器协同处理,发挥多个计算资源的整体性能。
另外,通过引入流式计算架构,可以有效地解决实时计算的问题(Velocity,高速),机器可以边读取、边计算,让数据处理系统快速地响应外部业务环境的实时变化。
在质量方面,大数据技术提供更先进的数据分析能力。
考虑到大数据场景下数据质量通常并不那么好,因此在数据分析方法的层面上也逐渐衍生出了新的技术解决思路。
在大数据的“技术观念”下,会自然地“放松”算法模型在科学严谨性上的约束限制,同时更加强调其实用性价值。
人们更加关注数据之间的相关性,而非因果性,尽管这种相关性可能比较隐晦,或者难以解释,但是确实能够呈现出数据背后隐含的业务含义,并对日常应用起到重要的定量决策支撑。
深度学习和强化学习可以说是大数据在算法方向最为重要的技术突破,其背后的想法是:只要数据规模足够大,哪怕数据质量差一点也没关系。
尤其是深度学习模型,与传统的统计模型或机器学习模型不同在于,其模型的变量和结构都可以从数据中探索而来,而不用人为进行精巧设计。
深度学习模型非常善于从低价值密度的大规模数据资源中,面向特定的业务场景,进行知识模型的自动提炼。
当前,市场化商业环境所能产生的业务数据,在很多领域已经可以满足建模所需的数据规模需求,这也为深度学习的广泛应用提供了良好的落地基础。
3.总结
值得注意的是,大数据技术的出现对传统数据分析方法来说,是补充而非替代的作用。大数据技术充分发挥了数据在规模维度上的资源优势,从而对前端的数字化应用提供更多有价值的业务信息。
在实际应用中,传统数据分析中的思想和方法更多是和大数据技术互相融会贯通、协同应用,很多底层的技术思想也在互相借鉴,弥补着自身技术的不足与应用缺陷。