摘要:在数字经济发展的今天,数据挖掘与数据分析方兴未艾。在社会科学领域,诸如统计指标、计量模型和大数据应用中都基于数据挖掘,但数据挖掘对揭示与认知事物趋势规律还远远不够,为此需要数据挖掘全过程的数据分析,尤其需要在数据挖掘后对数据,包括挖掘结果(数据)背后内容进行深度的理论分析,才能实现由数据挖掘的统计因果到内容深度分析的理论因果认知的飞跃。
关键词:大数据 数据挖掘 数据分析 因果关系
一、数据
何谓数据?数据是有关人类诸如生产、服务与管理,以及科学研究与技术研发,尤其实验或试验等活动全过程中所有可量化且可观测内容的真实记录,如活动全过程中的最初和中间的投入与产出的记录。在统计上,可量化且可观测的“内容”被术语化为变量、指标或数量标志。原始记录是由仪器或人工完成的,所得到的记录就是数据。通常,各种问卷调查方法亦是通过人工和网络调查记录得到数据。这些记录形成海量第一手数据,即基础数据。所谓大数据就是基础数据的集合。特别地,由第一手数据依据确定的计算方法加工整理计算出来的数据为第二手数据。尤其,对于活动全过程中不可观测的内容,依据确定的估算经验或方法估算出来的数据,以及不可量化的内容所采取的人为的量化方法确定的数据亦称为第二手数据。相对基础数据来说,第二手数据是衍生数据。在不混淆的情况下,根据实际需要可以把衍生数据归于大数据。
最为重要的是,在人类活动中,需要对人类活动内容的认知,并且通过认知其特征实现的。用统计学的语言,人类活动内容的特征众多,但无外乎不能用数量表达的属性特征和能用数量表达的数量特征两种。但数据只是表征人类活动内容的数量特征。然而,数据背后的内容及其属性特征才是本质的认知,因为如此内容的内涵是丰富的,远不是数据表达可以覆盖的。一般地讲,数据与知识是不同的。我们认为,所谓知识就是人类大脑劳动产生的成果,诸如科学原理、技术、模型、方法、工艺、工具与诀窍等,或理论、思想与观点等。可见,知识是人类认知的结果,与数据是不同的概念,两者有交集但互不包含。规律是人类认知的最高境界,即认知的认知或知识的知识,亦即规律是知识的子集。当然,有的知识或规律可以用数据表达,有的则只能用语言表达。
在经济领域,知识已经成为第一要素。在实体经济生产过程中,知识第一要素体现在两个方面:一是作为硬(物)化的机器、仪器、工具、原材料、能源等实物资产,以及人力资本化的人等载体,如不同技术、品质参数的设备和原材料,不同智商、情商与创造力指数的劳动者;二是作为软化的知识服务体系的营商环境,以及商誉、诀窍、配方、秘诀、点子与经验,以判断、认知与决策等人力知识化的广义软知识。
值得注意的是,知识除停留在人类大脑皮层外,还需要其他载体。如劳动者大脑皮层就是知识的载体,其知识随着劳动者流动,尤其人才流动而流动;又如机器、仪器、工具,以及原材料、能源、产品与服务也是知识的载体,其知识随贸易与交换而流动。当然,知识还可以通过传播技术与传播载体而流动。
特别地,数据作为特殊的知识,同样需要载体。因此,数据流动随着载体而流动,代表着数据背后的内容知识的流动。数据也可以通过传播技术与传播载体而流动。
二、数据挖掘与数据分析
数据揭示人类活动内容的数量特征,“事实胜于雄辩,用数据说话”,这就是数据的作用,并通过数据挖掘实现的。
数据挖掘通常是指对大数据的挖掘。针对待挖掘的原数据集,选用契合的挖掘方法进行挖掘,得到生成的新数据,即挖掘的结果,对原数据集的数量特征的认知。
我们认为,对全面调查或非全面调查所得到的样本(历史)数据,统计学领域中的指标计算或经济学领域中的(计量)模型参数估计,也可以看作一种特殊的数据挖掘。样本数据挖掘与大数据挖掘不同的是,对样本数据挖掘前需要分析数据特征,在相关理论分析指导下选择指标或构建模型后计算指标值或估计参数值,体现由一个样本(部分个体差异)推断总体(共性)。大数据挖掘一般不需要挖掘前的理论分析指导,但不排除基于数据特征分析和相关的理论选择挖掘方法,体现总体(所有个体差异)描述总体(共性)。
值得一提的是,数据作为要素,它像知识一样不能直接投入,投入的是数据背后内容知识硬化的实物与人力资本化的人或软化的广义软知识。因此,数据可以作为资产,但它能否形成资产,除取决于数据本身含义及其内容、数据真伪外,还取决于能否从数据中挖掘出真正的有价值的知识。为此,在大数据挖掘中,需要考量:选用的挖掘方法合适,否则挖掘是没有意义的;挖掘出来的“结果”只是对原数据的数量特征的认知,但如果就此下结论,进而做出判断、评价或决策等,很可能就产生有意或无意的误用、错用与滥用数据的后果。因此,基于原数据背后内容上的属性的认知,对所挖掘出来的结果进行深度的内容分析是十分必要的。
对样本数据的挖掘,无论是统计指标计算,还是模型参数估计,往往都基于相关的理论,建立模型或方法计算指标的数值或估计参数的数值,即使通过了统计显著性检验,同样只是对数值“结果”统计意义上的解释,缺少对“结果”背后内容的深度分析,做出的结论将导致错误的判断、评价或决策等。
道理很简单。数据挖掘只偏注挖掘或计算或估计的数值结果,显“为数据而数据”行为,既违背了“定性—定量—定性分析”逻辑,又忽视了数据不能表达属性特征的局限,以及对数据“结果”背后内容的深度“原因”分析与认知,“功亏一篑”,导致得出错误的结论,进而做出错误的判断、评价与决策等,丧失了数据挖掘应有的价值。
由以上分析,对数据挖掘,需要引入数据分析,一是挖掘前数据特征和理论指导分析,二是基于对挖掘结果的统计上的“因果”解释,进行深度的内容理论分析,进而才能从数据中挖掘出真正的有价值的知识。
为此,我们将数据分析理解为,数据挖掘分析+数据内容分析。前者利用挖掘技术、模型或方法对数据进行挖掘,并对挖掘得到的结果(新数据)进行统计分析,进而得到统计因果等初步认知的结论;后者利用相关理论对数据,尤其挖掘结果的新数据内容进行知识化的理论分析,进而得到理论因果等最后的认知的结论。可见,数据分析是一个全过程,包括:(1)挖掘前对数据特征的描述分析,以及选择方法和模型的理论分析;(2)挖掘“结果”新数据的统计解释知识化分析;(3)对“结果”新数据内容的理论阐释知识深化分析。或者说,数据分析是一个具有数据挖掘,即挖掘或计算或估计功能的完整的分析系统,输入的是原数据与相关理论、模型与方法,输出的是新数据(结果),以及对新数据(结果)的统计解释的认知与新数据内容的深度分析的新认知。可见,深度分析是数据分析“最后一公里”的“收官”。为此,还需要相关的理论与资料、素材、数据、信息、知识等进行深度内在的理论分析,获得对数据内容及其内在学理认知的知识,以解释“结果”真正的“原因”或发现真实的因果关系,避免“功亏一篑”,实现“锦上添花”。这正是人工智能由“数据+算法+算力”三要素成为四要素“数据+算法+算力+知识”的缘由。
显然,数据分析固然可以应用于自然科学与工程技术科学,也可以应用于社会科学,但应用中存在本质的不同。
如哈佛大学经济学教授丹尼·罗德里克认为,经济学是用模型思考的科学与选择适用模型的艺术的结合体。可见,模型是经济学的基石,在构建理论中至关重要。在经济学中,无疑对宏大理论(普遍和永恒的理论)、具体的条件性的因果解释和对一些特定历史事件的解释等三种不同含义上的“理论”,都是以这样或那样的方式与模型有关。经济学的本质是对稀缺性资源配置和分配机制的研究,马斯金教授致力于研究如何在给定效率与公平的前提下设计场景的规则,并提出,机制设计是一种逆向的工程,从结果出发,通过宏大的设想、分析的框架、一整套的工具三个方面尝试设计恰当的体制机制来实现既定目标。基于约束条件下的优化是机制设计最核心的要素,大数据和人工智能将提高数据分析能力,进一步凸显机制设计的重要性。特别地,经济计量学借助于各种具体数量关系以统计方式描绘经济规律;而经济学理论则以一般的和系统的方法研究经济规律。前者是基于科学的逻辑推理思维,后者是系统观察思考感悟参悟认知。这足以说明基于数据的统计分析不能代替基于认知的定性理论分析。
无疑,数据分析本身需要理论分析。鉴于统计关注差异及其显著性,以及社会科学的复杂多变与开放的特点,在社会科学领域中的数据分析更需要深度的理论和逻辑分析。
三、数据分析的因果关系
理论分析是指对影响某研究现象或问题因素及其因素相互作用关系进行的学理分析,形成相应的理论机制或因果关系,发现现象或问题的本质或原因。严格地讲,机制或因果都是理论分析结果的不同表述。因果相比机制,除常规和偏好选择外,更易于定量分析。以下,我们对机制和因果不加以区分。
无论是否在相关理论分析下所进行的数据挖掘,其得到的新数据“结果”,即使是通过显著性检验的“结果”,它也只是统计意义上的解释,仅反映数据结构特征,只是对“结果”背后内容认识的基础。也就是说,这个“结果”未必揭示数据“结果”背后内容内在的认知,尤其解释“结果”真实的“原因”。因此,我们不能只依据这个“结果”作为内在本质的认知,更不能作为真实的“原因”,以及“结论”,否则不仅会出错,且这个“结论”是没有价值的。因此,“结果”不等同于“结论”。对这个“结果”还需要深度内容分析,揭示“结果”背后内容内在的认知,以及“结果”真实的“原因”,进而形成有价值的“结论”。可见,数据分析,尤其对于社会科学领域十分必要,它包括数据挖掘和理论分析:(1)数据挖掘前初步的理论分析,设定预设因果;(2)数据挖掘“结果”的统计解释意义上的理论分析, 明确预期(统计)因果;(3)数据挖掘“结果”背后内容深度的理论分析,发现真实的理论(内容)因果,以解释“结果”真实的原因。这种深度内容的理论分析为数据分析的“高峰”。
具体地,对于统计指标和模型来说,其计算或估计前的初步的理论分析设定预设因果。但大数据挖掘前一般不需要预设因果;对模型估计出来的“结果”,就是统计意义上的显性“因果关系”,但对大数据挖掘和统计指标计算的“结果”,就是统计意义上的隐性“因果关系”,即预期(统计)因果。无疑,还需要深度内容分析的再认识,确定理论意义上的因果,即理论(内容)因果,进而得到有价值的结论。
值得一提的是,基于一般意义上的因果关系与统计意义上的相关关系,相关关系是特殊的定量的因果关系,正如大数据挖掘,统计指标,尤其计量模型所彰显的统计意义。重要的是我们从斯科特·坎宁安《因果推断》中所认识到的,现代经济学借助统计学中对因果关系的认识,催生了一场因果推断研究的革命。
可见,数据分析的理论逻辑是由预设到预期,再到深度的理论分析,或者说由预设因果到预期因果,再到理论因果,正如常识“定性到定量,再到定性”,这都足以表示数据背后内容深度的理论分析的重要性。
在社会科学领域,无论大数据挖掘,还是统计指标计算与模型估计参数的数据分析中,除缺失内容深度的理论分析外,还需要重视数据挖掘、计算和估计前的选择方法模型的初步分析,以及数据挖掘、计算和估计结果的统计分析,以解决以下可能的问题:(1)缺少对数据审查分析,存在诸如错误、虚假或造假的数据;(2)缺失对有关研究对象特征、内容与目的,以及数据特征与所用挖掘或计算方法与估计模型的契合性分析;(3)忽视可能的显著性检验“追星”,只是用了可得可用的数据,但不了解洞悉实际,如存在不合适数据分析的数据、不可量化的定性因素、可量化尚未认识到的因素,尤其忽略了重要的因素等,以及未考虑利用个别事例等其他相关的资料、信息;(4)更为严重的是,放任“猎奇”现象泛滥。如在微观计量中,无视忽略内在的重要因素,为博取“眼球”选择外在的不重要的因素进行回归,表面上呈“星级显著”,但实质上这种人为式不严谨的做法既违背“第一性原理”,又不符合实际,其结果显得肤浅,没有任何意义。其实,这种显著并不是所“猎奇”的不重要的因素的作用,而恰好是无视忽略的重要因素的作用,只算作“狐假虎威”的“扮演”。
这种有意或无意“猎奇”“追星”违背科学精神与原理,导致数据误用滥用错用,以及错误的结论,以及判断、评价与决策等。正如常识所说,现象及其“结果”表现相同,但其背后的内在“原因”本质不同。对于自然科学与工程技术科学,所谓科学就是通过科学的原理与方法,尤其实验或试验数据分析发现或揭示现象的本质,这是没有问题的。但对于社会科学来说,一方面,未必依据科学的原理与实验方法,而是通过长期经历观察与思考分析亦能揭示社会现象的本质,如孔子、老子,以及朱熹等都擅长参悟问题看透事物的本质,而成为影响世界的思想集大成者。此时,科学性体现在统计意义上对社会现象长期(大量)经历观察与反复思考分析上;另一方面,如前所述,在引入科学原理与方法,尤其实验或试验揭示现象本质中,如果只依据数据挖掘的“结果”揭示社会现象的本质,可能就会出错。这无疑源于社会现象的复杂性、多元性、不确定性。如招生第一志愿报考、上线与录取率确实反映某大学某学科或专业的现状,但就此下评价结论或做出决定会失之偏颇。考虑到市场对学科或专业人才的需求与大学及其学科或专业定位都具有宝塔型层级结构,以及招生政策允许学生最优选择的权益与机会,因此评价某大学某学科或专业时,不能仅简单地看这些数据体现的常识“不同层级学校正常对应的位置”,更需要看其定位是否与人才需求层级匹配?同样,对就业率等相关数据的“结果”,也需要分析数据背后真实的“原因”,不能简单下结论,甚至做出决定。这就是社会科学不同于自然科学、工程技术科学的本质所在。当然,这种对“结果”的统计解释认识确实是我们下一步对“结果”背后内容深度认识的出发点,并为避免“缘木求鱼”或少走“弯路”提供了预期的基准或指向。
因此,社会科学领域数据分析中,预设的理论分析和深度的理论分析尤为重要。所谓深度分析,就是对于数据分析的预期因果(机制)进行再分析与再认识,以确定真实的理论(内容)因果。这是社会现象共性与差异性决定的事实:“相同的现象(结果),其背后的本质不同”。否则,功亏一篑。
四、数据分析的内容深度的分析
如前所述,在社会科学领域数据分析中,“追星”没有错,但错在止于统计因果。正确的选择是,基于统计因果,追求揭示真实的理论因果的内容深度的理论分析。为此,对数据挖掘的“结果”,即预期因果,还需要其他资料数据,并应用知识,以及方法进行理论分析,再认知,形成解释“结果”的真实的“原因”或理论因果关系,实现知识化与知识深化。
对于数据(素材),大数据挖掘的结果中“果”能说明一些浅层次的问题,包括发现数据的问题,但往往看不出其隐藏背后的真正的“因”,相反有时甚至被其表面迷惑,导致错误的结论(认知),甚至错误的判断、评价与决策等。可见,对这个“果”,需要利用相关基础与专业理论与方法,结合实际,以及可能得到的事例、资料与信息,进一步分析出其背后真正的“因”。
特别地,统计指标分析中,由数据【计算(概念)指标所需要的】,计算指标得到指标(数)值,对于这个指标值,还需要利用其他资料、信息、数据与知识,进行内容深度的分析;在计量模型分析中,应用理论与方法,对数据(模型估计所需要的),建立模型,并进行实证分析估计参数的估计值,对于这个参数的估计值,同样需要利用其他资料、信息、数据与知识,进行内容深度的分析;在大数据分析中,基于数据计算得到数值,对于这个数值,同样需要利用其他资料数据信息知识(新信息),进行内容深度的分析。
基于数据及其数据结果分析只是认识事物的基础表面的数量特征,还需要通过数据背后的内容分析认知其内在深度的本质特征。
因此,在统计指标、(微观)计量模型、大数据分析中,对于样本数据(历史数据、调研数据、试验或实验数据),实证中的数据计算分析很重要。数据分析前的初步的理论分析形成的初步认知(假设、思想、观点等预设因果)是基础,进而选择构建模型与方法,进行实证的数据计算,是通过理论应用于实践获得新的认知(统计因果),更为重要的是,数据计算后,对初步认知和新认知进行内容深度的理论分析,以形成最终的认知(理论因果)。
如作为计量模型的基石,最小二乘法的本质是代数优化,揭示了数据及其数据结构特征,但并非数据内容特征。极端地,人为构建一组数据进行回归,非常具有显著性,但这种回归因数据无内容而没有价值,或者,即使数据有内容,但因并非代表重要因素同样没有价值。因此在计量,尤其微观计量回归之前拒绝猎奇,把重要因素找出来很重要,回归之后还需要进一步内容深度的理论分析,才能得到有价值的因果关系。否则,则是越俎代庖。
可见,这种内容深度的理论分析也符合(始)定性—定量—(再)定性分析的规律,即任何研究都由始定性到定量,回到再定性分析。始定性分析就是预设因果,定量分析就是统计因果,再定性分析就是理论因果。如此“(始)定性—定量—(再)定性分析”过程反复,方可得到真实的理论因果。
当然,对于大数据分析来说,往往并无(始)定性分析,只是定量分析到(再)定性分析,获得理论因果,同样,如此“定量—定性分析”过程的反复循环,方可得到真实的理论因果。可见,定量分析得到的都是统计因果。显然,定量分析为数理逻辑推理,体现为统计因果,显理科思维;定性分析为诸如长期深思熟虑后的感悟、参悟、顿悟等非数理逻辑推理,体现预设因果、理论因果或真实的理论因果,显文科思维。
特别地,对于社会科学来说,往往并无定量分析,只是始定性到再定性分析。如此“始定性—再定性分析”过程反复循环,同样可以得到真实的理论因果。如上述提到的孔子、老子、庄子等诸子百家的思想的诞生。这足以说明,内容分析以及内容深度分析在数据分析中的作用。
【葛新权,北京信息科技大学经济管理学院教授,中国社科院大学(研究生院)经济学院兼职教授、博士生导师】