个人专栏
  • 邱泽奇
当前位置>>论坛成员>>研究观点
大数据给社会学带来了什么挑战?
发表时间:2016-03-18 09:23:37 作者: 邱泽奇

大数据是痕迹数据汇集的并行化、在线化、生活化、社会化。

麦肯锡从行业和业务价值链的角度给了一个定义:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘与运用,预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡认为.大数据将是一个生产力的来源。今天,我们在讲“互联网+”,背后有一个非常重要的概念,叫数据驱动。过去.我们的研究活动叫理论驱动, 今天,数据驱动已经变成了人类社会研究中非常重要的概念。

“大数据”概念最早从哪里来呢?没有确切的证据.但是IBM很早就开始谈大数据了。IBM给大数据的定义是“4个V”:数量(Volume)、形态(Variety)、 价值(Value)、速度(Velocity)。这是从数据本身做的定义。沿着IBM提出的“4个V”,先做一个简单的说明和解释。

首先

从数量来看大数据的数据量已经超出了任何个人在可接受的时间范围内搜集、利用、管理和处理数据的能力了。

其次

从数据形态来看,传统的数据,通常是结构化数据,大数据则是混合形态的数据。

第三

从商业领域来看,大数据的价值密度比较低。传统的数据,通常是目标导向数据,有非常明确的价值,比如说CFPS(中国家庭动态跟踪调查)。大数据则是记录导向的,是为了记录数据而不是为了得到某个特定事件的数据,不是为某个事件而记录数据。这是数据获取方式上非常重要的变化。

第四

大数据的第四个重要特征是速度。大数据,几乎随时可用,每时每刻都在记录数据,每时每刻这些数据也可用;不过,也有一定的约束性。对研究而言, 不是针对一个具体研究问题可用,而是说如果你想研究某个尚未模型化的问题,就可以随时截一段数据来,进行数据清理后即可使用。

从社会研究的视角,我自己给大数据一个定义——大数据是痕迹数据汇集的并行化、在线化、生活化、社会化。因此,对社会学研究而言,大数据是一种新的研究数据来源,一种永不停息 的、流动的研究资源,不一定是对其他来源数据的全面替代。

大数据和社会学研究有关系吗?

大数据和社会学研究关系密切,但对其的应用目前看起来似乎没那么紧迫,且大数据主要对实证社会学产生较大的影响,但逐渐地会影响到社会学,甚至整个社会科学。在社会学想象力的前提下,我把社会学的研究分为三大类。

第一类——思辨的社会学,社会学的鼻祖们,基本上都采用了思辨的方法在 研究社会学。

第二类——诠释的社会学,从胡塞尔以降到舒茨(Alfred Schutz)式的现象 学社会学等。这些学者,主要是围绕“意义”进行研究。

第三类——实证的社会学,主要源于年鉴学派,也是社会学研究中作品量比较大的一类。

目前,数据与社会学研究关系最密切的,是第三类——实证的社会学,实证社会学研究离不开数据。

过去,实证社会学研究的数据主要来自于调查活动。二战以后,从密西根大学建立ISR(Institute for Social Research,社会研究学院)开始,数据科学开始慢慢兴起。在大数据到来之前,主要有三个数据来源,分别代表了三种资源来源和三个群体的权力。

第一,行政数据,第二,商业数据,第三,调查数据,二战以后ISR逐步发展了一整套依靠学术力量获取数据的方法,并建立了覆盖人类社会、经济、教育、健康生活的各类凋查数据。在一定意义上,调查数据,成为学者手中的一项资源,也是学者在社会中发出声音的一种依据。

由此看来,从社会学研究发展的视角来看,大数据和社会学有密切关系.只是,目前看起来冲击似乎并不大,也主要是针对实证社会学的冲击。在将来可能就不是这样了,对大数据的应用不仅对社会学而言会变得十分紧迫,甚至对所有社会科学而言都将如此。

大数据来自哪里呢?

大数据的第一个来源是传感器。

大数据的第二个来源是互联网。谷歌每天要处理大约24PB的数据,百度每天大概新增10TB的数据。

大数据的第三个来源是社交网络。像脸书每天要处理23TB的数据,推特每天处理7TB。

还有,如金融、零售、科研以及政府等部门的数据。

大数据给社会学研究带来的挑战到底在哪里?

第一个挑战就是还要不要凋查数据

事实上,对调查数据的挑战,取决于对调査数据的替代程度和扩大程度。相对于大数据而言,凋查数据,就是小数据。大数据与小数据有一个交集,两种数据交集重叠的部分会怎样增长,这两项技术未来的发展,直接影响到社会科学未来发展的走向。

数据就在那儿,问题是怎么用。未来,社会学研究对数据的利用,取决于数据化覆盖的范围。第一个覆盖的是教育,在线教育;第二个是健康,未来的健康将是完全数据化的健康,第三个是物联网,所有的器物之间连通、数据化;此外还有硬件、工程、制造、农业、金融等等领域,都将被数据化。既然各行各业都被数据化了,那么,大数据给社会学研究带来的第一个挑战就是:“社会研究还需要调查吗?”

对这个问题.我认为有两个点值得探讨——转换和替代。第一个是转换数据,第二个是转换思维。数据的来源已经完全变了,需要调查的东西越来越少。替代是指未来也有可能完全不需要做大规模调査,调査的重要性会越来越低,这 是一个大趋势。

第二个挑战,社会学研究范式还有用吗?

在《大数据时代》中,作者提到过去的研究范式是抽样、精确、因果。作者说,这三个过去我们为之努力奋斗的范式可能面临着革命性的转变。事实是否如此,现在依然有争论,至少这是一个值得认真思考的信号。

我自己有一个看法,运用调査数据做研究,是通过假设检验进行推论;运用大数据做研究,显然是通过数据进行总体归纳。从方法上看这的确是一个本质的转换。我们知道自然科学用重复检验,社会科学没有重复检验的条件,只能做假设检验。

如果数据归纳在迭代中能够满足重复检验的条件,是不是就会真正地“科学化”呢?目前,至少有—点是可以肯定的,那就是大数据研究的范式重在发现,而不是重在推论,社会研究的基本目的没有变,还是要把握事物之间的关系模式。

大数椐的分析是从数据挖掘开始的,运用的是数据挖掘技术。数据挖掘,就是发现有意义的模式和规则。挖掘,是大数据分析的堆本策略,不是具体方法。

大数椐挖掘有一些基本步骤。首先是属性归类,归类之后再降纬、降低容量;降维、降容之后,就是结构化的数据了,跟调查数据差不多;接下来就是从数据中发现模式。

如此,大数据分析至少有四个步骤:第一,拿到数据使用权;第二,在高性能计算系统中降维、降容;第三,获取可分析数据;第四,进行分析(模式发现)。

对社会学研究而言,这也是大数据分析的基本步骤。

降维降容之后的,就是集成的数据;接下来是迸行数据选择,数据变换;完成变换后的数据,就是可以用于模式发现的数据了,通过建模,机器学习、发现模式,评估模式,直到获得稳定的模式,那就是知识表达。

其中,数据挖掘,跟社会学研究一样,有描述性挖掘,也有预测性挖掘。描述性挖掘,同样是探讨特征,探讨社会事物的属性;预测性研究,同样是探讨变量之间的关系。

对大数据进行描述性研究,需要做四个方面的工作:第一个是做特征分析,点分析。第二个是做关联分析,双变量和多变量的关联分析。第三个是做聚类分析,聚类主要是做多特征的综合聚类。最后是做离群点分析。

利用大数据进行预测分析的基础不是理论建模,而是数据建模。数据建模不同于统计建模和数学建模。统计建模基本上是基于理论的建模,数据建模是基于数据归纳的建模,这是两者最重要的区别。

基本模型可以分成两大类,一是分类模型,一是回归模型。分类模型讲类别、讲特征值;回归模型做预测。

因此,数据挖掘,是多种技术的应用。首先得学统计学;其次是用到多个方面的算法,我认为算法是未来社会学学生至少应该懂的东西;第三,一些其他的技术。其中,算法涉及数据库技术、可视化技术、机器学习技术、模式识别技术等。

大数据挖掘的统计技术与对调查数据进行统计分析的技术大体相问,也有描述统计、预测性统计等。总体上来讲,回归是—种最常用的统计模塑。算法,则相对复杂一些,也是数据挖掘的核心技术,不仅用于数据库构建,机器学习等也跟它有关。

机器学习,是机器根据数据建模的模型进行学习,通过迭代,让模型稳定化。比如说某个参数,在调查数据中,参数是通过统计计算得到的;在大数据分析中,则是在初始模型的基础上,通过机器学习获得的。

面对大数据的挑战,社会学的优势在哪里呢?

社会学曾经的优势有调查数据,有分析数据,有运用数据知识的积累,这是实证社会学最核心的三部分,构成了实证社会学独特的知识能力。

但是今天,这一切变了,社会学只剩下运用数据知识的积累这一个优势了。调查数据的优势在慢慢失去,分析数据的优势也在慢慢丢失。唯一剩下的或许只有运用数据知识的积累了。未来,如果社会学不能掌握大数据运用的知识与能力,没有超过其他学科的想象力和建模能力,基本上可以说社会学学者将完全沦落为各类组织的劳工。

应对大数据带来的挑战,我们要有能力把握数据化社会的特征。其实,挑战远不止此,更大的挑战还在于,与大数据相伴随的“互联网+”对整个教育体制的挑战。大家知道大英百科全书曾经是世界上容量最大的百科全书,但今天我们还需要买大英百科全书吗?完全不需要,维基百科上知识的正确率高达96%,而且完全免费,比300部大英百科全书的总量还要大。

不仅如此,今天,人们的学习方式也正在发生巨大的改变,甚至是革命性的变革。对知识性的内容,人们不再需要传统意义上的老师;对思维性的内容,人们虽然依然需要传统意义上的老师,可是老师又如何保证自己的能力可以满足人们学习的需要呢?

因此我认为,大数据带给我们更大的挑战在于正在出现的教育模式的革命性转变,在于大学的教育模式的转变。未来的教育模式是什么样?班级模式还会不会在?这些都是值得我们深思的议题。

学习模式在变,我们的初等教育、高等教育的教育模式也要改变。斯坦福的 Coursera平台汇集了全世界7 000多门优秀课程,全世界最好的老师在上面 PK,只要讲的不对立马就有人指出,这是教育模式革命。现在仅仅只是一个开始,这才是大数据带给我们的更大挑战。

本文选自:《未来已来》一书中邱泽奇先生的《迈向数据化社会》一文