分类

大数据时代下统计学的挑战与发展探究

  随着科学技术的迅速发展,大数据时代来临,从科学角度看,大数据通过对信息的整合分析处理,形成快捷全新的数据分析方法,这为大数据与统计学架起互通的桥梁。大数据时代的变革为统计学发展起到了重要的推动作用,未来挑战与机遇同在。文章首先对大数据时代下的统计学做出概述,接着陈述统计学在大数据时代影响下的变革,再次分析大数据时代下统计学面临的挑战,最后解读大数据时代下统计学的发展与机遇,以期为相关领域的研究提供有价值的参考。

 

  一、大数据时代下统计学概念概述

 

  教科书上对统计学给出了这样的定义有效搜集整理分析随机性数据,对考察问题给出推断与预测,最终为行动提供数据支持,这就是统计学。从根本上看,统计学是一门与数据有关的学科。众所周知,美国总统奥巴马通过数据团队的帮助得到连任的机会,阿里巴巴的马云很早就把大数据作为企业发展战略。随着我们走进大数据时代,网络科技给搜集数据带来方便,传统的设备已经无法容纳大量的数据,我们对其进行更新,通过对大数据的分析,我们为社会传递出有效的、有价值的信息,这一切为社会的发展起到了不可替代的推动作用。

 

  统计是社会各界乃至各环节不可或缺的因素,在商品交换过程中,统计有先导作用,市场经济信息也需要统计学的帮助,大数据时代,我们的统计数据不再局限于随机抽样调查,电话调查等高成本的搜集方式,通过互联网及移动终端,我们可以获得更多数据样本,可以说我们的社会进入高速发展的时期,大数据时代下的统计学也进入全新的发展阶段。

 

  二、统计学在大数据时代影响下的变革

 

  1.从样本的角度看,样本概念得到深化

 

  我们知道统计学离不开样本,有效的样本能够正确反映情况,大数据时代样本概念与传统不再相同,通常我们得到诸多网络数据,一种为静态,即直接在客户端创建的数据,无需提取即可使用,成本低,另一种为动态数据,即数据随着时间的推移而变化,最终表现为所有数据的总和,可见此时的样本不局限于随机抽样,直接可以做选定分析。

 

  2.从类型方面看,呈扩大之势

 

  在过去数据通常指结构化数据,有固定的标准,大数据时代数据不仅局限于固定的结构,还有异构数据,再有存储方式也发生了改变,大数据可以直接将探测的信号容纳进去,由网络系统作为工具,可以识别各类结构或非结构的数据并进行快速存储。

 

  3.收集概念得到扩展

 

  传统的统计过程中,我们有目的的进行数据收集,效率低,成本高,随着大数据时代来临,我们将收集步骤化,第一预先处理好数据的识别与处理,第二做好分析,提炼出所需要的信息,最后做好存储,就这么简单。面对大量的数据,我们的分析、识别等都需要注意,大数据不代表万能,我们还是要注意数据的安全性,尽量控制收集成本。

 

  4.数据来源较传统不同

 

  曾经我们根据研究目的去做统计收集数据,这些数据源都是已知的,在核对方面相对容易。大数据时代,我们得到数据变得容易,但通过互联网收集数据后,目的性变弱,大多数记录没有源头,很难识别记录身份,可见,大数据时代做好数据来源登记开始变得重要。

 

  5.量化方式也发生变化

 

  对于传统的结构化数据,量化方式是成熟的,可以将收集到数据直接分析得出结果,大数据时代,很多异化结构数据几乎无法做直接分析取得结论,当下,很多结算及专家在研究处理非机构化数据,力争将大数据时代统计推向新的高端。

 

  6.分析思维发生改变

 

  从分析过程看,传统分析需要进行三步走,即定性、定量,最终定性。大数据时代,统计分析过程仅需要两步即定量、定性;从证实分析方面看,传统思路为假设、验证,事实证明传统证实分析有很大误差,而大数据时代,我们的思维为发现,总结,这是整合,发现最终定论的过程,在此过程中会有很多发现。

 

  7.统计软件变得越来越多

 

  传统统计学中,我们比较熟悉的软件有SPSSSASSTATA等,大数据时代,我们分析技术为非关系型,主要以数据中心为基础,将软件与大数据结合,分析过程得到很大简化。综上,大数据时代给了我们更多的主动权,这些更促使我们推动大数据时代统计的发展进步。

 

  三、大数据时代下统计学面临的挑战

 

  大数据时代给我们带来了更多的好处,统计学的大数据化是大势所趋,但传统与更新的交错间还有一些不相容的方面,对于革新我们还是要从各个方面做谨慎考虑与慎重调整。

 

  首先从样本标准的角度看,大数据时代我们可以轻松得到很多样本,此量大到可以视为总体,随着互联网科技的不断发展,大样本标准也应随着发展,传统统计学将界限定在30,大于30为大样本,小于30为小样本,大数据时代这个界限略显低,没办法清除干净干扰信息,这会影响分析结果,因此,加强数据来源的同时还要更新大样本标准,将更大规模的样本数量代替旧有的数量,以适应大数据时代的要求。

 

  其次从样本选取与形式的角度看,传统统计学固定结构化数据内藏着一定的统计规律,尽管我们能够发现研究对象的数量关系,但并不是所有的事物都有量化指标,一些被量化的指标也不一定能够清楚的解读研究对象,目前大数据采集数据超过80%为有结构数据,传统的统计数据库没有办法对这些数据做很好的处理,而大数据通过建立非结构数据库,对数据做有效转化,发挥多元化分析作用,无形中降低了样本的选取标准,将统计范围扩大化。

 

  最后统计软件的开发是一项挑战。我们常用的统计软件主要以构建模型之间的变量与数量关系的方式分析研究对象,如我们熟悉的SPSS等。大数据时代,我们很多以数据为基础做非关系分析技术,谷歌利用MAPREDUCE实现了月处理400PB数据的工作量,雅虎也利用云计算平台实现了100PB的存储工作,未来大量的数据处理需要更快捷更科学的软件,对于软件的研发与升级将是一种挑战。

 

  四、大数据时代下统计学的发展与机遇

 

  1.大数据时代下统计质量更高

 

  从国际数据标准SDDS中得到的统计质量标准可以看到,适用、准确、时效、平衡是统计质量的内涵。其中适用是指统计信息符合要求,统计信息最大化的满足客户的用途,大数据的覆盖很大程度上促进适用功能的提升;传统角度我们说时效性主要指统计的时间更短,让客户及时了解统计信息,大数据时代网络化完全满足时效性各类要求;准确是指估值与真值之间的差别,数据中存在误差在一定范围内属于正常,大数据时代我们的全面性最大程度包容了误差,也缩小的了误差,统计更加真实可信;平衡性也被称之为协调性,大数据时代,数据结果的核对与检验都经得起客户的不断核查,可以使数据的平衡性得到很大提升。

 

  2.大数据时代统计成本降低

 

  首先,从数据收集角度看,大数据时代可以不再依靠人力做电话调查或问卷调查,甚至有些普查动用全国力量,耗费大量人力财力,通过互联网、移动通信等,我们大大降低人力成本,数据收集快,成本低,准确性也高;其次从数据利用角度看,传统统计过程中,一旦资料过期就需要再起启动抽样分析过程,对外公布手段也有局限性,大数据时代,我们收集数据更轻松,且数据可多次被利用,综合比算,数据的成本大大降低。

 

  3.大数据时代统计学作用范围扩大

 

  传统统计学有各种局限性,比如受成本、观念等影响,统计学主要用于行业与部分统计,随着大数据时代的来临,统计学被应用到各行各业,比如、金融、医学、计算机行业等,从这个角度看,社会的新计划让信息传递发生质变,统计学作用价值得到认可并服务扩大,这样推动自身发展的同时更服务社会服务人民,为整个国家发展进步起到不可估量的作用。

 

  作者:洪燕 来源:科学与财富 201631

上一篇:“知识经济”视角下体育统计学教学模式重建
下一篇:基于大数据时代下浅析统计学教育的发展