数据科学

更新时间:2024-05-21 15:04

数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。数据科学家综合利用一系列技能(包括统计学计算机科学业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

定义

一个跨学科领域,它结合了统计学、信息科学和计算机科学的科学方法、系统和过程,通过结构化或非结构化数据提供对现象的洞察。

发展历程

自1946年第一台通用计算机发明以来,科学研究的实验模拟产出了大量数据,并依靠算法发现其中规律。当马云发自肺腑地宣告“DT时代”到来时,这一切的背后是数据科学的发展。

1974年,著名计算机科学家、图灵奖获得者Peter Naur在其着作《计算机方法的简明调研(Concise Survey of Computer Methods)》的前言中首次明确提出了数据科学(Data Science)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学(Datalogy)的区别——前者是解决数据(问题)的科学(the science of dealing with data),而后者侧重于数据处理及其在教育领域中的应用(the science of data and of data processes and its place in education)。

Peter Naur首次明确提出数据科学的概念之后,数据科学研究经历了一段漫长的沉默期。直到2001年,当时在贝尔实验室工作的William S. Cleveland在学术期刊International Statistical Review上发表题为《数据科学——拓展统计学技术领域的行动计划(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics)》的论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。之后,2013年,Mattmann C A和 Dhar V在《自然(Nature)》和《美国计算机学会通讯(Communications of the ACM)》 上分别发表题为《计算——数据科学的愿景(Computing: A vision for data science)》和《数据科学与预测(Data science and prediction)》论文,从计算机科学与技术视角讨论数据科学的内涵,使数据科学纳入计算机科学与技术专业的研究范畴。然而,数据科学被更多人关注是因为后来发生了三个标志性事件:一是Patil DJ和 Davenport T H于2012年在哈佛商业评论上发表题为《数据科学家——21世纪最性感的职业(Data scientist: the sexiest job of the 21st century)》;二是2012年大数据思维首次应用于美国总统大选,成就奥巴马,击败罗姆尼,成功连任;三是美国白宫于2015年首次设立数据科学家的岗位,并聘请Patil DJ作为白宫第一任首席数据科学家。

Gartner的调研及其新技术成长曲线(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateau of Productivity)。同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(Hype Cycle for Data Science),如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}