《数据分析简史》:仰望数据科学的星空

来源: 文汇报


【资料图】

《数据分析简史∶从概率到大数据》项亦子著上海科技教育出版社出版

■项亦子

“数据是21世纪的石油,而分析则是内燃机。”这是Gartner研究院高级副总裁彼得·桑德加在一次报告上的讲话观点。没有内燃机,石油也仅是埋在地下的一堆烃化物;没有分析,数据也就是磁盘中的二进制。数据分析作为一个日益重要的科学领域,成为了人工智能时代的基石。如今大红大紫的人工智能ChatGPT其基本算法来自于深度学习和强化学习,而ChatGPT的训练则是用了大数据和大算力。科学家司马贺曾给出如下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”而所谓“训练”则是为了让人工智能归纳出模型而提供大量的数据让它学习。总的来说,人类创造的人工智能如今能达到这个地步,与数据分析学科的一步步进阶是分不开的。要想在AI领域有所建树,学习数据分析是必由之路。

数据分析不仅仅是人工智能的基础,它现在还被运用于各个领域。我们正一脚跨入的这个人工智能时代,数据无处不在,不仅仅科技领域带来了大数据,商务世界也每天都在产生海量数据——金融领域利用数据对风险进行管控,外贸领域利用数据对买方卖方信用度进行考察。日常生活中处处有数据,刷手机时有大数据推送,上网买书时有网站的推荐系统,看足球比赛时有实时数据统计。了解数据分析的简要历史,能让你轻松愉快地走近数据分析的世界。

数据分析和科学是分不开的,它一直辅佐着科学的发展,伴随科学成长。我们回顾历史,人类科学史上历经了三个阶段:被动地接受大自然赐予的一切并且探索客观规律;研究信息并且用仿真模拟探索自然;研究主观世界和人工智能。这三个阶段科学和数据分析是保持同步的。

统计学家拉奥曾经说过:“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。”对于数据分析的重要组成部分——统计学,《数据分析简史》一书将数据科学三个最重要的历史阶段和两次统计学革命娓娓道来。从文艺复兴起在距今500多年的历程里,数据科学领域出现了一个接一个的才俊,从天文学家开普勒、神秘的牧师贝叶斯,到模糊数学开创者扎德、分形几何大师芒德布罗,他们所开创的天文数据统计、主观概率、分形统计……从不同角度对标准统计学作出了突破。最后就到了如今的时代,统计学习刮起了统计学革命的风暴,和大数据一起为即将到来的人工智能时代打下了基础。

《数据分析简史》中所举的例子多是轻松的话题,比如世界杯、房价、股市、旅游、婚恋等。书的正文以故事为主,数学概念和公式集中放在了每章末尾的注释中。没有专业数学知识背景的读者可以选择跳过注释部分,轻松读懂本书,而对具体数学推导过程有兴趣的读者,又可以在注释中解惑。

近年来,互联网、大数据、云计算、人工智能、区块链等技术加速创新,日益融入经济社会发展各领域全过程,各国竞相制定数字经济发展战略,出台鼓励政策。数字经济发展速度之快、辐射范围之广、影响程度之深前所未有,正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。

《数据分析简史》在此时问世,也算是做了一点微末的科学普及的贡献。

标签:

精彩放送

热文