还可以这样跨学科!北大教授为你讲解“计算社会科学”
大数据,云计算,人工智能这些2017年的高频词汇已经为公众所熟知,数据科学作为当今时代的主角站在世界舞台中央,成为浪潮之巅的弄潮儿。
在现实世界,自然、社会和人本身就是一个不可分割的整体,不管哪一门科学、哪一个学科,都只是对这一整体中局部现象的研究,单一学科自然也解决不了整体性问题。跨学科研究是学科发展的大趋势,促进跨学科研究不仅能在学科交叉地带发现新的研究领域和新的学科增长点,也有助于解决人类社会和科技的重大问题。著名物理学家钱三强早在1985年中国科协召开的交叉科学学术会议上就曾提出,可以预料,在某种意义上说,本世纪末到下一个世纪初将是一个交叉科学时代。
那么计算科学和社会科学是如何跨学科交叉融合的呢?北京大学信息科学技术学院王腾蛟教授从“计算社会科学”的角度,深入浅出地为您介绍信息科学技术在社会科学领域的应用,带你领略大数据发展的传奇历程以及跨学科研究迸发的蓬勃生机和强大动力。
一 数据科学历史初探
数据科学发展的历史同计算机为代表的信息技术关系密切,其萌芽时期为上世纪70-80年代,当时的数据科学为超大规模数据库时代(Very Large Data Bases),计算机和存储技术的大发展,特别是数据库管理系统的出现,大大强化了数据管理能力。
在90年代到21世纪初称为海量数据时代(Massive Data),在这一时期互联网快速发展,各行各业信息化建设步伐快速推进,产生了大量数据,与此同时数据库建设和数据挖掘技术逐渐完善,但多年积累的大量数据并未经过系统的整理分析,就好比一个巨大的等待发掘的宝藏,而且这个宝藏还随着时间推移逐渐积累并逐渐引起了社会的注意,信息技术巨头,政府,高校到社会各界逐渐接受并认可了数据分析的重要作用。
潮流汇聚造就了今天的大数据时代(Big Data)一个集成了数据提取,存储,处理和分析的综合学科。
大数据学科诞生以来在各个学科中大显身手,在政治领域最富知名度的当属2016年底结束的美国大选,大数据技术被竞争的双方广泛使用来探求民主党和共和党选民的人群画像,于此进行有针对性的政治动员。经济方面则是大数据应用最为深刻的社会科学领域,大数据技术与传统经济学学科深度融合,产生了大数据计量经济学,大数据金融学等一系列新兴学科,被称之为数据革命。
大数据学科带来如此革命性的影响,获得如此高的关注度那也免不了会有质疑的声音,有一种对大数据表示怀疑的观点认为,如果在大数据运用过程中没有科学和工程的保障,可能是一场空欢喜,虽然我们有数据,但由数据分析产生的结果未必可信,甚至产生有害的结果,一个著名的失误案例就是谷歌的流行病预测失误。
谷歌作为全球领先的搜索引擎提供商在数据源头具有得天独厚的优势,通过提取搜索关键字,谷歌开展了一系列数据分析项目,流行病预测是其中的重要一项。谷歌根据流行病名称关键字在世界不同地域的出现频率及其变化来判断是否会出现疫情,如在某个地区某种疾病的搜索量猛然上升,则判断在这一地区出现某种疫情爆发的可能性增加。但这一预测手段本身有很大问题,因为并没有数据显示两者之前存在非常直接而显著的关系,最终谷歌的判断失误了,《Nature》和《Science 专门发布了分析谷歌判定错误的论文。而这件事也在学界引起了一场关于谷歌做法是否得当以及大数据未来发展方向的大讨论。
现在一个普遍的看法是大数据技术是有可行性的,但是需要工程技术的保障、各学科间的交叉协作,这样才能保证基于大数据的分析结果具有较高的可信度。
二 大数据核心技术
大数据核心技术归纳来讲包括数据采集、数据存储与大数据管理系统、数据挖掘和分析几个方面。
数据采集利用计算机程序,实现数据的全天候自动采集,采集范围包括重要报刊,社交网络,博客微博和有针对性的知名网站,以北大信科王腾蛟教授课题组开发的数据提取系统为例,系统可在大量网页、文档等非结构化数据中发现数据的结构,并按结构准确提取数据的内容让非结构化数据有了结构,大大提高了数据管理和分析的效率。
例如在同北京某中医院合作的中医疑难杂症诊疗方法资料收集合作项目中,系统可从非结构化文本中提取出患者性别、年龄、出生地、症状、治疗方法、疗效等有效结构信息并按照电子病历结构存储在数据库中,大大丰富了疑难杂症病例数据库的内容。
另外一种重要的技术是机器学习。从训练样本选取的角度,机器学习分为主动学习和被动学习两种,被动学习需要由专家精心挑选学习材料供机器学习,是一种让机器被动习得某一特定能力的技术。而主动学习则可以主动选取样本数据进行学习。更进一步,人们只需要在学习开始时添加一点内容作为启动项,机器就会自我学习,并且会在学习过程中进行错误的自我修正和经验总结,主动提高自己的认知水平。利用机器学习技术,我们可以轻松收集过往数据并对未来进行预测,也能够对某种突发事件可能产生的影响进行评估,可以看出,机器学习技术在社会科学研究中能够得到广泛的应用。
三 计算科学与社会科学的完美融合
北京大学作为一所综合性大学,学科结构完善,为跨学科发展打造了得天独厚的平台,强大的社会科学学科优势也为信息科学发展提供了沃土。
北大信息科学拥有一大批数据科学专家学者,他们活跃在各个领域,为各行各业做出自己的独特贡献:
大数据驱动的航天航空装备创新研发
北大信科团队承担了国家“十三五”重点研发计划课题:“大数据驱动的航天航空装备创新研发与应用示范”。该课题为中国运载火箭设计构建大数据分析算法库,研制面向运载火箭性能优化设计的气动规律分析示范应用、运载火箭气动不确定度分析示范应用。航天科技集团评价:“在航天飞行器总体预研和研制工作中起到了有力的支持作用”“提升了数据分析效率高达80%,节省了风洞试验次数约80%”。
基于数据仓库的企业经营分析
北大信科研究团队与中国移动长期合作,从事基于移动通信数据仓库的企业经营分析系统。提出的用户交往圈分析、大规模群体移动模式挖掘等方法,发表于数据库的顶级学术会议ACM SIGMOD,并且实际应用与中国移动的客户流失分析、客户行为分析等实际应用系统。中国移动的实际测试结果为:“北京大学研制的客户流失分析预测系统,准确率高于国外著名数据分析软件。”
观点与立场判定分析
在第10届国际顶级语义评测(International workshop on semantic evaluation, SemEval-2016)的立场侦测无监督学习任务(detecting stance in tweets)中,北京大学信息科学技术学院团队提出的基于高效卷积神经网络判定方法,评测结果夺得冠军,F1值(指正确率与召回率的加权值)比亚军超出12%。
陈薇副研究员提了观点感知知识图谱“opinion-aware knowledge graph”模型及其构建和推理方法。该模型能够有效融合客观事实和主观信息,同时实现对情感立场和客观主题的联合推理计算,当用于政治学研究中的政治思想(political ideology)分析和检测时,效果显著。与国外现有方法相比,此模型判定的准确性明显有所提高(例如,与美国学者在顶级学术会议上所发表的深度学习方法相比,平均提高了13%)。论文《Opinion-aware knowledge graph for political ideology detection》被人工智能领域顶级会议IJCAI(International Joint Conference on Artificial Intelligence)录用,为近年来该会议所录用的首篇政治学理论与人工智能交叉研究的学术论文。
任何重大的经济、社会和科技问题,尤其是全球性问题,都是相当复杂的综合性问题,“没有一种研究方法能揭示一切,宽阔的论述必须是多学科的”。
不难发现,在诺贝尔奖获奖成果中,多学科交叉融合的成果占到近一半并且呈现持续上升趋势,就像1986年诺贝尔基金会主席在颁奖致词中所说:“从近来诺贝尔奖获得者的人选可明显看到,物理学和化学之间,旧的学术界限已在不同的方面被突破。它们不仅相互交叉,而且形成了没有鲜明界限的连续区,甚至在生物学和医学等其它学科,也发生了同样的关系。”
北京大学学科体系完备,有41个学科入选“双一流”,总数位列全国各高校榜首。具有雄厚的学科基础,北京大学在未来新兴学科增长点和跨学科领域必将大有作为!
原文链接:https://mp.weixin.qq.com/s/1Y078xrawWsUfEdVaQU0Og