清华大学刘知远:在 NLP 领域「做事」兼「发声」
所以我时常害怕,愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光,就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。此后如竟没有炬火:我便是唯一的光。
——鲁迅《热风》随感录 四十一
AI 科技评论按:对于清华大学计算机科学与技术系自然语言处理实验室团队而言,今年或许是一个频频「做事」兼「发声」的季节。清华大学计算机科学与技术系自然语言处理实验室是由孙茂松教授领导、刘洋副教授与刘知远助理教授协同组成的一支 NLP 研究团队,有20余名研究生、访问学者和访问学生。
今年 6 月,刘洋副教授开源的神经机器翻译工具包,包含被选为 ACL 2017 杰出论文的神经网络可视化的源代码和图形化界面。(Github页面详见:https://github.com/thumt/THUMT);10 月份,孙茂松教授发布的九歌计算机古诗作诗系统,beta1.0 版本现已上线集句诗、绝句和藏头诗三种功能。 (页面:http://jiuge.thunlp.org/ )
10 月底,在孙茂松教授的带领与指导下,刘知远与学生团队先后开源了两个工具包 OpenNE(Open-Source Network Embedding)与 OpenKE(Open-Source Knowledge Embedding),分别针对网络表示学习和知识表示学习进行了系统梳理。
而除了在学术领域有所贡献外,刘知远更为人熟悉的另一个身份是「知乎达人」。在刘知远的不少高质量回答中,他在深入浅出回答技术问题时频频引经据典,旁征博引,充分展现了他的学术和文学涵养。作为自然语言处理、深度学习、机器学习的优秀回答者,从 2013 年开始玩知乎的他,累积关注者超过 25000 人,收获了 22206 次赞同,包括 3666 次感谢和 11109 次收藏。「作为一名工作繁忙的高校教师,刘知远哪有时间回答那么多问题呢?」这是 AI 科技评论笔者在调研的时候,大家最好奇最关心的问题之一。
在清华大学 FIT 楼, AI 科技评论有幸与清华大学的刘知远助理教授进行了一次对话,他向笔者分享了他工作、生活的点点滴滴。
刘知远,清华大学计算机科学与技术系自然语言处理实验室助理教授。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 AAAI、IJCAI、ACL 等人工智能领域的著名国际期刊和会议发表相关论文 30 余篇,Google Scholar 统计引用超过 1200 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选 CCF-Intel 青年学者提升计划、中国科协青年人才托举工程。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委。担任 ACL、IJCAI、AAAI、NAACL、EMNLP、WWW、WSDM 等著名学术会议的程序委员会委员以及 TKDE、TOIS、JCST 等著名学术期刊审稿人。
个人主页:http://nlp.csai.tsinghua.edu.cn/~lzy/
OpenNE 和 OpenKE不论是中文词法分析工具包 THULAC、中文文本分类工具 THUCTC、关键词抽取与社会标签推荐工具包 THUCTC,或是关键词抽取与社会标签推荐工具包 THUTag 等(部分整理可参考刘知远此前的知乎回答:目前常用的自然语言处理开源项目/开发包有哪些?- 刘知远的回答 https://www.zhihu.com/question/19929473/answer/90201148 ),清华自然语言处理实验室团队此前的工作更倾向于单点突击,所开源的项目也比较零散;而最近开源的 OpenNE 和 OpenKE,实际上是清华团队针对过往研究的一个较为系统的梳理。雷锋网此前也做过覆盖与报道,可参见:清华大学团队开源OpenKE与OpenNE工具包,助力NLP系统梳理。
清华大学博士生涂存超和本科生张正彦贡献的 OpenNE(Open-Source Network Embedding)针对网络表示学习(NE/NRL)进行了系统梳理,统一了 NE 模型的输入/输出/评测接口,并修订复现了经典的网络表示学习模型,包括 DeepWalk, LINE, node2vec, GraRep, TADW, GCN 等。
清华大学博士生韩旭、林衍凯和已毕业硕士生谢若冰于近期共同完成整理推出 OpenKE 平台,实现了 TransE 、TransH、TransR、TransD、RESCAL、DistMult、HolE、ComplEx 等算法的统一接口的高效实现,此外,能面向 WikiData 和 Freebase 两大通用 KG 全量数据的预训练好的知识表示模型下载。
很多学者基于一些大规模知识图谱如 WikiData 与 Freebase 开展研究工作,往往需要研究者自行训练知识表示模型,OpenKE 则将在 WikiData 和 Freebase 全量数据上训练的表示模型也开放出来,供大家参考和使用,避免了大量重复劳动。刘知远表示,「这两个工具包主要是为了进一步推进表示学习的发展,并让更多的人关注这个方向和相关成果,认识到表示学习的重要意义和价值。」
从今年年初,刘知远带领两拨学生团队开始分头着手做 OpenNE 和 OpenKE,前后也经历了近一年的时间。刘知远认为,在高校做开源工具包的逻辑实际上与工业界有些不同,这些参与项目的高校学生往往都是 NLP 研究一线的成员,梳理工具包的过程不仅对自己是一种锻炼,内心深处也自然多一分对这个项目的认同感,希望能在这个过程中更深入、更全面地了解 NLP 领域。此外,也有一部分团队成员是学校的本科生,受其他课业的任务影响,整个项目的周期也属于细水长流的类型。
除了工具包外,数据库也是一个研究者们尝试涉足的方向。譬如目前比较常用的 WikiData 和 Freebase,属于大规模通用的知识图谱,探讨的是这个世界事物之间的相互关系。
像谷歌、百度这样的搜索引擎是通用知识图谱的真正应用场景所在,而从高校的科研力量来权衡,在刘知远看来,他的「小目标」更倾向于从应用和实际的角度做一些规模不大、但非常重要的一些知识库,例如语言知识图谱。「其实在语言上,我们也需要考虑到这种知识和关系。比如看到一件事物产生了联想,这便是隐喻知识库。」
在今年 ACL 2017 和 IJCAI 2017 上,刘知远团队都有语言知识库的相关成果发表,本科生牛艺霖和硕士生谢若冰的 Improved Word Representation Learning with Sememes (http://nlp.csai.tsinghua.edu.cn/~xrb/publications/ACL-17_sememe.pdf),将 HowNet 义原信息引入词表示学习,发现义原对于复杂语境下的词义精确识别具有重要价值;本科生袁星驰和硕士生谢若冰的 Lexical Sememe Prediction via Word Embeddings and Matrix Factorization (https://www.ijcai.org/proceedings/2017/0587.pdf),则提出了一种新的面向新词的义原自动标注算法。
利用义原更好地理解词汇语义,进行词义消歧等工作,在刘知远看来是探索通用语言知识的一种尝试,而在深度学习的新场景、新浪潮下,NLP如何充分利用人类先验语言知识和世界知识,实现真正的自然语言理解,是非常重要的研究课题。
刘知远曾经在知乎的回答中提及关于自然语言处理未来趋势的看法,其中也提及了先验语言知识与深度学习模型的融合。在彼时,团队也在模型中考虑先验知识的作用,并做出了一些尝试,但在刘知远看来,「这些工作是在一些任务上完成的,考虑的都是一些特别具体的知识。但是,如果你真的像人一样,把关于这个世界的各种各样的知识都装在大脑里面,那么它们是如何经过融合,让你更好理解这个世界的?」
但在 2017 年,他同样提及了先验语言知识与深度学习模型的有机融合对于理解世界的作用。刘知远认为,理解世界本身是一件系统的任务,需要考虑如何用更多形式的知识并综合地利用它们,实现各种各样的真正的能力。
在这个提问中,刘知远提及的另一个亮点则是近年流行起来的对抗训练思想(GAN)的应用。目前,这一思想已经在 NMT 等模型中发挥重要作用。而针对 GAN 的流行,刘知远认为这些机器学习思想和模型对NLP更多是工具,他更看重的是如何利用这些工具实现兼顾复杂语境下的语言理解能力。
「语言理解本身是一个结合多模态复杂场景的、丰富语境下的消歧问题,」刘知远告诉 AI 科技评论,「仅仅从考虑文章上下文的能力来看,NLP技术还远没有达到一个理想的状态。」
刘知远表示,清华团队过去更多在 NLP 做了一些增量性的贡献,还需要进一步积累达到质变。「目前大家都还是在做一些分而治之的工作,也就是说,团队先把这个问题定义明确了,然后尽可能地提升它的效率。在未来的话,学者们需要把这种更复杂的语境综合在一起,之后才能真正解决语言理解的问题。」
「作为学生,至少我很努力了」2002 年就读清华本科,2011年博士毕业,到 2013 年博士后出站留校任教至今,刘知远一直没有离开过这座象牙塔。在不少人的眼里,刘知远能在国内一流学府深造,并成为桃李满天下的人民教师,着实非常幸运。但更多人不知道的是,刘知远的经历并非我们所想象的那般顺利,他也自嘲「自认资质普通,没有智商和竞赛等光环加成」。
刘知远第一年高考时被南京邮电大学录用,从山东前往南京就学。但是,当他以大一新生的身份呆了两个月后,刘知远觉得这儿依然「不是特别符合我对大学的期望」。
虽然南京邮电大学是一所优秀的高校,不少同学也能在研究生阶段步入清华大学就读,但刘知远和父母在多次长谈后,最终还是决定「回炉重造」,再战高考。「三、四年后的事情其实很难预估,所以与其我去追求几年后的一个不确定的未来,不如多花一年的时间去换一个相对确定的结果。」
这个决定在今天的刘知远看来当然「无比正确」,但不可否认的是,这段经历也深刻地影响了他的求学之路。由于那一届的清华生物系和电子工程都录满了,刘知远阴差阳错地来到了计算机科学与技术系就读,并在四年后师从孙茂松教授攻读博士。刘知远曾在知乎上的一个回答中如是说:「我本科属于『三无』人员,没有像样的科研经历和论文,没有程序设计竞赛经验,成绩也不突出,在年级和班级都排名1/3 左右,所以特别感谢孙茂松老师在 2005 年推研中接收了我。」
但刘知远的博士之路也经历了不少纠结。2006 年复杂网络理论非常火热,因此在直博的最初两年里,他开展了词汇同现网络、词汇依存网络的分析研究。
和大多数求学者一样,刘知远一开始的研究方向也是瞄准了最热门的领域来做,但困扰很快便出现了:这些分析结论对 NLP 有什么用?这成了当时刘知远最为苦恼的问题。他征询了不少老师同学的意见,甚至翻遍了各种资料文献,试图为语言复杂网络的应用找寻成功应用的蛛丝马迹,为这一研究方向提供例证。但现实并没有令他满意。
诚然,也有学者尝试利用复杂网络做关键词抽取的任务,但刘知远认为,从理论到应用还存在着一定的鸿沟。「你做了一个汉语的复杂网络,发现了其中的一些规律和统一特征,但有什么用呢?这个其实我自己也解答不了,我也不希望在博士毕业的时候还是解答不了,所以最终决定调整研究重点。」于是,刘知远仍然沿着语言网络的思路,开始利用更有效的 PageRank 等图算法来开展关键词抽取等研究工作。
在两年的反复纠结后,刘知远最终在 2008 年将博士论文的研究方向转移到自然语言处理应用任务上来,先是做了词汇层面的语义分析工作,在 WWW 2008 发表了 poster 工作,再扩展成一篇 PAKDD。之后,刘知远开始做关键词抽取与标签推荐研究,直到 2009 年才发了第一篇 ENMLP (自然语言处理的三大会议之一)论文,随后,以每年一篇 EMNLP 论文结束了博士生涯。
在 CCF 2015 年公示的人工智能领域学术会议列表中,ACL 属于 A 类会议,而 EMNLP 则是 B 类会议。「在那个时候,因为你的见识等各种因素的限制,你掌握不了投递论文的技巧,(所以没能在 ACL 上发论文,)但是并不意味着说你的实力到不了那个水平。」回看这段经历的刘知远告诉 AI 科技评论,「至少那四五年博士期间,其实还是挺努力的,一直在努力地想怎么能够做更好的研究」。刘知远发在 EMNLP 的这三篇论文,在 Google Scholar 上的引用次数统计也达到了近 400 次,因而,他对自己的博士生涯还是比较满意的。
虽然刘知远一开始回忆这段经历时,告诉 AI 科技评论,自己「印象已经不太深了」,但实际上,却是他在整个访谈过程中聊得最多的一段内容。而近年来,越来越多的中国高校在国际顶级学术会议上崭露头角。以刘知远所在的团队为例,仅今年的 ACL 上,孙茂松教授领导的清华自然语言处理组就有7篇论文被录用。
刘知远表示,在他求学时期,ACL、EMNLP 这类会议的录用结果一出来,至少他们也会第一时间去看看研究的新趋势;而近几年,基于交流条件的提升,信息沟通的壁垒已经慢慢消失,一篇国外的热门论文刚出来,马上就会有中文版本流传;此外,通过参与国际学术会议交流学习,或是邀请海外学者来华访问演讲,中西方的信息传递也变得越来越快,中国高校的眼界和见识也随之水涨船高,也间接促进了学术论文的投递数和录用率。
但刘知远也指出,来自国内的论文虽然绝对数目在增加,但从相对比例上讲,与国外还是存在一定的差距。「我觉得这本身也和国内研究 NLP 的群体比较少有关,也是未来需要不断往前走的一个过程。」而这就需要高校持续地培养相应的研究人才。
「做高水平研究,其实是培养人的一个途径,你想培养高水平的人才,那你就一定是通过做高水平研究来完成。你不可能说,你做低水平研究,你能培养高水平的人才,对吧?所以我觉得两者是相辅相成的。高校最重要的还是培养人,它本身承担着要持续为社会培养高水平人才的任务。」
「好为人师」的刘知远对于刘知远来说,从事教师职业几乎是一件不需要犹豫和怀疑的事情。身为老师的爷爷从小带给刘知远耳濡目染的影响,而刘知远小时候最喜欢的就是当小老师给弟弟妹妹上课,也觉得当老师是一件「挺好的事」。
在刘知远看来,留在学校的人多多少少都有些情怀在其中,毕竟工业界所给的待遇也不差,而且随着近年来的人工智能热,拥有深厚学术沉淀的博士生也同样是炙手可热的香饽饽。「当老师这件事,但凡你稍微有点不确定,你可能也就做不了老师了。」
在学校,同学们都亲切地叫他「刘导」,实际上并不是「导师」、「博导」的意思,而是「辅导员」。从本科的时候,刘知远就开始参与学院的行政事务,研究生阶段当起了辅导员,留校后,这个工作还一直伴随着他,便有了这个简称。
在 AI 科技评论笔者看来,辅导员的工作非常繁琐,实际上是一个吃力不讨好的活儿。刘知远是这样回应的,「我觉得,如果你做的事是有意义的,其实(当辅导员这件事)还挺好。本来你在高校的目的就是为了培养人,如果能做一些对同学有益的事情,这也就是你在学校的意义。」
「这也是我『好为人师』的一种体现吧,」刘知远在整个采访中提了两次这个词。还有一次,是他用来形容自己玩知乎的动机时提及的。
刘知远玩知乎已经快四年了,不少人认识刘知远也同样是因为知乎。截至目前,刘知远拥有超过 25000 名关注者,收获了 22206 次赞同,包括 3666 次感谢和 11109 次收藏,并被知乎认证为「自然语言处理、深度学习、机器学习的优秀回答者」,俨然成为了知乎上的一名「网红」。
其实,刘知远一开始在知乎上只是看看别人有信息量的回答,了解一些自己不知道的东西。「其实你这一生都不见得会去经历别的领域的一些事情,那么别人把自己的经历告诉你了,我觉得挺有意思的。那么假如你知道一些事情,把它分享给别人,而且对方也得到了帮助,我觉得挺有意思的。这也算是『好为人师』的一种吧。」
近两年来,刘知远开始比较频繁地在知乎上回答问题。在共计 389 个回答中,刘知远的回答主要是围绕 NLP 等学术问题的探讨,也有对清华、计算机学科的一些评价。虽然偶尔也爱抖抖机灵,但刘知远自认是一个「三观比较正」的人,或许也是因为如此,他的回答也得到了不少认可,关注者也越来越多。
刘知远也笑称,大家钦羡的「高产」其实是一种误解,只不过是因为他把玩知乎当作了自己的一种爱好,而其它人花在娱乐休闲上的时间,于他而言就是花在知乎上回答问题了。
在刘知远的不少回答中,时常能看到他引经据典、旁征博引,这一点从他的办公桌一角得到了证明。除了字典、教科书等工具书外,各种散文、小说也是常客。2016 年,在一个题为「有哪些值得购买其大部分作品的作家?」的知乎问题中,刘知远是这样回答的:「鲁迅,所有的小说,散文,杂文,史论,书信,都很值得看。」而他叠在书丛最顶端的,正是《鲁迅全集》的第一部,书签夹在全书中间的位置。
在以前,刘知远会「刻意地」阅读经典书目,甚至还会尝试阅读一些比较学究的历史古籍。但现在,他将看书当作是一种「享受的过程」,不再刻意把阅读当作目标。「这样不那么费脑,比较舒服。」刘知远告诉雷锋网 AI 科技评论,他对自己目前的生活感到「挺充实、挺满意的」。说完,他拿起星巴克马克杯喝了一口水。因为经常喝咖啡,杯沿的咖啡渍看起来有一些历史了。
刘知远今天穿得比较正式,因为在采访结束后,他还需要去做嘉宾的接待工作。但在熟悉的 FIT 楼实验室里,脚上的一双深蓝色拖鞋「出卖」了他。提起这个,他不好意思地笑笑,「我们到实验室基本就这样,便装还是比较轻松舒服。」
处于一种努力、充实而不失舒适的状态——这也许才是一个更真实的刘知远吧。
详情链接:https://mp.weixin.qq.com/s/Kr5_I1valcyG40ar1N0SPA