为增进外国语学院师生对语料库语言学的认识,并更好地与学校特色相结合,薛平教授受邀分别于2023年9月27日及10月8日为成都理工大学外国语学院师生开设了两场以“语料库语言学及地质语料库建设”为题的学术讲座。外国语学院周阳老师主持了会议。
薛平教授的第一场讲座主要厘清了语料库的基本概念、建库的基本流程和使用工具。薛教授指出语料库语言学主要收集共时性和描述性语料。大量自然文献的语言材料能够反映语言特征,但他强调,仅靠大量的语料,并不能完全呈现出语言的真实面貌。他指出,目前常见的文本编码类型有三种:ASCII、Unicode、(UTF-8)和XML,其中XML格式具有人机可读性。同时,在利用大量文本、语言数据进行理论分析研究前,需要进行标注和抽象概括。薛教授特别强调了词性赋码和元信息的重要性。此外,薛教授也向外院师生介绍了常见的词性赋码工具,如Brill POS Tagger、CLAWS7和Stanford POS Tagger等,以帮助外院师生了解文本词性赋码。
薛平教授的第二场讲座围绕语料库文本的收集、整理、结构和格式的处理展开。通俗来讲,就是让计算机技术能够将人类的各种能力延伸出去,运用计算机技术来整理语料。任何语料库中都包含两类信息,即基本数据与元信息数据。引入结束后,薛教授开始讲解语料库的建立步骤,即收集语料,选取语料库软件系统,根据系统要求改变语料格式,将改写的语料放入语料库。
在此基础上,薛教授结合成都理工大学学科特色,向同学们着重介绍了成都理工大学地质语料库。语料库系统选择了CQPWeb。语料不仅要符合XML格式,还需遵循CWB的所有通常规则。另外,每一个句子的结尾标注都需统一以便于检索。地质科技学术英语语料库建设的意义在于即有助于建立教学语料库与地球科学科研的语料库,更有助于其分类和应用研究。
