面向语言分析的语料库技术平台建设
0 引 言
在当今大数据时代,人们可以利用的数据量每年都以指数倍增长,所以在语言学研究中,原始语料的获取已经不再是难题,而如何利用先进的智能技术高效地采集语料、加工语料和分析语料,已成为当今语料库语言学界亟需解决的重要问题。
语料库建设和应用技术能够减轻研究者的工作负担,提高语言研究的效率。因此,构建一个语料库技术平台,对于语言教学和研究有着较大的实际意义[1]。语料库技术平台建设是一项多学科交叉的复杂工作,研究者不仅要掌握先进的计算机技术和知识组织方法,还要具备深厚的语言学功底。
1 语料库处理软件概述
1.1 当前常用的语料库软件
许家金和贾云龙[2]参照McEnery & Hardie[3]对语料库软件的分类方式,提出按照语料库软件的运行环境可以把语料库工具分为3类,一是运行在DOS环境下的工具,如:CLOC、XANADU、TACT、MiniConcordancer、MicroConcord等;二是运行在Windows或其它图形操作系统中的工具,如:Wordsmith Tools、AntConc、MonoConc Pro等;三是基于互联网的语料库网络应用工具,如:CQPweb、BYU corpora、SketchEngine等。
李亮[4]按照语料库软件开发者的国籍来划分,当前常用的语料库软件和其来源国分别是:美国有Conc、Paraconc、Monoconc;英国有MicroConcord、Wordsmith Tools、Longman MiniConcordancer、Free TextBrowser、Concordance;德国有LEXA、TextSTAT;加拿大有Concorder;日本有CorpusWizard;中国香港有Concapp。从语料库软件的数量和品质两方面来看,英国在该领域占据领先地位,其次是美国和德国。
1.2 普遍存在的问题
分析众多语料库处理软件,笔者发现国内开发的语料库软件数量少、使用率低[5]。此外,这些语料库软件还普遍存在以下几方面的问题:
(1)用于分析和处理汉语语料的软件较少。汉语具有与英文不同的特点,比如在计算机字符集中,一个汉字与一个英文字母所占用的存储单元是不同的。再如汉语还存在分词连写的问题,不像英文每个单词之间都有间隔。
(2)有些语言处理软件的功能单一,并且只能完成浅层任务。仅能用于某一项具体的语言处理工作,在实际的语料处理中,需要使用多个软件才能完成一项任务。
(3)有些语言处理软件易用性较差。主要表现在设计不合理、界面不友好、操作复杂、没有做到简单易用、难以在语言学领域推广使用。
为了能够切实解决语言研究中的困难,提高工作效率,针对当前语料处理软件所存在的问题,笔者提出设计语料处理软件的4条原则[6]:
(1)通用性原则。全世界现有语言大约在5 000~7 000种之间,使用人口超过100万的语言约有140多种,有文字的语言在930种左右。开发的软件应该具备广泛的通用性,能够处理汉语、英语、法语、俄语等使用人口较多的语言文字。
(2)全面性原则。应该开发功能集成化的“分析型深层工具”,所设计的语言处理软件不仅能够发现表层语言现象,而且能够挖掘出深层语言规律。
(3)一体化原则。软件的各项功能要按照语料处理时的先后顺序进行组合,而不是简单叠加在一起。语料采集、加工、统计、检索、分析等各项功能及其子功能之间要具有一定的逻辑关系,形成统一的功能整体。
(4)易用原则。软件设计应遵循用户至上原则,采用访谈法和问卷调查法充分了解语言研究者的需求状况。在人机接口的设计方面,做到简易直观,让用户通过很少的学习和训练,就能够使用软件[7]。
2 系统模块与功能设计
本系统使用的编程语言是C++,编程工具是Microsoft Visual Studio Community 2015,使用了MFC类库[8]。其主要功能模块如图1所示,分为6个子模块:公用模块、分析、检索、统计、加工和采集模块。公用模块的功能是选取、显示和输出语料文件的,其它5个子模块都要用到公用模块来选择和浏览待处理语料文件、以及显示与输出处理后的结果文件。
图1 Inspire1的主要功能模块Fig. 1 The main functional modules of Inspire1
语料库技术平台Inspire1主要包括5大功能,对此可做阐释分述如下。
(1) 语料采集功能。包括2项子功能:
①WEB爬虫。用以获取指定网页中的所有链接并且保存所有链接网页到本地文件夹中。
②文本清洗。由于网络上采集下来的WEB资源中掺杂着大量的杂质信息,如字体信息、格式信息、广告、超链接等,需要对网页内容进行数据清洗,以去除其中的杂质。
上一篇:推普如何扶贫
下一篇:没有了