第二章:语料库(Corpus)
什么是语料库
语料库用于语言研究和语言工程的语言材料的汇集。通常来讲,它以电子文件或数据库的形式存放在计算机存储介质上的大规模的组织良好的语言材料。
语料库的种类
语料库的分类方式多种多样。
在形式上可以分为文字语料库或者口语语料库。文字语料库收集书面语言;口语语料库收集录音。
覆盖率上可以分为平衡语料库或着专属语料库。平衡语料库中语料的选择考虑了不同内容、不同语体的适当比例;专属语料库则聚焦于某个领域或者某个特定来源。
广泛程度上可以分为单于语料库或着多语语料库。单语语料库仅有一种语言作为样本;而多语语料库不仅收集两种及以上的语料,而且在不同语言之间建立起对应关系。
在加工程度上又可以分为原始语料库或者加工语料库。原始语料库未对文本或录音进行任何加工,尽管按照收录的单位(如篇章)可能附加一些用于管理的属性信息(如年代、领域、作者等);加工语料库则对语料本身标注了语音、据法、语义等信息。
语料库的制作相当耗时间,所以在制作语音识别系统之前需要慎重考虑好你需要一个怎样的语料库,再进行针对性的收集。