内容摘要:“汉语方言自然口语有声基础语料库建设”作为2012年度国家社科基金重大招标项目,定位为“系统有声口语语篇库”,属性为“基础性、精标注、动态监控和集成共享”。据此,该项目设定了以下目标: 1.建设一个可与GIS(地理信息系统)衔接的、方言布点较均衡、语料类型较全、标注较精的系统语篇型基础方言口语库(简称“方言口语库”)。2.通过建库探索方言研究的数字化。用具体设计实现方言口语库定位系统语篇型和基础性是方言口语库的基本定位,以下设计保证了方言口语库的基础性。因此,依汉语方言的一二级分区、选择地域文化中心具有典型代表的县市为方言点,覆盖了全国九个大方言区和官话的八个二级区,均为当地经济文化中心,具有地域文化代表性。
关键词:文化;数字化;方言口语;设计;语料库;方言研究;汉语;方言与;话题语篇;地域
作者简介:
“汉语方言自然口语有声基础语料库建设”作为2012年度国家社科基金重大招标项目,定位为“系统有声口语语篇库”,属性为“基础性、精标注、动态监控和集成共享”。据此,该项目设定了以下目标:1.建设一个可与GIS(地理信息系统)衔接的、方言布点较均衡、语料类型较全、标注较精的系统语篇型基础方言口语库(简称“方言口语库”);2.通过建库探索方言研究的数字化。
用具体设计实现方言口语库定位
系统语篇型和基础性是方言口语库的基本定位,以下设计保证了方言口语库的基础性。
第一,语料的基础性。以口语语篇为主,辅以字、词、句等基础语料,基础语料与语篇语料互为依托,以满足汉语方言研究及应用研究的各种需求。由于大量语篇的转写标注难以全用人工完成,需要研制专用软件,而基础语料是实现语篇自动或半自动标注的支柱。话本语篇依据说话底本脱稿言说而生成,话题语篇依据说话题目(话题)和提示词当场即时言说而生成,自话语篇则未加设计、在语境现场自然言说而生成。其自然度依次递增:话本语篇<话题语篇<自话语篇,但录制与标注的难度顺序相反。话题语篇的4种下位分类依据美国的“开放语档联盟”设定的10种类型改造而得。
第二,方言布点的基础性。方言口语语篇兼具方言语言系统及其所承载的地域文化的双重基础性。为呈现这种双重基础性,方言语篇库的布点应兼顾方言与文化。方言分区与地域文化大体对应。中华文化分黄河文化与长江文化。长江以南的各大方言大体对应长江各子系文化;官话的二级区和晋语大体对应黄河各子系文化。因此,依汉语方言的一二级分区、选择地域文化中心具有典型代表的县市为方言点,覆盖了全国九个大方言区和官话的八个二级区,均为当地经济文化中心,具有地域文化代表性。
第三,语料形式与内容统一的基础性。语料形式指语言样态,语料内容指所映射的客观世界。语料形式应涵盖语篇的基本类型并自成系统,语料内容应包含语料所映射的客观世界的基本元素,二者应相互照应并平衡统一。因语篇类型较多,语料量也较大。例如方言文化语料取其多种形式,以呈现方言所承载的地域文化;话题语篇内容包含人、社会、自然以及话语等各种元素,其形式有叙述、访谈、座谈、祝福、套话、诅咒、粗口等多种。
此外,为实现方言口语库后期管理应用的动态监控和集成共享,该库将预留方言与GIS平台数据接口。这种组合数据库、计算机软硬件以及系统工程和信息科学理论的综合系统,最初用于地理科学,现广泛应用于人文社会科学领域。与GIS的结合研究已成为人文社会科学的一种新手段。方言是语言的地域性变体,与GIS有天然联系;数据库是GIS的重要构成之一,方言数据库与GIS的交融是必然之势。
两项设计保证方言口语库的“系统语篇型”。“系统语篇型”的含义:一是语料类型以语篇为主;二是语料是系统的,即预先确定收集语料的原则和比例,语料具有平衡性和系统性。两项设计是:第一,分设语篇库和基础库,前为主库,后系副库。主库有话本语篇、话题语篇和自话语篇三个子库,语料量大,时长长;副库有字、词、句三子库,各种语料类型较全、量较足。第二,语篇类型分三级,各级所含种类数成宝塔状:顶部的一级种类数目少,概括度高,便于操作;中底部的二、三级数目递增,尽量涵盖方言口语中出现的各种细类,体现语篇的系统性。设定每一小类的采录内容及时长,以控制语料平衡。

