該論文集匯集了實驗室最新的一些研究成果,一定程度上反映了該室的研究方向和研究范圍,涉及語言處理、語音分析和語言應用三個方面,所以書稿分三大部分編排。作為首次出版的實驗室論文集,作者特別編輯了近年發(fā)表的主要論文目錄作為附錄,以方便讀者進行學術交流。本書前言回顧起來,語音學與計算語言學重點實驗室迄今已走過了整整20個年頭。初創(chuàng)當時,機房已經有了一些先進裝備,除了一臺身軀龐大的國外小型計算機和一大堆打孔卡片之外,還有一套配備臺式計算機的語音分析設備(語圖儀)。正是在這些設備的支持下,研究室的科研人員同心協力、默默耕耘,歷經從小到大、成果積累的漫長階段,鑄就了兩個學科的成長,形成了今天中國語言學界頗具影響力的民族學與人類學研究所實驗語音學學科和計算語言學學科。在學術發(fā)展的道路上,實驗室的兩個學科都經歷了從描寫到理論分析乃至社會應用的過程。實驗語音學初期的目標是關于中國民族語言的語音基本要素分析,解決民族語言學界對各種民族語言語音的定性描述,包括音高或聲調,聲母和韻母,如鮑懷翹教授等發(fā)表《佤語濁送氣聲學特征分析》(1990),《蒙古語察哈爾話元音松緊的聲學分析》(1992),《藏語元音聲學分析》(1995);孔江平教授發(fā)表《道孚藏語雙擦音聲母的聲學分析》(1991),《紫云苗語五平調系統(tǒng)的聲學及感知研究》(1992),《苗語濁送氣的聲學研究》(1993);江荻教授的《論藏語聲調高低分化的嗓音機制》(1998)等。這些研究不僅積極支持了民族語言學界深入開展描寫和語言歷史的研究,而且還為本學科的深度發(fā)展鋪墊了基礎。進一步的發(fā)展則開辟了兩個新的研究領域,一是注重建立各個少數民族語言的聲學參數數據庫,二是開展嗓音基礎理論研究。經過多年積累,研究室已建立了藏語拉薩話的語音聲學參數數據庫、哈薩克語語音聲學參數數據庫、蒙古語聲學參數數據庫,這一系列中國民族語言語音聲學參數數據庫的建立和研究極大地推動了我國民族語言語音學研究水平,為民族語言語音研究開創(chuàng)了一個嶄新的局面。嗓音研究方面,孔江平教授承擔了自然科學基金和院重點基金多項嗓音聲學課題,錄制了多種民族語言的語音數據,發(fā)表多篇研究論文,例如《漢語普通話嗓音特征相關分析》,《哈尼語發(fā)聲類型聲學研究及音質概念的討論》,《漢語普通話嗓音抖動及波動的聲學研究》,《漢語雙音節(jié)調位的矢量量化(VQ)》研究等等。近年,實驗室還開展了動態(tài)腭位的研究,如鮑懷翹、鄭玉玲《普通話動態(tài)腭位圖數據統(tǒng)計分析初探》,以及普通話塞音、塞擦音成阻持阻時程的統(tǒng)計分析等等。計算語言學方面,實驗室從基本語料開始著手,首先構筑學科建設的基礎,所謂兵馬未動糧草先行。第一步是研制出面向藏語文本處理的大型電子機載詞典和一定數量的標注文本語料,這項研究有力地推動了學科的發(fā)展。通過對靜態(tài)和動態(tài)藏語語料的統(tǒng)計研究,摸清了藏語文本的基本句法和信息特征,發(fā)表了《藏語計算機統(tǒng)計用語料抽樣文本的遴選》(1999)、《書面藏語的熵值及相關問題》(1998),以及《藏文的音韻結構及頻度現象》(1998)等多篇論文,為下一步工作鋪好了前進的道路。其次,開展了藏語文本語料庫的特征分析,提出了藏語文本詞根歸一化方法,設計了第一個藏語分詞基本規(guī)則以及依據句類自動分句的原則。期間還發(fā)表了《語篇索引技術在藏文文本中的應用》(1999)、《藏語拉薩話現在時的標記及功能》(1999)、《藏語計算機自動分詞的基本規(guī)則》(2000)等論文。近年,計算語言學科開始構筑較全面的藏語信息處理的基本平臺和工具,包括藏語的排序、檢索,句法屬性標注集,組塊分詞方法以及最迫切的面向機器處理的句法本體系統(tǒng)研究。這個時期所發(fā)表的論文體現出學科開始走向成熟的趨勢,研究內容逐步深化。如《現代藏語的句法組塊與形式標記》(2003)、《現代藏語謂語動詞的識別與信息提取》(2003)、《書面藏語排序的數學模型及算法》(2004)等等。這些研究無論從國外研究狀況還是從國內研究進展來看,都處在藏語文研究的前沿,也標志著當代藏語計算語言學和語料庫語言學的發(fā)展趨勢。而最近我們開始構建的面向文本處理以及機器翻譯的藏漢雙語語法信息詞典則表現出本學科未來的進程和發(fā)展方向。除了以上兩個主要學科之外,實驗室研究人員利用信息技術手段積極參與民族語言的應用研究。如鄭玉玲副教授主持開展了“藏緬語語料庫與比較研究的計量描寫”課題,發(fā)表《計算機進行藏緬語相關分析嘗試》等多篇論文。而在民族語言類型學研究方面,江荻教授協助語言類型學課題組采用語料庫語言學的方法進行文本處理,完成了機器抽取詞語單位、自動生成文本詞表、以及對文本進行詞法、句法、語義屬性標注,有力地配合了該項目的順利進行。另一項頗具影響的應用是我所與香港科技大學合作研制出的“漢藏語同源詞研究計算機檢索系統(tǒng)”(2002),該系統(tǒng)共收集國內外最重要的語言或方言130余個。其中包括漢語方言、中上古漢語以及南島語構擬以及藏緬語、苗瑤語、壯侗語、南亞語、南島語等多種代表性語言或方言。除此之外,系統(tǒng)中還裝入了漢語與民族語言對照詞典十余部。至于檢索方法更是多種多樣,漢語檢索、英語檢索、民族語言檢索,還可以采用語義類別檢索、組合檢索等等。其他應用方面,實驗室近年還初步開發(fā)了“語言地理信息系統(tǒng)”(2003)、“藏文文本掃描識別系統(tǒng)”(2004)以及“中國民族語言研究論文文摘數據庫”(2000)和“《元朝秘史》全文檢索系統(tǒng)”等多個項目。按照重點實驗室的五年計劃和十年規(guī)劃,實驗室還將開展一系列可持續(xù)發(fā)展的研究項目。如中國語言的動態(tài)腭位分析和韻律分析,民族語言的聲學參數數據庫,建立部分民族語言的語音圖譜檔案。計算語言學方面,將在已有研究基礎上邁進更深層次的研究項目,包括面向機器處理的現代藏語句法規(guī)則研究,藏語機器自動處理研究的平臺和工具研制?,F代藏一漢一英多語機器自動翻譯系統(tǒng),以及更基礎性的機載藏語語法信息電子詞典和現代藏語本體知識體系研究。而在語言應用研究方面,實驗室希望通過中國民族語言資源聯盟的建設項目,聯合國內研究機構和高校對我國民族語言資源進行全面匯總,建立技術開發(fā)和支持平臺,該項目的實施將使我國形成最具完整性、系統(tǒng)性、規(guī)范性和權威性的中國民族語言國際性資源基地。并可與國際“語言資源聯盟”以及國內“漢語資源聯盟”全面鏈接。在20年的創(chuàng)業(yè)發(fā)展過程中,實驗室相繼培養(yǎng)了一批批出色的科研人才。曹雨生教授積極為年輕人創(chuàng)造研究機遇,爭取項目,開展學術交流,使實驗室呈現朝氣蓬勃的發(fā)展局面。現任國際語音學會理事的鮑懷翹教授退休后仍一直活躍在語音學界,有力地帶動了實驗室的語音研究工作。沈米遐工程師嚴謹的工作作風和寬厚的為人理念可以說是實驗室團隊前進的粘合劑。陳嘉猷副教授是實驗室資源和設備的總管,多年來不曾出過毫厘差遲,而這股韌勁在研究上也表現出特有的認真,保證了實驗數據的準確和可靠。鄭玉玲副教授可以說是科研上的多面手,她開發(fā)研制的藏緬語數據庫曾榮獲國家科技優(yōu)秀成果獎,而今她進一步在語音韻律和腭位分析方面努力,始終保持學術研究的進取精神??捉浇淌陂L期致力于研究我國語言的嗓音聲學分析項目,他用高速攝影技術采集的動態(tài)聲帶振動影像令學界嘆為觀止,而他所構建的中國語音嗓音分析方法將深刻影響未來中國語音研究的方向。江荻教授特別執(zhí)著于藏語的計算處理,從最基礎項目做起,逐步構建出藏語自然語言處理的基本平臺、操作框架和理論。這本論文集匯集了實驗室最新的一些研究成果,一定程度上反映了我們的科研動向和研究范圍。其中還有我院研究生院研究生或高校交流研究生的創(chuàng)作。論文涉及的范圍正如實驗室的科研方向,包括了計算、語音和應用三個方面,因此分三個部分編排。作為首次出版的實驗室論文集,我們特別編輯了近年來我們發(fā)表的主要論文目錄作為附錄,以方便今后的學術交流。在這本論文集出版之際,我們要感謝中國社會科學院科研局的支持和資助,感謝研究所領導的幫助,郝時遠所長自始至終關心和督促論文的匯集和編輯,親自幫助聯系出版事宜,撰寫序言。黃行副所長不僅參與課題研究,還幫助協調實驗室科研計劃、積極推動研究室的工作。當然我們還要感謝關心和幫助發(fā)展民族語言自然語言處理的各界專家、朋友,以及國家相關機構的政府官員,特別是國家自然科學基金委的資助,正是在他們的支持下,我們的學科才能健康發(fā)展。這本論文集可以看作我們對社會、對學界的回報。我們真心希望大家繼續(xù)支持我們,在中國民族語言文字研究領域,大家的支持永遠是我們可以倚重和信賴的力量。2004年于北京金秋十月