內容簡介
計算語言學研究濫觴於上世紀五六十年代的機器翻譯研究。中文的相關研究也幾乎同步開始,1960年起在柏剋萊加州大學研究室,王士元、鄒嘉彥、C.Y.Dougherty等人已開始研究中英、中俄機器翻譯。他們的中文計算語言學研究,可說是與世界最尖端科技同步的。
內頁插圖
目錄
導讀
Preface
Acknowledgements
Introduction
1.1 What This Book Is About
1.1.1 Why Do Spoken Language Translation?
1.1.2 What Are the Basic Problems?
1.1.3 What Is It Realistic to Attempt Today?
1.1.4 What Have We Achieved?
1.2 Overall System Architecture
1.3 An Illustrative Example
1.4 In Defence of Hand-Coded Grammars
1.5 Hybrid Transfer
1.5.1 The Need for Grammatical Knowledge
1.5.2 The Need for Preferences
1.6 Speech Processing
1.7 Corpora
Part 1 Language Processing and Corpora
Translation Using the Core Language Engine
2.1 Introduction: Multi-Engine Translation
2.2 Word-to-Word Translation
2.3 Quasi Logical Form
2.3.1 Introduction
2.3.2 Structure of QLF
2.3.3 QLF as a Transfer Formalism: Examples
2.3.4 Head-Head Relations in QLF
2.4 Unification Grammar and QLFs
2.4.1 The CLE Unification Grammar Formalism
2.4.2 Unification Grammar Example: French Noun Phrases
2.4.3 Example 2a: Clauses in Swedish
2.4.4 Example 2b: Relative Clauses in Swedish
2.5 Orthographic Analysis and the Lexicon
2.6 Transfer Rules
2.6.1 Pre- and Posttransfer
2.7 The QLF-Based Processing Path
2.7.1 Linguistic Analysis
2.7.2 Transfer and Transfer Preferences
2.7.3 Generation
2.8 Summary
Grammar Specialisation
3.1 Introduction
3.2 Explanation-Based Learning for Grammar
Specialisation
3.2.1 A Definition of Explanation-Based Learning
3.2.2 Explanation-Based Learning on Unification Grammars
3.2.3 Category Specialisation
3.2.4 Elaborate Cutting-Up Criteria
3.3 An LR Parsing Method for Specialised Grammars
3.3.1 Basic LR Parsing
3.3.2 Prefix Merging
3.3.3 Abstraction
3.4 Empirical Results
3.4.1 Experimental Setup
3.4.2 Discussion of Results
3.5 Conclusions
Choosing among Interpretations
4.1 Properties and Discriminants
4.2 Constituent Pruning
4.2.1 Discriminants for Pruning
4.2.2 Deciding Which Edges to Prune
4.2.3 Probability Estimates for Discriminants
4.2.4 Relation to Other Pruning Methods
4.3 Choosing among QLF Analyses
4.3.1 Analysis Choice: An Example
4.3.2 Further Advantages of a Discriminant Scheme .
4.3.3 Numerical Metrics
4.4 Choosing among Transferred QLFs
4.5 Choosing Paths in the Chart
The TreeBanker
5.1 Motivation
5.2 Representational Issues
5.3 Overview of the TreeBanker
5.4 The Supervised Training Process
5.4.1 Properties and Discriminants in Training
5.4.2 Additional Functionality
5.5 Training for Transfer Choice
5.6 Evaluation and Conclusions
Acquisition of Lexical Entries
6. 1 The Lexical Acquisition Tool, LexMake
6.2 Acquiring Word-to-Word Transfer Rules
6.3 Evaluation and Conclusions
Spelling and Morphology
7.1 Introduction
7.2 The Description Language
7.2.1 Morphophonology
7.2.2 Word Formation and Interfacing to Syntax
7.3 Compilation
7.3.1 Compiling Spelling Patterns
7.3.2 Representing Lexical Roots
7.3.3 Applying Obligatory Rules
7.3.4 Interword Rules
7.3.5 Timings
7.4 Some Examples
7.4.1 Multiple-Letter Spelling Changes
7.4.2 Using Features to Control Rule Application
7.4.3 Interword Spelling Changes
7.5 Debugging the Rules
……
Part 2 Linguistic Coverage
Part 3 Speech Processing
精彩書摘
棒性和係統的自適應能力。同書麵語相比,口語的聲學特性有一定的特殊性,這類語音的基頻、時長、幅度等特徵都隨錶達內容、感情色彩等不同,變化的範圍比朗讀語音大得多,同時還有非語聲信號和噪聲,充分研究這些特性,建立精細的聲學模型非常重要。而且,講話人往往是在較強的背景噪聲或多講話人環境下發音的,如果是電話自動語音翻譯係統,還存在通訊乾擾等其他因素的影響,因此,提高語音識彆在不同說話人、不同聲學環境及通道條件下的魯棒性,在口語翻譯係統中尤其重要。另外,在語言學層麵,口語句子中含有大量的修正、重復、口頭語、省略等非規範語言現象,研究這些特徵,對語言模型進行完善,包括建模、算法和訓練等各個方麵,將有助於提高語音識彆的正確率。
(2)翻譯方法有待於進一步研究。盡管統計翻譯方法具有較高的魯棒性,但是,對非規範語言現象和噪聲的處理能力仍然十分有限,而且這種方法與訓練語料的規模和質量密切相關。統計方法與規則方法的結閤一直是人們所追求的,但是具體如何融閤,多翻譯引擎以什麼樣的集成方式可以獲得最好的係統性能,統計模型賴以訓練的語料規模達到多大纔算充分,非語言信息(手勢、錶情、說話人角色等)如何融人翻譯模型等,諸多問題都遠遠沒有得到解決。
……
前言/序言
計算語言學(Computational Lingljistics,CL)在語言科學與信息科學的研究領域扮演關鍵性的角色。語言學理論尋求對語言現象規律性的揭示與完整的解釋。計算語言學正好提供瞭驗證與應用這些規律與解釋的大好機會。作為語言學、信息科學乃至於心理學與認知科學結閤的交叉學科,計算語言學更提供瞭語言學基礎研究與應用研究的絕佳界麵。事實上,計算語言學與人類語言科技(Human Langllage Technology,HLT)可以視為一體兩麵,不可分割。
計算語言學研究濫觴於上世紀五六十年代的機器翻譯研究。中文的相關研究也幾乎同步開始,1960年起在柏剋萊加州大學研究室,王士元、鄒嘉彥、C.Y.Dougherty等人已開始研究中英、中俄機器翻譯。他們的中文計算語言學研究,可說是與世界最尖端科技同步的。中國國內中俄翻譯研究也不遑多讓,大約在上世紀50年代中期便已開始。可惜的是,這些中文相關早期機器翻譯研究,由於硬件與軟件的限製,沒能延續下來。中文計算語言學研究比較有係統的進展,還要等到1986年;海峽兩岸在同一年成立瞭兩個緻力於中文計算語言學基礎架構建立的研究群。北京大學的計算語言學研究所在硃德熙先生倡導下成立,隨後一段時間由陸儉明、俞士汶主持。而颱灣“中研院”的中文詞知識庫小組,由謝清俊創立,陳剋健主持,黃居仁1987年返颱後加入。
口語機器翻譯 下載 mobi epub pdf txt 電子書 格式