计算语言学研究系列:先秦文献信息处理

计算语言学研究系列:先秦文献信息处理 pdf epub mobi txt 电子书 下载 2025

陈小荷,冯敏萱,徐润华 著
图书标签:
  • 计算语言学
  • 先秦文献
  • 信息处理
  • 文本分析
  • 自然语言处理
  • 人文计算
  • 数字化人文
  • 古籍整理
  • 语言学
  • 中国古代文学
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 世界图书出版公司
ISBN:9787510056611
版次:1
商品编码:11208984
包装:平装
开本:24开
出版时间:2013-01-01
用纸:胶版纸
页数:323
字数:315000
正文语种:中文

具体描述

内容简介

  《计算语言学研究系列:先秦文献信息处理》研究先秦文献的信息处理,包括先秦文献的词汇处理、历史知识处理以及词汇与历史知识的智能检索。对先秦文献做词汇处理,目的在于追本溯源,了解先秦汉语词汇的基本面貌。用计算语言学方法梳理这一时期的历史事件、人名、地名等知识,有助于更好地理解先秦文献。与现当代中文文献相比,先秦传世文献规模很小,但相关的注疏文献十分丰富。因此《计算语言学研究系列:先秦文献信息处理》采用了与一般中文信息处理不同的方法——基于注疏文献的方法。对比实验表明,这种方法在先秦文献信息处理中具有显著优势。

作者简介

  陈小荷,江西丰城人。北京大学现代汉语专业文学博士。现任南京师范大学文学院语言科学及技术系教授、博士生导师,兼中国中文信息学会理事、《中文信息学报》编委。主要研究方向为中文信息处理、汉语语法学。代表作有《现代汉语自动分析-VisualC++实现》《汉语口语里表示“……再说”的语素“着”》等。主持国家社会科学基金项目1项,江苏省高校社科重点研究基地重大项目1项,参与国家社会科学基金重大项目1项。

内页插图

目录

第一章 绪论
第一节 先秦文献
第二节 先秦文献信息处理
第三节 先秦文献信息处理的特点
第四节 基于注疏文献的处理方法

第二章 注疏文献处理
第一节 注疏文献的选取
第二节 注疏文献的内容分析
第三节 先秦文献与其注疏文献的句子对齐和注释对齐

第三章 词语切分
第一节 先秦汉语分词规范
第二节 基于统计模型的自动分词方法
第三节 利用注疏文献的自动分词方法

第四章 词性标注
第一节 词类体系
第二节 基于统计的分词标注一体化方法
第三节 基于注疏文献的词性校正

第五章 古今字、通假字资源建设
第一节 古今字、通假字研究现状
第二节 古今字、通假字数据库的构建
第三节 通假字标注实验
第四节 实验结果及其分析

第六章 词汇概貌
第一节 语料来源和说明
第二节 先秦文献的汉字统计
第三节 先秦文献的词汇统计
第四节 计算每种文献的特色词
第五节 成语来源统计

第七章 词义消歧
第一节 古代汉语词义特点和消歧难点
第二节 义项区分的颗粒度
第三节 基于CRF模型的消歧实验
第四节 分类器集成的消歧实验

第八章 专名标注
第一节 关于“专名”和“命名实体”的辨析
第二节 先秦时期的人名与地名
第三节 基于统计的专名识别
第四节 基于注疏文献的专名识别
第五节 人名所指歧义消解
第六节 基于专名标注的事件划分

第九章 版本异文发现
第一节 异文和版本异文
第二节 个案和研究方法
第三节 基于相似度计算的句珠配对
第四节 基于同文排除的异文配对
第五节 基于双序列比对的一体化处理
第六节 实验结果及其分析

第十章 《左传》中的春秋社会网络分析
第一节 社会网络分析的基本方法和软件
第二节 社会关系数据的获取和网络的定义
第三节 人物-事件网络分析
第四节 人物关系网络分析
第五节 人物关系网络的深入分析
后记

精彩书摘

  一、先秦文献信息处理的研究目标
  “中国古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,科学地分析、整理、研究中国古代文献,进而探讨古代文献的产生、分布、交流和利用的规律,并总结对古代文献进行分析、整理、研究工作的规律与方法的学科。”
  古典文献信息处理并不是要取代古典文献学。它的首要任务是要为古典文献学提供数字化处理的技术手段。中国古典文献有几千年的历史积累,卷帙浩繁,熟悉文献而又能融会贯通的专家不多,仅凭人力实在难以完成对古典文献的分析、整理和研究工作。电子计算机的问世以及汉字在计算机上的输入输出的实现,给古典文献处理带来了福音。例如,以现在的眼光来看,给文献编制逐字索引是一件很简单的事情,一部电子版的《左传》几秒钟即可完成索引。如果用以前抄卡片的方法编制逐字索引,一个人需要做好几年,还容易出错。
  如果仅仅是为古典文献处理提供现代化的技术手段,古典文献信息处理还不足以成为一门学科。作为一门学科,它必须有自己的理论、方法和研究目标。作为语言信息处理(具体到中文信息处理)的一个分支,古典文献信息处理的理论基础是信息论和概率论,基本的研究方法是语料库统计,基本的工具是语言计算模型。它的研究目标也与古典文献学有所区别:
  第一,古典文献学主要关注文献内容,古典文献信息处理除了关注文献内容之外,还应该特别关注文献的语言形式。先秦汉语是汉语发展的源头,先秦文献信息处理的一个重要的研究目标就是要从先秦文献中探寻这个源头的基本面貌,包括先秦汉语的语音、词汇和语法面貌,为汉语史的研究提供可靠的统计数据。鉴于课题的性质,我们主要是做了先秦汉语的词汇处理:对25种先秦文献全面地进行了词语切分和词性标注,在此基础上自动生成了先秦汉语词表,以先秦文献为参照考察了成语来源以及古今字和通假字的分布。(见第五章“古今字、通假字资源建设”,第六章“词汇概貌”)第二,古典文献学对文献内容的关注,主要体现在对文献真实性的关注,包括文献产生的时间、作者或编者、整篇或某一部分是否系后人伪托而成、各个版本之间的关系等等。古典文献信息处理对文献内容的关注,除了上述方面之外,还可体现为基于内容的计算。拿先秦文献信息处理来说,可以做《左传》和《国语》的事件抽取、人物关系抽取、先秦诸子思想比较等等。我们的检索系统不仅可以做字词检索,还可以检索《左传》中的人物、地理实体和事件,并以可视化界面展示社会网络分析的结果。(见第十章“《左传》中的春秋社会网络分析”)
  二、先秦文献信息处理的任务
  先秦文献信息处理的首要任务是文献数字化,数字化的基本含义是把文献变成机器可读的文本。方正超大字符集有6万多汉字,Unicode5.0及其以上版本有7万多汉字,已经基本够用。目前急需的是:(一)能支持超大字符集的各种方便快捷的汉字输入法:拼音输入(音韵学家使用)、字形输入(以笔画或部首为码元)、手写输入①。(二)能尽量避免图形操作的造字工具。理想的造字工具应该是,用户只需输入若干字根以及字形的结构类型(上下结构、左右结构等),即可完成造字过程。(三)能支持繁体直排版的字符识别软件。对于古籍而言,理想的字符识别软件应能得到不同字号和字体的输出(区分正文和注释),保留专名标记,甚至嵌入造字模块。
  现在从网上下载的先秦文献电子文本存在许多问题:录入较早的是GB2312-80编码的简体文本,繁体文本不多。有些繁体文本是从简体文本自动转换过来的,简繁转换错误未经校对。冷僻字通常用两个汉字组合表示。此外还有脱字、讹字等等。这些电子文本大多是热心网友的无私奉献,应该好好加以利用。人工校对是不可避免的,但应该研究辅助校对工具,尽量减少人工劳动。辅助校对工具应能运用本校法(对于篇幅较大的文献)和他校法(对于有多个版本的文献)自动发现可能的错误。
  ……

前言/序言



《古代文学的数字回响:方法与实践》 探寻历史文本的深度肌理,解锁智慧文明的数字密码 在信息爆炸的时代,我们身处一个被海量数据包围的环境。然而,当目光转向那些沉淀了千年智慧的古代文献,我们不禁要问:那些穿越时空的文字,是否也能够以全新的方式被理解、被发掘、被传承?《古代文学的数字回响:方法与实践》一书,正是一次对这一命题的深度探索。它并非仅仅停留在对古代文献本身的解读,而是将目光投向了那些支撑我们理解和研究古代文献的现代科技手段,特别是那些与信息科学交叉融合的最新理论与应用。 本书的核心,在于揭示如何运用计算学的强大力量,去“阅读”那些古老的文本,去“理解”其背后蕴含的复杂信息,去“重构”失落的知识体系。我们知道,古代文献,无论是史书、诗歌、哲学著作,还是工艺典籍,都承载着极其丰富的信息。然而,传统的研究方法,即便再精湛,也难免受到人力、时间和精力上的限制。例如,对一部庞大史书的史实考证、人物关系梳理,或是对大量诗歌的风格流派分析,往往需要数位学者花费数年甚至数十年方能有所成就。而随着数字化技术的飞速发展,我们有了前所未有的机遇,去突破这些瓶颈。 《古代文学的数字回响:方法与实践》首先将带领读者走进“数字人文”(Digital Humanities)的广阔天地。这门新兴的交叉学科,正是将人文科学的深刻洞察力与计算机科学的强大分析能力相结合,为传统人文学科的研究注入了新的活力。书中将详细介绍数字人文领域中,与古代文献研究息息相关的关键技术和方法论。我们将探讨文本的数字化(digitization)与标注意识化(annotation)的重要性,这是构建古代文献数字资源库的基石。从古籍善本的高精度扫描,到文本的OCR(Optical Character Recognition)识别与纠错,再到针对古代汉语特点的词法、句法、语义标注,每一个环节都至关重要。本书将深入剖析不同时期、不同类型文献在数字化过程中面临的挑战,以及相应的解决方案。例如,古籍中常见的异体字、通假字、残缺字,以及古代语法结构与现代汉语的差异,都对OCR和后续处理提出了特殊要求。 接着,本书将重点聚焦于“文本分析”(Text Analysis)的核心技术。在这里,我们不再仅仅满足于对文本的字面理解,而是希望通过计算模型,深入挖掘文本的内在规律。我们将详细介绍自然语言处理(Natural Language Processing, NLP)在古代文献研究中的应用。这包括但不限于: 词频统计与关键词提取: 通过量化分析,识别文献中最常出现、最具代表性的词汇,为理解文献的主题和思想提供线索。例如,分析《论语》中的“仁”字出现频率,可以直观地感受其在孔子思想体系中的核心地位。 主题建模(Topic Modeling): 利用LDA(Latent Dirichlet Allocation)等算法,从大规模语料中自动发现潜在的主题结构,帮助研究者宏观把握文献集的内容分布。这对于分析某个历史时期思想流派的演变,或是同一作者不同作品的主题侧重,具有不可估量的价值。 情感分析(Sentiment Analysis): 尝试分析古代文献中蕴含的情感色彩,例如诗歌的忧伤、散文的赞颂等。虽然对于古代情感的解读存在一定挑战,但通过对特定词汇、句式的使用模式进行量化分析,可以为理解作者的情绪状态和文本的感染力提供新的视角。 风格分析(Stylometric Analysis): 通过对词汇选择、句子长度、语法结构等语言特征的量化,研究不同作者、不同时期的文学风格,甚至可以辅助进行作品的真伪辨别和 authorship attribution(作者身份认定)。例如,区分不同史官的笔法,或是辨别早期道家著作的风格演变。 关系提取与知识图谱构建: 识别文献中的实体(人物、地点、事件、概念等)及其之间的关系,并将其构建成结构化的知识图谱。这对于梳理复杂的历史脉络、人物关系网、宗法制度、政治权力结构等,具有革命性的意义。本书将探讨如何从古代文献中自动或半自动地抽取关系,以及如何利用图数据库等技术进行高效存储与查询。 本书还将深入探讨“信息检索”(Information Retrieval)在古代文献研究中的应用。研究者不再需要大海捞针般地翻阅浩如烟海的书籍,而是可以通过智能化的搜索引擎,快速、精准地找到所需信息。我们将介绍如何为古代文献构建高效的索引,以及如何设计更适合古代汉语特点的查询接口和算法,以解决同义词、多义词、通假字等带来的检索难题。例如,如何高效检索所有提及“诸侯”的文献,或是在《史记》中快速找到所有关于“项羽”的记载,并能区分不同上下文中的含义。 此外,《古代文学的数字回响:方法与实践》还将触及“数据可视化”(Data Visualization)的领域。将分析得到的海量数据,通过直观的图表、地图、网络图等形式呈现出来,能够极大地增强研究者的理解和发现能力。例如,通过可视化工具展示某个朝代官员的任职脉络,或是不同学派的思想传播路径,能够让抽象的概念变得生动形象。 本书的特色在于,它并非仅仅停留在理论的介绍,而是充满了具体的案例分析和实践指导。我们将选取一些具有代表性的古代文献,如《诗经》、先秦诸子百家著作、汉代史书等,通过引入实际的研究项目,展示如何将上述计算方法应用于解决具体的学术问题。例如,如何利用文本分析技术,揭示《楚辞》中不同篇章的地域特色;如何构建《论语》的人物关系图谱,深入理解孔子及其弟子的互动模式;如何利用信息检索技术,对先秦时期的军事思想进行系统性的梳理与比较。 本书的受众不仅包括对计算语言学、数字人文感兴趣的计算机科学专业人士,更涵盖了历史学、文学、哲学、考古学等相关领域的学者、研究生以及所有对古代文明怀有深厚兴趣的读者。它旨在为传统人文研究者提供一把探索古代文献新维度的钥匙,为计算机科学家提供一个施展才华、服务文化传承的广阔舞台。 《古代文学的数字回响:方法与实践》是一次关于智慧与技术的对话,是一次关于过去与未来的交融。它相信,通过科学方法的介入,古老的文明之光将以更加璀璨的方式,在新时代得以回响,为我们理解中华文明的源远流长、博大精深,提供前所未有的洞察力。本书将引领您踏上一段激动人心的旅程,去发现隐藏在文字背后的无限可能。

用户评价

评分

这本厚重的典籍摆在案头,扑面而来的是一股古老的墨香,光是翻开扉页,就能感受到编纂者深厚的学术功底和对先秦文献的敬畏之情。我最欣赏它在梳理早期思想脉络时的那种抽丝剥茧的细致。例如,书中对于《诗经》中不同地域诗篇的语言学特征对比分析,简直令人叹为观止。它不仅仅是简单地罗列文本差异,更是深入挖掘了这些差异背后所蕴含的社会文化背景,让人仿佛能穿越时空,亲耳聆听那远古的吟唱与辩论。特别是对于一些罕见字词在不同篇目中的词义流变,作者的处理方式非常精妙,通过大量的旁证和合理的推断,为我们揭示了古代汉语词汇生命力的动态过程。读完后,我对先秦诸子百家的语言风格差异有了更立体的认识,不再是教科书上那种扁平化的描述,而是充满了鲜活的历史感和生动的语言张力。这本书无疑为非专业出身,但对古代思想史怀有热情的普通读者打开了一扇通往专业殿堂的侧门,虽然有些地方的论证稍显晦涩,但其宏大的视野和扎实的考据功底,足以让人甘之如饴,沉浸其中,流连忘返。

评分

这本书最让我感到振奋的是它对文献原貌的坚守与现代技术手段的巧妙结合。它并非简单地将古文电子化,而是试图通过技术手段,去还原古人阅读和理解文本时的可能路径。我特别喜欢其中关于“断句”和“标注”的讨论。在先秦文献中,断句往往是理解歧义的关键。作者展示了不同的断句假设如何导致完全不同的哲学解读,并尝试利用基于语料库的统计概率来辅助判断最有可能的原始断句。这种对文本基础层面的精雕细琢,展现了对传统文献学的尊重,同时又展示了对新方法的拥抱。然而,书中对于某些关键例证的引用似乎不够全面,尤其是在对比不同学派对同一文本的解读差异时,略显单薄。一个更平衡的视角本可以使论证更有说服力。总体而言,这是一部立意高远、执行力强的作品,它要求读者不仅要耐得住寂寞去啃读古文,还要有足够的好奇心去理解背后的技术逻辑。

评分

读完此书,我体验到了一种前所未有的“反哺”效应。过去我们总认为现代技术是解读古代文献的辅助工具,而这本书则清晰地展示了古代文献的复杂性如何反过来推动和塑造了信息处理领域的新方法。书中对一些早期文本中特有的“省略”和“跳跃”式表达的处理,为我们当前处理大数据中的“噪声”和“缺失值”提供了深刻的哲学启示。作者没有回避先秦文献在信息完备性上的天然缺陷,而是将其视为一种“结构性缺失”,并据此发展出一套推断性的信息恢复模型。这种思维的逆转令人拍案叫绝。当然,如果说有什么遗憾,那就是在全书的收束部分,对于这些研究成果的未来应用前景的展望略显保守。鉴于其提出的方法论具有如此强大的潜力,我更期待看到作者能更大胆地勾勒出计算语言学在未来十年内如何彻底重塑我们对古代文本研究的蓝图,而非仅仅停留在对既有文本的分析层面。这本书无疑是连接历史与未来的重要桥梁。

评分

初读此书,给我最强烈的感受是其对“信息”二字的独特诠释,它将先秦典籍视为一个巨大的、待解码的信息库。书中对于如何从古奥的篇章中提取出结构化的数据模型这一论述,极具启发性。例如,作者构建了一个关于早期神话叙事中人物关系网络的数据模型,展示了如何运用现代的图论概念去解析那些看似散乱的家族谱系和权力交替。这种跨学科的视角令人耳目一新,它打破了传统人文学科的壁垒,将严谨的量化分析引入了对古代文献的解读。不过,书中在介绍某些量化工具和算法的段落时,似乎过于偏向技术细节的展示,对于不熟悉相关计算方法论的读者来说,可能会造成一定的阅读障碍,显得有些突兀。如果能用更具文学性和比喻性的语言来阐释这些工具如何服务于人文理解,而不是仅仅罗列其技术规格,那么这本书的普适性会大大增强。即便如此,它对未来数字人文研究方法的探索和预示,价值是不可估量的。

评分

坦率地说,这本书的体量和深度对我这个习惯了快速阅读的现代人来说,无疑是一个挑战。它的阅读体验更像是在攀登一座知识的高峰,每前进一步都需要耗费巨大的心神去消化那些繁复的符号系统和严谨的逻辑链条。我特别关注了其中关于“礼”在不同早期文本中如何通过特定的词汇结构来构建其社会规范的章节。作者没有停留在概念的界定上,而是展示了“礼”在语言层面的具体运作机制,比如动词和名词的搭配如何暗示了行为的主体与客体之间的权力关系。这种微观的语言分析,结合宏观的文化建构,使得原本抽象的古代伦理体系变得具体可感。虽然在某些章节,对于某些特定文献的文本校勘细节描述得过于冗长,占用了较多的篇幅,使得核心论点被一些细枝末节稍稍稀释,但总体而言,这本书在方法的创新性和论证的严密性上,依然保持了极高的水准。它适合需要进行深入研究和需要精准引用一手资料的学者们,对于只想略窥堂奥的读者,可能需要更具导向性的导读辅助。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.qciss.net All Rights Reserved. 图书大百科 版权所有