内容简介
《搜索引擎:信息检索实践(英文版)》介绍了信息检索(1R)中的关键问题。以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜索引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。
《搜索引擎:信息检索实践(英文版)》适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,《搜索引擎:信息检索实践(英文版)》也不失为一本理想的入门教材。
作者简介
W.Bruce Croft,马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心,发表了200余篇论文,多次获奖,其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。
Donald Metzler马萨诸塞大学阿默斯特分校博士,是位于加州Santa Clara的雅虎研究中心搜索与计算广告组的研究科学家。
Trevor Strohman马萨诸塞大学阿默斯特分校博士,是Google公司搜索质量部门的软件工程师。他开发了Galago搜索引擎,也是Indri搜索引擎的主要开发者。
内页插图
目录
1 Search Engines and Information Retrieval
1.1 What Is Information Retrieval?
1.2 The Big Issues
1.3 Search Engines
1.4 Search Engineers
2 Architecture of a Search Engine
2.1 What Is an Architecture
2.2 Basic Building Blocks
2.3 Breaking It Down
2.3.1 Text Acquisition
2.3.2 Text Transformation
2.3.3 Index Creation
2.3.4 User Interaction
2.3.5 Ranking
2.3.6 Evaluation
2.4 How Does It Really Work?
3 Crawls and Feeds
3.1 Deciding What to Search
3.2 Crawling the Web
3.2.1 Retrieving Web Pages
3.2.2 The Web Crawler
3.2.3 Freshness
3.2.4 Focused Crawling
3.2.5 Deep Web
3.2.6 Sitemaps
3.2.7 Distributed Crawling
3.3 Crawling Documents and Email
3.4 Document Feeds
3.5 The Conversion Problem
3.5.1 Character Encodings
3.6 Storing the Documents
3.6,1 Using a Database System
3.6.2 Random Access
3.6.3 Compression and Large Files
3.6.4 Update
3.6.5 BigTable
3.7 Detecting Duplicates
3.8 Removing Noise
4 Processing Text
4.1 From Words to Terms
4.2 Text Statistics
4.2.1 Vocabulary Growth
4.2.2 Estimating Collection and Result Set Sizes
4.3 Document Parsing
4.3.1 Overview
4.3.2 Tokenizing
4.3.3 Stopping
4.3.4 Stemming
4.3.5 Phrases and N-grams
4.4 Document Structure and Markup
4.5 Link Analysis
4.5.1 Anchor Text
4.5.2 PageRank
4.5.3 Link Quality
4.6 Information Extraction
4.6.1 Hidden Markov Models for Extraction
4.7 Internationalization
5 Ranking with Indexes
5.1 Overview
5.2 Abstract Model of Ranking
5.3 Inverted Indexes
5.3.1 Documents
5.3.2 Counts
5.3.3 Positions
5.3A Fields and Extents
5.3.5 Scores
5.3.6 Ordering
5.4 Compression
5.4.1 Entropy and Ambiguity
5.4.2 Delta Encoding
5.4.3 Bit-Aligned Codes
5.4.4 Byte-Aligned Codes
5.4.5 Compression in Practice
5.4.6 Looking Ahead
5.4.7 Skipping and Skip Pointers
5.5 Auxiliary Structures
5.6 Index Construction
5.6.1 Simple Construction
5.6.2 Merging
5.6.3 Parallelism and Distribution
5.6.4 Update
5.7 Query Processing
5.7.1 Document-at-a-time Evaluation
5.7.2 Term-at-a-time Evaluation
5.7.3 Optimization Techniques
5.7.4 Structured Queries
5.7.5 Distributed Evaluation
5.7.6 Caching
6 Queries and Interfaces
6.1 Information Needs and Queries
6.2 Query Transformation and Refinement
6.2.1 Stopping and Stemming Revisited
6.2.2 Spell Checking and Suggestions
6.2.3 Query Expansion
6.2.4 Relevance Feedback
6.2.5 Context and Personalization
6.3 Showing the Results
6.3.1 Result Pages and Snippets
6.3.2 Advertising and Search
6.3.3 Clustering the Results
6.4 Cross-Language Search
7 Retrieval Models
7.1 Overview of Retrieval Models
7.1.1 Boolean Retrieval
7.1.2 The Vector Space Model
7.2 Probabilistic Models
7.2.1 Information Retrieval as Classification
7.2.2 The BM25 Ranking Algorithm
7.3 Ranking Based on Language Models
7.3.1 Query Likelihood Ranking
7.3.2 Relevance Models and Pseudo-Relevance Feedback
7.4 Complex Queries and Combining Evidence
7.4.1 The Inference Network Model
7.4.2 The Galago Query Language
7.5 Web Search
7.6 Machine Learning and Information Retrieval
7.6.1 Learning to Rank
7.6.2 Topic Models and Vocabulary Mismatch
7.7 Application-Based Models
8 Evaluating Search Engines
8.1 Why Evaluate ?
8.2 The Evaluation Corpus
8.3 Logging
8.4 Effectiveness Metrics
8.4.1 Recall and Precision
8.4.2 Averaging and Interpolation
8.4.3 Focusing on the Top Documents
8.4.4 Using Preferences
……
9 Classification and Clustering
10 Social Search
11 Beyond Bag of Words
Reverences
Index
精彩书摘
After documents have been converted to some common format, they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.
Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.
Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.
Finally, document storage systems can be a starting point for information extraction (described in Chapter 4). The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.
前言/序言
为了进一步贯彻“国务院关于大力推进职业教育改革与发展的决定”的文件精神,加强职业教育教材建设,满足现阶段职业院校深化教学改革对教材建设的要求,根据现阶段职业院校该专业没有一套较为合适的教材,大部分院校采用自编或行业的考证培训教材组织教学,非常不适合职业教育的实际情况,机械工业出版社于2008年8月在北京召开了“职业教育金属材料检测类专业教学研讨及教材建设会议”,在会上,来自全国该专业的骨干教师、专家、企业代表研讨了新的职业教育形势下该专业的课程体系,本书就是根据会议所确定的教学大纲要求和高职教育培养目标组织编写的。
本书根据国家职业技能标准,将无损检测技术专业不同等级的核心操作技能提炼出来,用极具典型性和代表性的实例加以表现并分步骤进行讲解。本书新颖的编排形式可以使读者对每个案例的操作全过程一目了然,力求使读者尽快熟练掌握无损检测技术各个等级的核心操作技能,力求对读者通过职业资格鉴定考试有所帮助。同时,读者也可以将书中相应实例应用于实际生产操作。
本书以数十个操作训练的实例较全面地介绍了射线检测、超声检测、磁粉检测、渗透检测的操作过程和方法,重点强调无损检测实际应用工艺,增加了典型检测工艺卡和应用实例介绍,力求为无损检测从业人员提供无损检测技术应用方面的指导和帮助。
全书共四个单元,邓洪军编写第一、二单元,路宝学编写第三、四单元。全书由邓洪军统稿,渤海船舶重工有限公司研究员级高工杨家武主审。
编写过程中,作者参阅了国内外出版的有关教材和资料,得到了北京普汇恒达材料测试有限公司、河北石油职业技术学院、陕西工业职业技术学院、四川工程职业技术学院、包头职业技术学院有关同志的有益指导,在此一并表示衷心感谢!
由于编写时间仓促,加之作者水平有限,书中不妥之处在所难免,恳请读者批评指正。
《文本挖掘与情感分析:从海量数据中洞察人心》 简介 在信息爆炸的数字时代,我们每天都被海量的数据所淹没。社交媒体帖子、产品评论、新闻报道、学术论文……这些文本数据蕴含着丰富的洞察,但其庞大的体量和非结构化的特性,使得直接获取有价值的信息成为一项艰巨的挑战。然而,正是这些被忽略的文本洪流,记录着消费者的真实想法、市场趋势的细微变化,以及社会舆论的风向。如何有效地从这些海量文本中提取关键信息,理解其背后的含义,特别是其中蕴含的情感态度,已成为当下各行各业亟需解决的问题。 《文本挖掘与情感分析:从海量数据中洞察人心》并非一本关于搜索引擎技术原理的书籍,它聚焦于文本数据本身,致力于为读者揭示如何“读懂”这些文字,并从中挖掘出更深层次的价值。本书不涉及搜索引擎底层算法的实现细节,不讨论如何构建一个搜索引擎,而是将焦点放在利用已有的文本数据,通过一系列先进的数据挖掘和自然语言处理技术,实现对文本内容的深度理解和情感倾向的识别。 本书旨在为那些希望深入了解如何从非结构化文本中提取洞察的读者提供一套系统性的理论框架和实践指导。无论您是数据科学家、市场研究员、产品经理、内容创作者,还是对人工智能在文本分析领域的应用感兴趣的普通读者,都能从本书中找到有价值的知识和实用的方法。 核心内容概述 本书将从基础的文本预处理入手,逐步深入到复杂的情感分析模型和实际应用场景。我们将详细探讨以下几个核心方面: 第一部分:文本数据预处理与特征工程 在对文本进行任何深度分析之前,对其进行有效的预处理是至关重要的一步。这一部分将带领读者了解如何将原始的、杂乱无章的文本转化为机器可以理解和分析的格式。 文本清洗: 包括去除HTML标签、特殊字符、标点符号,以及处理大小写不一致等问题。我们将探讨不同场景下清洗策略的权衡,以及如何自动化这一过程。 分词: 对于中文等粘着语,分词是理解文本含义的基础。我们将介绍不同分词算法的原理、优缺点,以及如何选择适合特定任务的分词器。 停用词去除: 识别并移除对文本含义影响不大、但会增加计算负担的常见词汇(如“的”、“是”、“在”等),以聚焦于真正有意义的词语。 词干提取与词形还原: 将不同形式的词语(如“running”、“ran”等)归纳到其基本形式(如“run”),以减少词汇的维度,提高分析的准确性。 特征提取: 将文本数据转换为数值向量,使其能够被机器学习模型处理。我们将深入讲解: 词袋模型 (Bag-of-Words, BoW): 最基本的文本表示方法,侧重于词语的出现频率。 TF-IDF (Term Frequency-Inverse Document Frequency): 一种更精细的特征提取方法,能够衡量一个词语在特定文档中的重要性以及它在整个语料库中的普遍性,从而识别出更具区分度的词汇。 N-grams: 考虑词语的顺序信息,捕捉短语和搭配的含义,例如“ not good”与“good”的含义截然不同。 词向量 (Word Embeddings): 如Word2Vec, GloVe, FastText等,将词语映射到低维连续向量空间,捕捉词语之间的语义关系,这是现代文本分析不可或缺的技术。我们将详细介绍这些模型的原理、训练方法以及如何使用预训练的词向量。 第二部分:文本挖掘与主题模型 在完成预处理和特征提取后,我们将进入更深层次的文本分析,从海量文本中发现隐藏的模式和结构。 文本分类: 将文本分配到预定义的类别中。我们将探讨常用的分类算法,如朴素贝叶斯、支持向量机(SVM)、逻辑回归,以及基于深度学习的模型(如CNN、RNN、Transformer等)在文本分类中的应用。 文本聚类: 将相似的文本自动分组,发现数据中未知的模式。我们将介绍K-means、DBSCAN等聚类算法,以及如何评估聚类效果。 主题模型 (Topic Modeling): 揭示文档集合中隐藏的潜在主题。我们将重点讲解: Latent Dirichlet Allocation (LDA): 最经典的主题模型之一,能够从文档集合中识别出抽象的主题,并为每个主题分配关键词,以及为每篇文档分配主题分布。我们将深入理解其概率图模型原理,以及如何选择合适的主题数量。 Non-negative Matrix Factorization (NMF): 另一种常用的主题模型,通过矩阵分解的方式来发现文本的主题结构。 文本主题模型的应用: 包括新闻内容分类、用户评论的主题分析、学术文献的领域划分等。 第三部分:情感分析与意见挖掘 情感分析,也称为意见挖掘,是本书的另一核心主题。它致力于识别和提取文本中表达的情感态度、观点和评价。 情感分析的粒度: 文档级情感分析: 判断整个文档所表达的情感倾向(积极、消极、中立)。 句子级情感分析: 判断每个句子所表达的情感倾向。 方面级情感分析 (Aspect-Based Sentiment Analysis, ABSA): 识别文本中讨论的具体方面(如“屏幕”、“电池”、“服务”等),并判断对这些方面的情感倾向。这是更精细、更具价值的情感分析方法。 情感分析的方法: 基于词典的方法: 利用预定义的情感词典(如SentiWordNet, HowNet等),根据词语的情感极性进行累加计算。我们将讨论词典的构建、情感词的扩展以及对抗否定和转折词的处理。 基于机器学习的方法: 使用标注好的情感数据训练分类模型,如朴素贝叶斯、SVM,以及更先进的深度学习模型。 基于深度学习的情感分析: 循环神经网络 (RNN) 和长短期记忆网络 (LSTM): 能够捕捉文本序列中的上下文信息,非常适合处理情感表达的顺序性。 卷积神经网络 (CNN): 能够捕捉文本中的局部特征,例如短语和n-grams的情感。 Transformer 模型: 如BERT、RoBERTa等,在NLP领域取得了革命性的进展,能够通过自注意力机制理解更深层次的语义关系,在情感分析任务中表现出色。我们将重点介绍如何利用这些预训练模型进行微调以适应情感分析任务。 意见挖掘: 除了识别情感倾向,本书还将探讨如何提取文本中包含的具体观点、评价和理由。 第四部分:实际应用与案例分析 理论与实践相结合,本书将通过丰富的实际案例,展示文本挖掘与情感分析在各个领域的应用价值。 市场营销与品牌声誉管理: 分析社交媒体、评论网站上的用户反馈,了解消费者对产品和品牌的看法,发现潜在的市场机会和风险。 金融领域的文本分析: 分析新闻、财报、分析师报告,预测市场趋势,评估公司风险。 舆情监控与社会科学研究: 追踪公众对特定事件、政策的态度,了解社会热点问题。 客户服务与用户体验优化: 分析客户反馈,识别服务中的痛点,改进产品和服务质量。 内容推荐与个性化服务: 理解用户对内容的偏好,提供更精准的推荐。 虚假信息检测与内容审核: 利用文本分析技术识别和过滤不当内容。 本书的特色与价值 系统性与全面性: 本书涵盖了从基础预处理到高级情感分析模型的完整流程,为读者构建了一个扎实的知识体系。 理论与实践并重: 深入浅出地讲解算法原理,同时提供丰富的代码示例和案例分析,帮助读者学以致用。 关注前沿技术: 重点介绍基于深度学习的最新文本分析技术,如Transformer模型在情感分析中的应用。 易于理解的语言: 避免过度使用晦涩的专业术语,力求用清晰、简洁的语言阐述复杂的概念。 面向广泛读者: 无论您是初学者还是有一定基础的从业者,都能从本书中获得启发和提升。 《文本挖掘与情感分析:从海量数据中洞察人心》将是您探索文本数据价值、发掘隐藏信息、理解人类情感的得力助手。通过本书的学习,您将能够从纷繁复杂的文本世界中,提炼出最有价值的洞察,从而在个人和职业生涯中取得更大的成功。