搜索引擎：信息检索实践（英文版） [Search Engines Information Retrieval in Practice] pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

[美] 克罗夫特等著

图书标签:

搜索引擎
信息检索
信息科学
计算机科学
数据挖掘
机器学习
文本处理
网页搜索
算法
实践

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111282471

版次：1

商品编码：10059560

品牌：机工出版

包装：平装

丛书名：经典原版书库

外文名称：Search Engines Information Retrieval in Practice

开本：大32开

出版时间：2009-10-01

用纸：胶版纸

页数：52

具体描述

内容简介

　　《搜索引擎：信息检索实践（英文版）》介绍了信息检索（1R）中的关键问题。以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜索引擎这一重要的话题，书中主要涵盖了在网络上广泛使用的搜索技术。
　　《搜索引擎：信息检索实践（英文版）》适用于高等院校计算机科学或计算机工程专业的本科生、研究生，对于专业人士而言，《搜索引擎：信息检索实践（英文版）》也不失为一本理想的入门教材。

作者简介

　　W.Bruce Croft，马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心，发表了200余篇论文，多次获奖，其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。
　　Donald Metzler马萨诸塞大学阿默斯特分校博士，是位于加州Santa Clara的雅虎研究中心搜索与计算广告组的研究科学家。
　　Trevor Strohman马萨诸塞大学阿默斯特分校博士，是Google公司搜索质量部门的软件工程师。他开发了Galago搜索引擎，也是Indri搜索引擎的主要开发者。

内页插图

1 Search Engines and Information Retrieval
1.1 What Is Information Retrieval?
1.2 The Big Issues
1.3 Search Engines
1.4 Search Engineers

2 Architecture of a Search Engine
2.1 What Is an Architecture
2.2 Basic Building Blocks
2.3 Breaking It Down
2.3.1 Text Acquisition
2.3.2 Text Transformation
2.3.3 Index Creation
2.3.4 User Interaction
2.3.5 Ranking
2.3.6 Evaluation
2.4 How Does It Really Work?

3 Crawls and Feeds
3.1 Deciding What to Search
3.2 Crawling the Web
3.2.1 Retrieving Web Pages
3.2.2 The Web Crawler
3.2.3 Freshness
3.2.4 Focused Crawling
3.2.5 Deep Web
3.2.6 Sitemaps
3.2.7 Distributed Crawling
3.3 Crawling Documents and Email
3.4 Document Feeds
3.5 The Conversion Problem
3.5.1 Character Encodings
3.6 Storing the Documents
3.6,1 Using a Database System
3.6.2 Random Access
3.6.3 Compression and Large Files
3.6.4 Update
3.6.5 BigTable
3.7 Detecting Duplicates
3.8 Removing Noise

4 Processing Text
4.1 From Words to Terms
4.2 Text Statistics
4.2.1 Vocabulary Growth
4.2.2 Estimating Collection and Result Set Sizes
4.3 Document Parsing
4.3.1 Overview
4.3.2 Tokenizing
4.3.3 Stopping
4.3.4 Stemming
4.3.5 Phrases and N-grams
4.4 Document Structure and Markup
4.5 Link Analysis
4.5.1 Anchor Text
4.5.2 PageRank
4.5.3 Link Quality
4.6 Information Extraction
4.6.1 Hidden Markov Models for Extraction
4.7 Internationalization

5 Ranking with Indexes
5.1 Overview
5.2 Abstract Model of Ranking
5.3 Inverted Indexes
5.3.1 Documents
5.3.2 Counts
5.3.3 Positions
5.3A Fields and Extents
5.3.5 Scores
5.3.6 Ordering
5.4 Compression
5.4.1 Entropy and Ambiguity
5.4.2 Delta Encoding
5.4.3 Bit-Aligned Codes
5.4.4 Byte-Aligned Codes
5.4.5 Compression in Practice
5.4.6 Looking Ahead
5.4.7 Skipping and Skip Pointers
5.5 Auxiliary Structures
5.6 Index Construction
5.6.1 Simple Construction
5.6.2 Merging
5.6.3 Parallelism and Distribution
5.6.4 Update
5.7 Query Processing
5.7.1 Document-at-a-time Evaluation
5.7.2 Term-at-a-time Evaluation
5.7.3 Optimization Techniques
5.7.4 Structured Queries
5.7.5 Distributed Evaluation
5.7.6 Caching

6 Queries and Interfaces
6.1 Information Needs and Queries
6.2 Query Transformation and Refinement
6.2.1 Stopping and Stemming Revisited
6.2.2 Spell Checking and Suggestions
6.2.3 Query Expansion
6.2.4 Relevance Feedback
6.2.5 Context and Personalization
6.3 Showing the Results
6.3.1 Result Pages and Snippets
6.3.2 Advertising and Search
6.3.3 Clustering the Results
6.4 Cross-Language Search

7 Retrieval Models
7.1 Overview of Retrieval Models
7.1.1 Boolean Retrieval
7.1.2 The Vector Space Model
7.2 Probabilistic Models
7.2.1 Information Retrieval as Classification
7.2.2 The BM25 Ranking Algorithm
7.3 Ranking Based on Language Models
7.3.1 Query Likelihood Ranking
7.3.2 Relevance Models and Pseudo-Relevance Feedback
7.4 Complex Queries and Combining Evidence
7.4.1 The Inference Network Model
7.4.2 The Galago Query Language
7.5 Web Search
7.6 Machine Learning and Information Retrieval
7.6.1 Learning to Rank
7.6.2 Topic Models and Vocabulary Mismatch
7.7 Application-Based Models

8 Evaluating Search Engines
8.1 Why Evaluate ?
8.2 The Evaluation Corpus
8.3 Logging
8.4 Effectiveness Metrics
8.4.1 Recall and Precision
8.4.2 Averaging and Interpolation
8.4.3 Focusing on the Top Documents
8.4.4 Using Preferences
……
9 Classification and Clustering
10 Social Search
11 Beyond Bag of Words
Reverences
Index

精彩书摘

　　After documents have been converted to some common format， they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.
　　Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.
　　Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.
　　Finally, document storage systems can be a starting point for information extraction （described in Chapter 4）. The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.

前言/序言

　　为了进一步贯彻“国务院关于大力推进职业教育改革与发展的决定”的文件精神，加强职业教育教材建设，满足现阶段职业院校深化教学改革对教材建设的要求，根据现阶段职业院校该专业没有一套较为合适的教材，大部分院校采用自编或行业的考证培训教材组织教学，非常不适合职业教育的实际情况，机械工业出版社于2008年8月在北京召开了“职业教育金属材料检测类专业教学研讨及教材建设会议”，在会上，来自全国该专业的骨干教师、专家、企业代表研讨了新的职业教育形势下该专业的课程体系，本书就是根据会议所确定的教学大纲要求和高职教育培养目标组织编写的。
　　本书根据国家职业技能标准，将无损检测技术专业不同等级的核心操作技能提炼出来，用极具典型性和代表性的实例加以表现并分步骤进行讲解。本书新颖的编排形式可以使读者对每个案例的操作全过程一目了然，力求使读者尽快熟练掌握无损检测技术各个等级的核心操作技能，力求对读者通过职业资格鉴定考试有所帮助。同时，读者也可以将书中相应实例应用于实际生产操作。
　　本书以数十个操作训练的实例较全面地介绍了射线检测、超声检测、磁粉检测、渗透检测的操作过程和方法，重点强调无损检测实际应用工艺，增加了典型检测工艺卡和应用实例介绍，力求为无损检测从业人员提供无损检测技术应用方面的指导和帮助。
　　全书共四个单元，邓洪军编写第一、二单元，路宝学编写第三、四单元。全书由邓洪军统稿，渤海船舶重工有限公司研究员级高工杨家武主审。
　　编写过程中，作者参阅了国内外出版的有关教材和资料，得到了北京普汇恒达材料测试有限公司、河北石油职业技术学院、陕西工业职业技术学院、四川工程职业技术学院、包头职业技术学院有关同志的有益指导，在此一并表示衷心感谢！
　　由于编写时间仓促，加之作者水平有限，书中不妥之处在所难免，恳请读者批评指正。

《文本挖掘与情感分析：从海量数据中洞察人心》简介在信息爆炸的数字时代，我们每天都被海量的数据所淹没。社交媒体帖子、产品评论、新闻报道、学术论文……这些文本数据蕴含着丰富的洞察，但其庞大的体量和非结构化的特性，使得直接获取有价值的信息成为一项艰巨的挑战。然而，正是这些被忽略的文本洪流，记录着消费者的真实想法、市场趋势的细微变化，以及社会舆论的风向。如何有效地从这些海量文本中提取关键信息，理解其背后的含义，特别是其中蕴含的情感态度，已成为当下各行各业亟需解决的问题。《文本挖掘与情感分析：从海量数据中洞察人心》并非一本关于搜索引擎技术原理的书籍，它聚焦于文本数据本身，致力于为读者揭示如何“读懂”这些文字，并从中挖掘出更深层次的价值。本书不涉及搜索引擎底层算法的实现细节，不讨论如何构建一个搜索引擎，而是将焦点放在利用已有的文本数据，通过一系列先进的数据挖掘和自然语言处理技术，实现对文本内容的深度理解和情感倾向的识别。本书旨在为那些希望深入了解如何从非结构化文本中提取洞察的读者提供一套系统性的理论框架和实践指导。无论您是数据科学家、市场研究员、产品经理、内容创作者，还是对人工智能在文本分析领域的应用感兴趣的普通读者，都能从本书中找到有价值的知识和实用的方法。核心内容概述本书将从基础的文本预处理入手，逐步深入到复杂的情感分析模型和实际应用场景。我们将详细探讨以下几个核心方面：第一部分：文本数据预处理与特征工程在对文本进行任何深度分析之前，对其进行有效的预处理是至关重要的一步。这一部分将带领读者了解如何将原始的、杂乱无章的文本转化为机器可以理解和分析的格式。文本清洗：包括去除HTML标签、特殊字符、标点符号，以及处理大小写不一致等问题。我们将探讨不同场景下清洗策略的权衡，以及如何自动化这一过程。分词：对于中文等粘着语，分词是理解文本含义的基础。我们将介绍不同分词算法的原理、优缺点，以及如何选择适合特定任务的分词器。停用词去除：识别并移除对文本含义影响不大、但会增加计算负担的常见词汇（如“的”、“是”、“在”等），以聚焦于真正有意义的词语。词干提取与词形还原：将不同形式的词语（如“running”、“ran”等）归纳到其基本形式（如“run”），以减少词汇的维度，提高分析的准确性。特征提取：将文本数据转换为数值向量，使其能够被机器学习模型处理。我们将深入讲解：词袋模型 (Bag-of-Words, BoW)：最基本的文本表示方法，侧重于词语的出现频率。 TF-IDF (Term Frequency-Inverse Document Frequency)：一种更精细的特征提取方法，能够衡量一个词语在特定文档中的重要性以及它在整个语料库中的普遍性，从而识别出更具区分度的词汇。 N-grams：考虑词语的顺序信息，捕捉短语和搭配的含义，例如“ not good”与“good”的含义截然不同。词向量 (Word Embeddings)：如Word2Vec, GloVe, FastText等，将词语映射到低维连续向量空间，捕捉词语之间的语义关系，这是现代文本分析不可或缺的技术。我们将详细介绍这些模型的原理、训练方法以及如何使用预训练的词向量。第二部分：文本挖掘与主题模型在完成预处理和特征提取后，我们将进入更深层次的文本分析，从海量文本中发现隐藏的模式和结构。文本分类：将文本分配到预定义的类别中。我们将探讨常用的分类算法，如朴素贝叶斯、支持向量机(SVM)、逻辑回归，以及基于深度学习的模型（如CNN、RNN、Transformer等）在文本分类中的应用。文本聚类：将相似的文本自动分组，发现数据中未知的模式。我们将介绍K-means、DBSCAN等聚类算法，以及如何评估聚类效果。主题模型 (Topic Modeling)：揭示文档集合中隐藏的潜在主题。我们将重点讲解： Latent Dirichlet Allocation (LDA)：最经典的主题模型之一，能够从文档集合中识别出抽象的主题，并为每个主题分配关键词，以及为每篇文档分配主题分布。我们将深入理解其概率图模型原理，以及如何选择合适的主题数量。 Non-negative Matrix Factorization (NMF)：另一种常用的主题模型，通过矩阵分解的方式来发现文本的主题结构。文本主题模型的应用：包括新闻内容分类、用户评论的主题分析、学术文献的领域划分等。第三部分：情感分析与意见挖掘情感分析，也称为意见挖掘，是本书的另一核心主题。它致力于识别和提取文本中表达的情感态度、观点和评价。情感分析的粒度：文档级情感分析：判断整个文档所表达的情感倾向（积极、消极、中立）。句子级情感分析：判断每个句子所表达的情感倾向。方面级情感分析 (Aspect-Based Sentiment Analysis, ABSA)：识别文本中讨论的具体方面（如“屏幕”、“电池”、“服务”等），并判断对这些方面的情感倾向。这是更精细、更具价值的情感分析方法。情感分析的方法：基于词典的方法：利用预定义的情感词典（如SentiWordNet, HowNet等），根据词语的情感极性进行累加计算。我们将讨论词典的构建、情感词的扩展以及对抗否定和转折词的处理。基于机器学习的方法：使用标注好的情感数据训练分类模型，如朴素贝叶斯、SVM，以及更先进的深度学习模型。基于深度学习的情感分析：循环神经网络 (RNN) 和长短期记忆网络 (LSTM)：能够捕捉文本序列中的上下文信息，非常适合处理情感表达的顺序性。卷积神经网络 (CNN)：能够捕捉文本中的局部特征，例如短语和n-grams的情感。 Transformer 模型：如BERT、RoBERTa等，在NLP领域取得了革命性的进展，能够通过自注意力机制理解更深层次的语义关系，在情感分析任务中表现出色。我们将重点介绍如何利用这些预训练模型进行微调以适应情感分析任务。意见挖掘：除了识别情感倾向，本书还将探讨如何提取文本中包含的具体观点、评价和理由。第四部分：实际应用与案例分析理论与实践相结合，本书将通过丰富的实际案例，展示文本挖掘与情感分析在各个领域的应用价值。市场营销与品牌声誉管理：分析社交媒体、评论网站上的用户反馈，了解消费者对产品和品牌的看法，发现潜在的市场机会和风险。金融领域的文本分析：分析新闻、财报、分析师报告，预测市场趋势，评估公司风险。舆情监控与社会科学研究：追踪公众对特定事件、政策的态度，了解社会热点问题。客户服务与用户体验优化：分析客户反馈，识别服务中的痛点，改进产品和服务质量。内容推荐与个性化服务：理解用户对内容的偏好，提供更精准的推荐。虚假信息检测与内容审核：利用文本分析技术识别和过滤不当内容。本书的特色与价值系统性与全面性：本书涵盖了从基础预处理到高级情感分析模型的完整流程，为读者构建了一个扎实的知识体系。理论与实践并重：深入浅出地讲解算法原理，同时提供丰富的代码示例和案例分析，帮助读者学以致用。关注前沿技术：重点介绍基于深度学习的最新文本分析技术，如Transformer模型在情感分析中的应用。易于理解的语言：避免过度使用晦涩的专业术语，力求用清晰、简洁的语言阐述复杂的概念。面向广泛读者：无论您是初学者还是有一定基础的从业者，都能从本书中获得启发和提升。《文本挖掘与情感分析：从海量数据中洞察人心》将是您探索文本数据价值、发掘隐藏信息、理解人类情感的得力助手。通过本书的学习，您将能够从纷繁复杂的文本世界中，提炼出最有价值的洞察，从而在个人和职业生涯中取得更大的成功。

用户评价

评分☆☆☆☆☆

作为一名长期与数据打交道的数据分析师，我对信息检索的效率和准确性有着非常高的要求。我所负责的工作经常需要从海量的数据集中提取有价值的信息，而一个高效的信息检索系统是完成这项任务的关键。我常常面临的挑战是如何快速、准确地找到我需要的数据，以及如何优化我的查询语句以获得最佳结果。这本书的书名，尤其是“信息检索实践”这几个字，让我觉得它非常贴合我的职业需求。我希望书中能够详细讲解构建高效检索系统的关键技术，例如如何进行数据预处理、如何设计索引结构、如何选择合适的检索算法，以及如何进行性能优化。我也对书中可能涉及到的相关性排序算法和学习排序技术很感兴趣，因为这些技术直接关系到检索结果的质量。如果书中能够提供一些实际的案例，展示如何在不同类型的数据集上构建和优化信息检索系统，那将对我非常有启发。我渴望从这本书中学习到更深入的原理和更实用的技巧，从而提升我在数据分析工作中的效率和能力。

评分☆☆☆☆☆

搜索是人类探索知识、获取信息的最基本方式之一，而搜索引擎的出现，无疑将这一过程推向了一个全新的高度。作为一名对技术发展充满好奇心的科技爱好者，我一直对搜索引擎背后的技术原理充满了敬畏和好奇。这本书的书名，——《搜索引擎：信息检索实践》，简洁明了地概括了它的主题，也点燃了我深入探索的兴趣。我非常想知道，那些看似简单的搜索框背后，究竟凝聚了多少人类智慧的结晶。我期待书中能够深入浅出地介绍信息检索的各个环节，从网络爬虫的辛勤工作，到搜索引擎的索引构建，再到复杂的查询处理和排序算法，希望能够清晰地展现一个完整的检索流程。我也对信息检索的评估方法和未来的发展趋势很感兴趣，比如，随着人工智能技术的飞速发展，未来的搜索引擎将会朝着怎样的方向演进？这本书能否为我提供一些前瞻性的洞见？我希望通过阅读这本书，能够对搜索引擎这一改变世界的伟大发明有一个更深刻、更全面的理解，并从中获得更多启发。

评分☆☆☆☆☆

我一直对搜索引擎的“大脑”是如何运作的感到着迷。每天，当我们输入一个关键词，屏幕上立刻出现成千上万条相关的结果，而且这些结果的排序似乎总是那么“聪明”，总能把我们最想要的信息排在前面。这种“魔术”背后究竟隐藏着怎样的技术？我常常在想，那些爬虫是如何不知疲倦地吞噬互联网的海量信息？索引是如何构建才能快速响应查询？排序算法又是如何判断哪些网页更“权威”或更“相关”？这本书的出现，恰好触及了我内心深处的这些疑问。我期待它能从最基础的概念讲起，比如倒排索引、词项频率、逆文档频率，然后逐步深入到更复杂的模型，比如PageRank、BM25，甚至是机器学习在信息检索中的应用。我希望作者能够用严谨但不失趣味性的语言，带领我一步步揭开这些神秘的面纱。同时，我也希望书中能够包含一些实际的案例分析，让我能够看到这些理论如何在真实世界的搜索引擎中落地生根，解决现实问题。毕竟，学习理论的最终目的，是为了更好地理解和改造世界，而搜索引擎无疑是塑造我们现代信息获取方式的关键力量之一。

评分☆☆☆☆☆

这本书的封面设计非常朴实，甚至可以说是有些“硬核”，一看就是面向专业人士或者有志于深入研究的读者的。我刚拿到它的时候，就被厚实的纸张和密密麻麻的英文标题吓了一跳，心想这下可有的啃了。不过，也正是这种“不加修饰”的气质，反而让我对它所承载的内容充满了期待。我从事IT行业很多年了，虽然平时接触很多信息检索方面的应用，但总觉得隔靴搔痒，对于背后的原理和算法知之甚少。市面上有很多介绍“如何使用”搜索引擎的书籍，但真正深入剖析“为何如此”的书却屈指可数。这本书的名字，尤其是“实践”二字，点明了它不仅仅是理论的堆砌，而是要将抽象的知识与实际的应用相结合，这正是我所需要的。我非常好奇作者是如何将那些复杂的数学模型、统计学原理，以及庞大的计算架构，以一种清晰易懂的方式呈现出来的。而且，英文原版也意味着我需要克服语言上的障碍，这对我来说也是一种挑战，但为了能够更原汁原味地理解作者的思想，我觉得这是值得的。我希望这本书能够为我打开一扇通往信息检索核心世界的大门，让我能够真正理解我们每天都在使用的强大工具背后所蕴含的智慧。

评分☆☆☆☆☆

我曾尝试过阅读一些关于信息检索的学术论文，但坦白说，很多论文的写作风格过于晦涩，充斥着大量的专业术语和复杂的公式，对于非专业人士来说，门槛实在太高了。我希望这本书能够弥合理论与实践之间的鸿沟，用一种更加易于理解和接受的方式来介绍信息检索的核心概念。我特别期待书中能够详细介绍不同类型的信息检索模型，比如布尔模型、向量空间模型、概率模型，以及它们各自的优缺点。此外，我也对相关的评估指标很感兴趣，例如精确率、召回率、F1值等，了解这些指标是如何衡量一个搜索引擎的好坏，以及如何通过优化算法来提升这些指标。这本书的“实践”二字，也让我对书中可能包含的算法实现细节或案例研究抱有很高的期望。我希望作者能够分享一些在实际开发过程中遇到的挑战和解决方案，让我能够对信息检索的工程化落地有一个更直观的认识。毕竟，理论是基础，但没有实践的理论就像空中楼阁，无法真正发挥其价值。

评分☆☆☆☆☆

机械工业出版社经典原版书库之一，整个丛书系列质量相对来说比较高，这本书也不例外。作者W. B. Croft是Umass的特聘教授，创建了智能信息检索研究中心。作为搜索引擎技术的入门书籍之一，本书涉及内容比较全面，核心理论也讲得比较透彻，有着较强的可读性和实用性。同时，这本书也比较偏向于理论，对于理解搜索引擎也有着促进作用。

评分☆☆☆☆☆

书很不错，很容易明白

评分☆☆☆☆☆

虽然Bruce是学术界的人，但这本书里描述的设计和算法并非都是学术派，有不少真正商业搜索引擎也在使用的技术；

评分☆☆☆☆☆

引擎技术，程序员，还是要懂点的

评分☆☆☆☆☆

书是32开的，与现在主流书的个头不一样。经典嘛，印刷和装订都有经典感。书的内容我就不评价了，印刷质量还是相当不错的

评分☆☆☆☆☆

不过总算比国内的书要好很多。

评分☆☆☆☆☆

很喜欢啊最爱原版