您好,欢迎访问PDF电子书资源免费下载网

上传文档

当前位置:首页 > PDF图书 > 畅销书 > 小蜜蜂全站 > 走进搜索引擎

走进搜索引擎

二扫码支付 微信
二扫码支付 支付宝

还剩... 页未读,继续阅读

免费阅读已结束,点击付费阅读剩下 ...

¥ 0 元,已有0人购买

免费阅读

阅读已结束,您可以下载文档离线阅读

¥ 1 元,已有0人下载

付费下载
文档简介:

目 录 作者序 第1章 引言 1.1 搜索引擎概述 1.1.1 目录式搜索引擎 1.1.2 全文搜索引擎 1.1.3 元搜索引擎(Meta-Search Engine) 1.2 搜索引擎的主要需求 1.2.1 快 1.2.2 全 1.2.3 准 1.2.4 稳 1.2.5 省 1.3 搜索引擎的4大系统 1.3.1 搜索引擎的体系结构 第2章 搜索引擎的下载系统 2.1 爬虫的发展历史 2.1.1 世界上第1个爬虫 2.1.2 爬虫的发展历程 2.2 万维网及其网页分析 2.2.1 蝴蝶结型的万维网 2.2.2 万维网的直径 2.2.3 万维网的规模及变化特征 2.2.4 网页的特征 2.3 有关爬虫的基本概念 2.3.1 爬虫 2.3.2 种子站点 2.3.3 URL 2.3.4 Backlinks 2.4 网页抓取原理 2.4.1 telnet和wget 2.4.2 从种子站点开始逐层抓取 2.4.3 不重复抓取策略 2.4.4 网页抓取优先策略 2.4.5 网页重访策略 2.4.6 Robots协议 2.4.7 其他应该注意的礼貌性问题 2.4.8 重要性网页优先抓取策略 2.4.9 抓取提速策略(合作抓取策略) 2.5 网页库 2.6 下载系统回顾及未来发展 参考文献 第3章 搜索引擎的分析系统 3.1 知识准备 3.1.1 HTML语言 3.1.2 锚文本(anchor text) 3.1.3 半结构化数据(semi-structured data) 3.2 信息抽取及网页信息结构化 3.2.1 网页结构化的目标 3.2.2 建立HTML标签树 3.2.3 通过投票方法得到正文 3.2.4 网页结构化过程回顾 3.3 网页查重 3.3.1 网页查重技术发展历史 3.3.2 网页查重实现方法 3.4 中文分词 3.4.1 什么是中文分词 3.4.2 通过字典实现分词 3.4.3 基于统计的分词方法 3.5 PageRank 3.5.1 PageRank的来由 3.5.2 PageRank的基本想法 3.5.3 PageRank的计算公式 3.5.4 PageRank的计算方法 3.6 分析系统结构图 参考文献 第4章 搜索引擎的索引系统 4.1 知识准备 4.1.1 信息 4.1.2 索引 4.1.3 倒排索引、倒排表、临时倒排文件、最终倒排文件 4.1.4 其他概念 4.2 全文检索 4.3 文档编号 4.3.1 编号的本质 4.3.2 文档编号的方法 4.3.3 游程编码 4.4 倒排索引 4.4.1 经典的倒排索......

资料大王PDF
资料大王PDF
  • 64801

    文档
  • 60.4749

    金币
Ta的主页 发私信

64801篇文档

相关搜索

走进搜索引擎

评论

发表评论
< /0 > 付费下载 ¥ 1 元

Powered by 阿里PDF-免费文档电子书下载

Copyright © PDF电子书资源免费下载网 All Rights Reserved. 皖ICP备2021018472号-4
×
保存成功