该资源由用户: 仲夏艳卉 上传 举报不良内容
本书主要包括总体介绍部分,爬虫部分,自然语言处理部分,全文检索部分以及相关案例分析.爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法.自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重,文本分类,自动聚类,句法分析树,拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法.在全文检索部分,结合Lucene介绍了搜索引擎的原理与进展.用简单的例子介绍了Lucene的最新应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现.此外还进一步介绍了实现准实时搜索的方法,展示了Solr的用法以及实分布式搜索服务集群的方法.最后介绍了在地理信息系统领域和户外活动搜索领域的应用.
尊敬的读者:
欢迎您访问我们的网站。本站的初衷是为大家提供一个共享学习资料、交换知识的平台。每位用户都可以将文件上传至网盘并分享。
然而,随着用户上传的资料增多,我们发现部分不宜或版权问题的书籍被分享到了本站。
为此,我们已经关闭了分享入口,并进行了多次书籍审查,但仍有部分内容未能彻底审查到位。
在此,我们恳请广大读者与我们共同监督,如发现任何不宜内容,请 点击此处 进行举报,我们会第一时间处理并下架相关内容。
希望我们能共建一个文明社区!感谢您的理解与支持!