{$cfg_webname}
主页 > 计算机 > JAVA >

基于lucene的搜索引擎的研究与实现(Eclipse,Tomcat,MySQL)

来源:wenku163.com  资料编号:WK16312314 资料等级:★★★★★ %E8%B5%84%E6%96%99%E7%BC%96%E5%8F%B7%EF%BC%9AWK16312314
资料介绍

基于lucene的搜索引擎的研究与实现(Eclipse,Tomcat,MySQL)(含选题审批表,任务书,开题报告,中期检查表,毕业论文说明书16400字,程序代码,mysql数据库)
毕业设计(论文)中文摘要
关于lucene的搜索引擎的研究与实现(含选题审批表,任务书,开题报告,中期检查表,毕业论文说明书12000字,答辩记录,程序代码,mysql数据库)
摘  要:近来,垂直搜索引擎越来越受到同行和媒体的关注,是网站推广     中最廉价、最高效的方式。构建一个关于食物的垂直搜索引擎,让用户可以在网站上,搜索其需要的信息,并能从搜索结果中打开一个有关详细信息的页面进行浏览。
系统使用Eclipse和Dreamweaver作为开发环境。系统后台的信息是由某网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLParser解析,将详细信息插入MySQL数据库,然后建立用来检索关键字的词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务

关键词:垂直搜索引擎;Lucene;Heritrix
 
毕业设计(论文)外文摘要
The Research and Implementation of Search Engine Based on Lucene
Abstract: Recently, vertical search engine has attracted more and more attention of the peers and the media. It is the cheapest and most efficient way for website promoting. A vertical search engine about food will be built allowing the users on the site to search information they need. And a page about more detailed information can be opened to visit from search results.
The system is developed by Eclipse and Dreamweaver environment. In this system information is provided by an website. Heritrix crawl list is prepared through analyzing website, and then submitted to deal with Heritrix. Pages are analyzed with HTMLParser after crawled, and detailed information will be inserted into the MySQL database. Then Lucene index and the  thesaurus what is used as keywords are established. Finally, a Web platform will be set up to integrate the established index and database with JSP technology, providing users with real search service.

Keywords: vertical search engine; Lucene; Heritrix

论文各章介绍
本论文的主要章节如下:
第1章引言部分,引言主要叙述课题的研究背景和意义、问题的定义和内容简介、问题的调研和可行性分析。
第2章主要讲的是:需求分析,系统需求的分析。
第3章主要内容是:介绍了搜索引擎的基本定义,搜索引擎的特点及分类;搜索引擎的基本原理。
第4章主要内容是:介绍Lucene的基本概念,对Lucene的系统结构和索引文件格式进行了深入分析。
第5章主要内容是:介绍Heritrix的基本架构。
第6章主要是系统设计。
第7章介绍了运行环境和运行方法,以及心得。
 
2 需求分析
2.1 系统的综合需求分析
需求分析简单地说就是分析用户的需求,是软件定义时期的最后一个阶段,它的基本任务是准确回答“系统必须做什么?”需求分析的任务还不是确定系统怎样完成它的工作,而仅仅是确定系统必须完成哪些工作,也就是对目标系统提出完整,准确,清晰,具体的要求。需求分析的任务是通过详细调查现实世界要处理的对象(组织、部门、企业等),充分了解原系统(手工系统或计算机系统)工作概况,明确用户的各种需求,然后在此基础上确定新系统的功能。
2.2 功能需求
搜索引擎主要完成检索的功能即用户输入搜索关键词,能检索出满足用户需求的信息。搜索引擎的工作原理可以简单概括为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。因此,要开发一个搜索引擎主要完成三个部分:爬虫部分、处理部分息搜索部分。系统的功能结构如图2-1所示。
爬虫部分:从互联网上抓取网页,利用能够从互联网上收集网页的爬虫程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
处理部分:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
搜索:在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户 [5]。
 

基于lucene的搜索引擎的研究与实现
基于lucene的搜索引擎的研究与实现
基于lucene的搜索引擎的研究与实现
基于lucene的搜索引擎的研究与实现


目    录
1 绪论    1
1.1 课题内容简介    1
1.2课题的研究背景与意义    1
1.2.1课题的研究背景    1
1.2.2课题的研究意义    2
1.3 可行性分析    2
1.3.1 技术可行性    2
1.3.2 经济可行性    3
1.3.3 法律可行性    3
1.3.4 操作可行性    3
1.4 论文各章介绍    4
2 需求分析    5
2.1 系统的综合需求分析    5
2.2 功能需求    5
2.3 用户需求    6
3 搜索引擎概述    7
3.1 搜索引擎定义    7
3.2搜索引擎的特点    7
3.3搜索引擎的分类    8
3.3.1 全文索引    8
3.3.2 目录索引    8
3.3.3 元搜索引擎    8
3.4搜索引擎的基本原理    8
4 Lucene分析与设计    11
4.1 Lucene的基本概念    11
4.2 Lucene索引的建立    12
4.2.1 Document逻辑文件    12
4.2.2 索引工具IndexWriter    12
4.2.3索引的读取工具IndexReader    12
4.2.4 关于亚洲语言的的切分词问题(Word Segment)    12
4.2.5 简化的查询分析器    13
4.2.6 添加修改删除指定记录    13
4.2.7 根据某个字段值的排序功能    13
4.2.8更通用的输入输出接口    14
5 网络爬虫Heritrix    16
6 系统设计    18
6.1网络爬虫的设计    19
6.1.1抓取    19
6.1.2 提取文本信息    20
6.2数据库设计    22
6.2.1数据库中建表    22
6.2.2在spring-bean中配置    26
6.2.3对文档进行索引    26
6.2.4 Lucene搜索    27
6.2.5查询结果的显示方式    30
6.2.6 Web通用文件配置    32
6.3 前台设计    34
6.3.1 搜索主页面    34
6.3.2 详细页面的设计    35
7 用户使用手册    38
7.1 系统功能与运行环境    38
7.1.1 系统功能简介    38
7.1.2 运行环境简介    38
7.2 系统运行和操作指南    38
结  论    39
致  谢    40
参 考 文 献    41

推荐资料