所有软件外包项目 Gray arrow bg python搜索引擎

python搜索引擎

发包方 : Xxxccc 状态 :火热竞标中
项目编号 : 224356
项目预算 : 竞标出价
开发周期 : 90 天
技能 : Python
类别 : 其它 - 其他
发布日期 : 2018-01-03

描述

1.关键词
校园 搜索 爬虫 排序算法 信息检索
2.可行性分析
目前国内院校有自己搜索引擎的为清华大学和复旦大学,上海大学等,打造学校自己的搜索平台,显得十分重要. 校园搜索引擎的难点:
(1)传统搜索引擎面向的是整个互联网,对于校园教育网资
源关注和抓取的优先程度有限。
(2)传统搜索引擎对于校园教育网络资源由于网络限制根
本无法通过爬虫抓取获得。
(3)在信息检索方面,传统搜索引擎并没有根据校园内部热
门专业词汇量身订做,检索效果不是太好。
针对这些问题.需要建设针对校园教育网络的垂直搜索引擎。搜索服务器架设在校园网络中,针对校园资源选定蜘蛛种子网站。处理器以及索引器也根据教育网信息量身订做。检索器的设计考虑到教育网资源中论坛网页占有巨大的份额却会
造成检索目标的便宜,因此提出了将论坛信息分开检索的策略。
该垂直搜索平台可以在搜索输入框输入关键字,搜索定位在特定区域.这是核心功能.当然,我们除了提供校园问题搜索,在右上方搜索引擎设置一栏,可以切换至二手平台,FTP,失物招领平台.
3.需求规格说明书
信息爆炸式增长,迅速定位真正需要的信息越发困难,为了帮助用户在信息海洋中找到自己需要的信息出现了搜索引擎,最开始出现的搜索引擎为目录式搜索引擎,它通过专业知识的网页编辑人员对web网页进行筛选,建立索引目录,此系统优点是提供的网页准确率,网页内容质量高;缺点是覆盖范围小,且不容易扩展.
随后出现全文搜索引擎,以一定的策略在互联网中搜集,发现信息,对信息进行理解,提取,组织和处理,并为用户提供检索服务,从而起到信息导航的目的.此系统优点是涵盖网页数量巨大,覆盖范围广,易扩展,但准确率低,内容质量不高.page rank 排序算法显得尤为重要.
再之后出现了元搜索引擎:元搜索引擎不对Web进行遍历分析,也没有自己的数据,它将用户的查询请求同时向多个搜索引擎递交,然后合并返回的结果,在去重,重新排序处理后,返回给用户.该类搜索引擎优点是能够在短时间内提供相对全面和准确的信息,缺点是需要用户做更多的筛选.
随着我校的不断发展,学校越来越重视数字化校园的建设,并迅速步入了信息化高速发展的阶段,随着学校校园网的不断完善,需要为广大师生提供一个良好的信息化教学,科研和管理平台.目前,校园网资源正变得日益丰富,如何更全面,更准确地获取最新的,最有效的信息很有必要.
校园网可以看作以学校为单位的内联网(intranet),它与互联网(internet)是 同质的.但是由于应用环境,网站构建以及链接结构方面的不同,对搜索引擎说 ,校园网与公用互联网有着多方面的区别.对于校园网的搜索引擎而言,其目标是 关注校园网信息的所有用户,校园网搜索引擎的目的是尽可能的收集本校园网 的信息,区别与通用的搜索引擎要搜索整个互联网的目的,校园网搜索引擎需要 做到对信息收集的“小而全”。而且校园网搜索引擎应该做到易于开发,部署简 单,实现成本低。在功能需求,无论是在校的师生还是想了解校园信息的其他人 员可以通过校园网www服务器进行信息的检索,从而迅速的通过网络得到校内各 部门提供的各种信息。

4. 概要设计

1.网页搜集
通过spider的自动网页收集程序爬取一些重要的网页为种子,先收集种子网页,提取网页上的链接,再收集被链向的网页.如此不断循环,就可以收集到互联网上大量的网页.评价spider的指标包括网页收集的速度,网页质量与重复率,发现新增网页和变化网页的速度,动态网页的收集策略.
这部分是需要把你想要搜索的范围的原始数据。如果搜索的范畴是网页上的内容,那么它就是一个网络爬虫。一个爬虫从校园网主页开始下载,分析网页内的链接把符合要求的链接加入待下载队列,这样一直把所有校园网的网页全部都下载下来.

2. 页面预处理
收集到的网页上与网页主题无关的噪音信息,比如广告和垃圾网页,作弊网页,会影响到最后的查询质量.需要去除噪音信息.
3. 建立索引
对净化过的页面建立从关键词到其出现位置的索引,称为倒排索引.该阶段的关键是定义出良好的索引结构,以及保证建立索引的速度,提高搜索引擎的实时性.对网页的标题和内容索引是最常用的方法.创建索引需要高效的算法,还需注意索引词的选取,中文分词,网页净化,网页分析等技术.文本内容的预处理需要分词,去除无意义的停用词.建立索引有现成的库:LUCENE ,自带默认分词器.
4. 网页检索
根据用户查询要求,从索引库找到相关页面,根据相关度及重要性计算出一个综合得分,按得分顺序将网页返回给用户.该阶段需研究问题为查询网页相关度的计算,查询的响应时间和系统吞吐率;检索系统的可扩展性和容错性.同时,检索是搜索引擎中对硬件需求最大的部分.Lucene的api内部有一个打分机制,将打分高放在搜索结果的前面

6.详细设计

项目竞标

接包方 国家/地区
用户在智城存有保证金 通过实名认证 拥有案例
6
Jacky fang
深圳市
用户在智城存有保证金 通过实名认证 拥有案例
6
Jacky fang
深圳市
通过实名认证 公司中讯志远(武汉)科技有限公司通过公司认证
8
Zxzykj001
武汉市
通过实名认证
2
Wangyong111
南京市
通过实名认证
0
17792355119
西安市
拥有案例
0
Hxh20171020
成都市

竞标

请您先登录,然后提交此项目的竞标方案。
还不是智城用户? 智城期待您的加入,请注册成为我们的一员吧!
Project ad2