主办单位: 共青团中央   中国科协   教育部   中国社会科学院   全国学联  

承办单位: 贵州大学     

基本信息

项目名称:
基于更新信息的网页机器理解及在站内搜索中应用
小类:
信息技术
简介:
利用站内网页树中主网页或上层网页及超链接相对稳定和可跟踪性,把爬虫定期上网抓取的相邻时间间隔的网页进行对比分析,可以区分出以下几类超链接:永不改变的、新增的、位置变化的和消失的,它们对应不同的信息:不变化的链接其标题具有部门、类型信息;新增的、位置变化的和消失的链接往往是新闻、通告等变化内容,这些链接对应的网页一般是文档网页,需要采用一般网页分析方法。结果说明这种方法对网页分析是有效的。
详细介绍:
21世纪搜索引擎正在改变着我们的生活,百度、谷歌等大型搜索已经被大家所熟知,这些搜索引擎是为人们提供宽泛的搜索服务。一般高校和大型企业机构都有一定规模的网站,这些网站中存在着大量信息,对于高校和企业内部人员来说,使用基于本网站的搜索引擎无疑是最佳的选择。但是我们了解到现今绝大部分网站或者没有搜索功能、或者有搜索功能但这种搜索功能只是人工实现的目录索引,自动化不高、搜索功能...(查看更多)

作品图片

  • 基于更新信息的网页机器理解及在站内搜索中应用
  • 基于更新信息的网页机器理解及在站内搜索中应用
  • 基于更新信息的网页机器理解及在站内搜索中应用
  • 基于更新信息的网页机器理解及在站内搜索中应用
  • 基于更新信息的网页机器理解及在站内搜索中应用

作品专业信息

设计、发明的目的和基本思路、创新点、技术关键和主要技术指标

针对中小型规模网站的站内搜索需求,本设计基于站内网页及其连接相对固定、易于跟踪分析的特点提出了基于更新信息的网页分析方法,据此开发了一个站内搜索引擎。 利用站内网页树中主网页或上层网页及超链接相对稳定和可跟踪性,把爬虫定期上网抓取的相邻时间间隔的网页进行对比分析,可以区分出以下几类超链接:永不改变的、新增的、位置变化的和消失的,它们对应不同的信息:不变化的链接其标...(查看更多)

科学性、先进性

有关搜索引擎的研究很热、但真正应用到实际中的很少。究其原因一是Web 中信息的量巨大、异质性和缺乏结构性使得自动地从中获取有价值的信息和数据变得十分具有挑战性。网页的机器理解与主要信息提取是一个难以彻底解决的问题,因为网页中可能包含文本、图像、声音等多媒体信息,文本的理解涉及到自然语言理解、图像的理解涉及图像识别、声音的理解涉及声音识别等,这些领域目前还在研究之中。 ...(查看更多)

获奖情况及鉴定结果

校2011年挑战杯特等奖 第四届“挑战杯”合锻集团省大学生课外学术科技作品竞赛特等奖

作品所处阶段

实验室阶段

技术转让方式

可以考虑技术转让

作品可展示的形式

实物、产品、图片、现场演示

使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测

使用说明:见“使用说明书”。 作品的技术特点和优势:本作品技术的特点主要是在网页的机器理解与主要信息提取方面与其他站内搜索引擎不同。在网页分析及信息提取方面,我们考虑到站内搜索的自身特点,除了利用网页本身的信息外,还加入了同一网页的更新信息。根据更新性将超链接分为四类,然后对这四类超链接分别处理,从而降低了网页分析的难度。在此基础上设计出信息提取算法,该算法将网页...(查看更多)

同类课题研究水平概述

我们查询了“中国学术期刊全文”,在核心期刊中,找寻到搜索引擎相关的文献24篇。对这些文献的归纳总结如下: 叶允明等人主要综述了当时web搜索引擎技术的发展和分类情况, 王继成等人从web检索角度划分为三个层次:搜索引擎与目录、元搜索引擎、信息检索agent,其中元搜索引擎研究多搜索引擎集成,信息检索agent研究满足用户需求方面具有可适应性、主动性、协作性。 ...(查看更多)
建议反馈 返回顶部
Baidu
map
Loading...