论文信誉排行网 论文信誉排行网 设为首页
联系我们
收藏本站
 官方首页
 投稿指南
 写作指导
 职称评审
 文献检索
 期刊科普知识
 非法期刊
 学术不端
期刊分类解释 期刊刊号的解释 医学期刊分类表 核心期刊 期刊查询 (2014-2015)CSSCI来源期刊目录 2008医学核心期刊 政策法规
CSSCI CSCD SSCI 《工程索引》(EI) SCI(科学引文索引) 参考文献格式国家标准 2014中文核心期刊目录 论文信誉排行
 当前位置:首页 > 文献检索 > 浏览正文
文献阅读笔记(4)
作者: 佚名     来源: 本站原创     时间:2014年06月24

Tags:论文信誉排行网 代写论文 论文代写
 Identifying Informative Web Content Blocks using Web Page Segmentation

使用网页分割识别网页的信息内容块

 

解决问题

     网页由信息内容块和非信息内容块组成。信息内容块是指网页的主题内容,非信息内容块是指网页中的广告、导航、隐私声明等等。前者是搜索引擎检索的主要目标,后者则是噪声。从网页中抽取信息的过程需要去除非信息块,本文使用网页分割来识别网页的信息内容块。

 

解决思路

1.      对网页的HTML文档进行预处理,去掉一些无意义的标签,如<a>,<b>,<script>

2.      基于处理后的HTML文档构建DOM

3.      基于DOM树,取one-depth的子节点生成序列,该序列及保留了原DOM树的层次特征,又减少了计算量

4.      从序列中找出关键模式,即序列(长度为n)中重复出现至少两次的子序列(长度为),并满足1<m<=n/2

5.      利用找出的关键模式,通过引入虚拟节点对原序列进行的划分

6.      计算块中的标签数目,得出块的重要性

7.      将重要性低于预定的阈值的块认定为噪声块,并且把它去掉

8.      Precision,Recall,F Score对这种方法进行评估

 

结论

用从康奈尔大学获得的数据集进行实验,最终平均查准率为0.732456,平均召回率为0.80175439,平均F值为0.73807596.

 

免责申明:网友评论不代表本站立场! 客服EMAIL:lunwenpaihang@126.com