论文信誉排行网 论文信誉排行网 设为首页
联系我们
收藏本站
 官方首页
 投稿指南
 写作指导
 职称评审
 文献检索
 期刊科普知识
 非法期刊
 学术不端
期刊分类解释 期刊刊号的解释 医学期刊分类表 核心期刊 期刊查询 (2014-2015)CSSCI来源期刊目录 2008医学核心期刊 政策法规
CSSCI CSCD SSCI 《工程索引》(EI) SCI(科学引文索引) 参考文献格式国家标准 2014中文核心期刊目录 论文信誉排行
 当前位置:首页 > 文献检索 > 浏览正文
文献阅读笔记(5)
作者: 佚名     来源: 本站原创     时间:2014年06月24

Tags:论文信誉排行网
 网页分块相关研究综述

传统的网页分块方法可以分为三类:基于模板的方法、基于视觉的方法、基于标签的方法。

基于模板的方法利用模板(Template)和一些规则(规则由Regular Expression表示)从网页中抽取内容块。模板需要事先从站点中收集一些样本网页来构造。尽管这种方法简单易用很少出错,但由于站点间的网页模板可能不一样,针对不同的站点需要构造不同的模板,因此该方法通用性很低。另外,对各个站点的模板进行维护也是一个问题Chakarabarti提出使用分类器。然而,分类器仍然事先需要很多的网页来训练。

基于模板的方法侧重于对网页DOM树间的结构相似性的测量。这种方法的一个缺陷是它不能对树节点中的内容信息进行分块,因为它只能识别节点的结构信息。它需要定性和定量的训练样本来涵盖真实世界的情况。 

基于视觉的方法利用网页中的视觉线索(Clue)作为启发式规则的方法。Chen提出一种考虑节点区域高度、长度等视觉信息,以及<HR>等分隔信息的方法。Yang提出了VIPS,通过考虑视觉信息及启发式规则来识别块。尽管这种方法有了很多成功的应用,但是仍然有维护启发式规则的问题,因为随着网页的增长HTML结构也经常在变。

这里进一步介绍下VIPS。该方法使用了一个基本术语,Degree of Coherence (DoC) 内聚度,用于测量每个块的视觉一致性(Visual Coherence)。它可以用任意实数或整数表示,其数值大小跟视觉一致性成正相关。另外,在块的层次树中父母节点的DoC不会比子节点的大。该页面分块算法分为三步:1)抽取视觉块2)检测抽取的块之间的分割线3)基于前两步检测内容结构。 

基于标签的方法预先定义包含有用信息的标签。通过测量标签之间的距离来找出内容块。Lin假设网页中广泛存在<TABLE>标签,提出了利用<TABLE>标签来抽取网页块的方法。但是,这种方法不适用那些没有<TABLE>标签的网页。为了解决这个问题,Debnath& Peng不仅考虑<TABLE>,也考虑了<TR>、 <P>、 < HR>、及< UL> 。实际上,网页中<DIV>能达到与<TABLE>相似的效果。<DIV>标签定义了HTML文档中的一个分区或节,通常被用于块元素分组。基本上目前许多网页的布局遵循这样一种相似的模式,主体内容被一个大的<DIV>或者<TD>标签包括在内。一些研究者侧重于研究<DIV>中的内容。一些网站用<TABLE>标签来给页面布局。Lin & Ho基于这种观察开发了一个infodiscoverer 系统来抽取内容块。该方法

  •  首先利用一个<TABLE>标签解析HTML文档获得一棵粗糙的树形结构,每个内部节点表示一个内容块,这个内容块由一个或多个内容字符作为叶子节点。

  • 解析完网页之后,接下来抽取每个块中的特征。这里特征是指有意义的关键字。

  • 抽取完特征之后,根据每个特征在页面集群中的权重分布计算特征熵。

  • 下一步就是计算内容块的熵了。公式如下:

            

 

 内容块的熵H(CB)是块中所有熵值的平均值。利用H(CB)来识别信息块还是冗余块。如果H(CB)比阈值高或者接近1,那么内容块就被认为是冗余块。反之如果低于阈值则认为是信息块。Yi, Liu Li提出了一种Style Tree的树结构来获取给定网站页面的相同的呈现风格(presentation style)及实际内容(actual content)。通过对站点页面进行取样,就可以构建该站点的Style Tree,也称作Site Style Tree(网页风格树)。 

综上所述,传统的网页分块方法依赖模板、视觉信息或者标签产生的启发式规则。然而在动态网络环境中,网页的结构会随着新标签的引入而发生变化,这时旧有的启发式规则就不能用于正确地分析页面。一旦网页的结构发生变化或者新的标准被启用,我们就要维护和更新规则了。

  

参考资料

[1] Jinbeom Kang,  Jaeyoung  Yang, Nonmember  and Joongmin Choi, Member,IEEE “Repetition-based Web Page Segmentation by Detecting Tag Patterns forSmall-Screen  Devices”,  IEEE Transactions  on  Consumer Electronics, Vol. 56, No. 2, May2010

[2] StevinaDias,Jayant Gadge.Identifying Informative Web Content Blocks using Web PageSegmentation[J].International Journal of Applied informationSystem(UAIS),2014,7(NO.1):37-41.



免责申明:网友评论不代表本站立场! 客服EMAIL:lunwenpaihang@126.com