W页大部分都是使用HTML(H T M L)语言来进行编写,但HTML是半结构化的,并且页格式灵活,没有统一的标准,这使得抽取页文本信息的任务变得非常复杂。大致有种常用的方法用来提取页中相对有用的信息:服务器cdn的相关问题可以到网站了解下,我们是业内领域专业的平台,您如果有需要可以咨询,相信可以帮到您,值得您的信赖!https://www.wangsu.com/
(1)将页中所有文字都认为是有用的信息,这将造成文本中包含有大量的噪声信息;
(2)将页标题,页正文,字体加粗文字等看作是有用信息,而把其他的关信息过滤掉,这种方法能够达到较好的效果;
(3)依据一些特定的规则判断出应该要保留哪些信息,对于有固定模板的页分类而言,它们有特定的规则,这种方法在预处理中是比较好的,但是法适用于所有页。本文介绍的页预处理过程包括页文本去噪、分词、停用词移除( )和词干提取()等。