一种多线程语义聚焦的爬虫
A Multi-Threaded Semantic Focused Crawler
-
摘要: Web上已有大量内容,这些内容还在不断增加,这导致了信息过载问题.基于关键字匹配技术的搜索引擎产生大量无关的搜索结果,使这一问题更加严重.搜索结果本该给出语义匹配的资源.考虑到内容的巨量和语义知识的重要性,我们设计并实现了一种多线程语义聚焦的爬虫SFC,用来抓取WWW上与教育相关的内容.SFC使用领域本体扩展主题语词,并利用一组种子链接启动抓取过程.论文给出了对不同主题多次迭代抓取后的结果,并对比了它和运行了某种开源爬虫后所产生的结果.
下载: