节点文献

基于文本聚类的新闻采集分析系统设计与应用

Design and Application of a News Gathering and Analysis System Based on Text Clustering

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 高兆远程珂张燕平段震

【Author】 GAO Zhao-yuan;CHENG Ke;ZHANG Yan-ping;DUAN Zhen;School of Computer Science and Technology, Anhui University;

【机构】 安徽大学计算机科学与技术学院

【摘要】 随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。

【Abstract】 With the rapid development of Internet, the news information resources on network are increasingly complicated. So itbecomes very important to collect useful data and to filter redundant data, but the popular software can not do that. A system canautomatically gather news and cluster obtained information by using technologies such as web crawler, Chinese segmentation, vec-tor space model and text clustering, which is proved to be an effective system through based on the real news data. And it can helpusers to find and filter overlapping news, extract the hot news as well as improve the efficiency to read the news.

【基金】 国家自然科学基金(项目编号:61175046);安徽大学科研训练计划(项目编号:KYXL2012057)
  • 【文献出处】 电脑知识与技术 ,Computer Knowledge and Technology , 编辑部邮箱 ,2015年11期
  • 【分类号】TP391.1
  • 【被引频次】2
  • 【下载频次】184
节点文献中: 

本文链接的文献网络图示:

本文的引文网络