中国学术期刊网络出版总库
  关闭
基于复合词生成的网络热点话题识别及描述算法  
   推荐 CAJ下载 PDF下载
【英文篇名】 A Compound Word Based Algorithm for Hot Event Detection and Description on the Web
【下载频次】 ★★★★★
【作者】 李霞; 王连喜; 路美秀; 刘汉锋; 刘俊延;
【英文作者】 Li Xia; Wang Lianxi; Lu Meixiu; Liu Hanfeng; Liu Junyan; Laboratory of Language Engineering and Computing; Guangdong University of Foreign Studies; School of Informatics; Guangdong University of Foreign Studies Library;
【作者单位】 广东外语外贸大学语言工程与计算重点实验室; 广东外语外贸大学信息学院; 广东外语外贸大学图书馆;
【文献出处】 图书情报工作 , Library and Information Service, 编辑部邮箱 2016年 23期  
期刊荣誉:中文核心期刊要目总览  ASPT来源刊  中国期刊方阵  CJFD收录刊
【中文关键词】 网络热点话题识别; 热词抽取; 复合词聚类;
【英文关键词】 network hot events; hot words extraction; compound word clustering;
【摘要】 [目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。
【英文摘要】 [Purpose/significance] Automatic detection of hot events on the Web( from news and microblogs) and extraction of descriptive words to describe them is important for detecting internet public opinion. [Method/process]Current methods to extract descriptive words mainly rely on association rules or combination of multiple n- grams,which often lead to noise words with imprecise meaning and potential meanig drift. In this paper,a compound word based feature extraction method is proposed and used to represent new...
【基金】 国家自然科学基金项目“面向中国英语学习者的英文作文全自动评分算法及诊断反馈技术研究”(项目编号:61402119); 广东省普通高校科技创新项目“面向网络英文文本的涉华舆情分析关键技术研究”(项目编号:2013KJCX0071)研究成果之一
【更新日期】 2017-03-29
【分类号】 TP391.1
【正文快照】 随着微博和网络新闻等新媒体的出现,实体社会中的各种突发事件会第一时间在网络媒体中呈现,面对海量网络新媒体数据,如何自动识别和挖掘网络热点话题和热点事件是当前的研究热点[1-4]。针对热点话题的自动识别,聚类方法被广泛使用,如于满泉等[5]针对事件特点使用多层聚类对话题

xxx
【读者推荐文章】中国期刊全文数据库 中国博士学位论文全文数据库 中国优秀硕士学位论文全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   计算技术、计算机技术
    计算机的应用
     信息处理(信息加工)
      文字信息处理
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号