文章摘要
引用本文:薛行贵,高见文,张伯虎,黄立勤.基于MapReduce的并行LAD模型评论主题提取算法研究[J].福州大学学报(自然科学版),2016,44(5):644~648
基于MapReduce的并行LAD模型评论主题提取算法研究
Research on topic extraction algorithm based on MapReduce parallel LAD model
  
DOI:10.7631/issn.1000-2243.2016.05.0644
中文关键词: LAD模型  MapReduce  评论主题  k-均值聚类算法
英文关键词: LDA model  MapReduce  review topic
基金项目:
作者单位
薛行贵 武警工程大学研究生管理大队陕西 西安 710086 
高见文 武警工程大学研究生管理大队陕西 西安 710086 
张伯虎 武警工程大学研究生管理大队陕西 西安 710086 
黄立勤 福州大学物理与信息工程学院福建 福州 350116 
摘要点击次数: 253
全文下载次数: 260
中文摘要:
      针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法. 在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化. 通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.
英文摘要:
      Traditional latent Dirichlet analysis (LDA) model in extracting thematic reviews exist long computing time and computing efficiency is low. Aiming at this problem,proposed MapReduce framework parallel lad model building method based on,in text preprocessing based,document-topic distribution and theme-feature word distribution,topic similarity and word feature weights were calculated,with k-means clustering algorithm,achieve comment on themes were extracted from the parallel. The experimental results show that the method can achieve near linear speedup in processing large scale text,and the effect of the model is improved by Hadoop parallel computing platform.
查看全文   查看/发表评论  下载PDF阅读器
关闭