摘要
当今中国,网民人数已经超过人口总数的一半,因此网络舆情监测具有十分重要的意义。本文首先应用网络爬虫技术实现对新闻报道和对应网民评论文本数据获取。因为数据量大,所以选择Hadoop集群进行文本数据储存。其次,通过中文分词技术对文本数据按词语进行拆分,并对得到的词语进行过滤和挑选,得到关键词。新闻报道文本中获取的关键词用于新闻类型与主题的判别,网民评论中的关键字反映了网民对此新闻报道的观点和态度。最后,应用此方法,对"中美贸易战"事件进行网络舆情监测,从获得的新闻报道主题和网民评论的关键字表明,本文介绍的网络舆情监测方法具有可行性和实用性。