随着中国互联网的快速发展,越来越多的人将互联网作为获取信息的首选渠道,舆情监测已成为政府、企业的重要工作内容。
舆情监控可以整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求。
除此之外,还能形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
通常情况下各舆情监测系统工作流程都是差不多的,大致流程如下:
信息采集首先要做的是抓取全网的数据,比如新闻信息源、社会媒体信息源、新媒体等,通过采集海量信息,能够更加全面地掌握舆情动态的全貌。
分析筛选其次对抓取的数据精确筛选,通过舆情系统设计的智能网络爬虫系统,可以实现高质量的抓取,支持对各媒体平台信息的实时抓取和垃圾过滤。基于机器学习的垃圾过滤机制,可以过滤广告、水贴等无效垃圾智能去重。然后根据文档内容的匹配程度确定是否重复、去重的级别等,一般根据不同的需求特点分为:URL去重、标题去重、正文去重三个级别。
定向输出最后要多维度、可视化的对数据进行分析,为满足大数据量处理的需求,大多数舆情监测系统会采用分布式架构,可线性扩展子节点数量,提高系统的数据负载能力,充分并合理地利用分析服务资源,提高整个系统的工作效率,一般舆论维度分析项有:关注度、影响力、正负面信息、媒体分布量等,面对负面舆情还会提前预警,分析研判,报告生成等服务,给决策者提供参考依据,让政企单位提早规避舆情危机。
,