核心需求
对指定的新闻文章的内容进行智能判断,提取出文章描述关键字和态度。新闻文章来源爬虫爬取的各新闻网站、微信公众号的。关键字是某单位主体的名称、简称,高校居多。如北京大学、北大,清华大学、清华。
文章的态度即是文本的情感态度,分为以下三种情况:
正面:文章对单位主体的认可赞美的。
中立:文章对单位主体进行客观真实的介绍,不包含个人立场。
负面:文章对单位主体不认可,进行批评指责甚至是恶意抹黑。
判断标准要能接近人工识别的标准,至少是让人看上去是相关的。
主要问题
在关键字提取时,像这些都是正文含有北京大学,情绪偏负面的。但是主体内容和北京大学无关的内容,是不需要的。要想办法过滤掉。这样用户一眼看过去相关度就高了。也就容易接受使用了。解决舆情系统误报问题,最终让舆情系统的检测更准确。
举例来说:
正文里面含有北京大学,但是整体文章和“北京大学”无关。造成误报。根本需求就是提高相关性,降低误报。
示例样本
根据识别是否正确,分为正样本(可以正确判断的样本)和负样本(会识别错误的样本)。
正样本
以下样本能够正确识别含有北京大学、或者北大的匹配的样本。
68747470733a2f2f64792e3136332e636f6d/article/4850333539364f423035353354484f4c2e68746d6c
68747470733a2f2f33672e3136332e636f6d/dy/article/4848344e34483636303533364c4f45302e68746d6c
68747470733a2f2f64792e3136332e636f6d/article/484e453555305443303535325556454e2e68746d6c
68747470733a2f2f7777772e636e2d6865616c7468636172652e636f6d/article/20200619/636f6e74656e742d3533383330382e68746d6c
负样本
负样本主要有三类
第一类的可能是分词造成的。比如下面的含有“北大”,但是不是我们需要的北京大学的“北大”。
68747470733a2f2f6e6577732e73696e612e636f6d2e636e/s/2022-12-19/646f632d696d787865696568333836323436342e7368746d6c
687474703a2f2f7777772e7a68757a686f7577616e672e636f6d/2020/1229/3339343835342e7368746d6c
68747470733a2f2f7777772e737a6e6577732e636f6d/news/content/2022-12/19/content_32353532353635302e68746d
第二类,含有“北京大学”,但是这个新闻和北京大学没关系。
68747470733a2f2f6e6577732e68616e677a686f752e636f6d2e636e/shxw/content/2022-12/19/content_383432393236302e68746d
687474703a2f2f7777772e6a69616f646f6e672e6e6574/news/system/2022/12/17/3031343533303936372e7368746d6c
68747470733a2f2f7777772e7a746e6577732e6e6574/article/73686f772d3339333532372e68746d6c
687474703a2f2f6e6577732e3636777a2e636f6d/system/2022/12/17/3130353532393631392e7368746d6c
68747470733a2f2f68622e6966656e672e636f6d/c/8LlaffrCHQj
第三类,含有“北京大学”,内容也匹配。但是情感分析不准确。
对于已标记的数据,我们目前的训练结果准确度能达到90%多,但是对于未标记的数据,还是会有误判的情况。希望合作方能给出更好的解决方案。
最终输出:
合作者最好有过舆情开发经验,能提供以前的项目进行对比查看。如果是全新开发需能提供初步测试的demo进行在线测试。确定可行,提供整体的解决方案,架构设计,程序源码。
途傲科技为中小企业提供网站制作、网站建设、微信H5、微信小程序,多商户平台,多级分销系统,APP开发,手机网站,HTML5多端自适应网站,营销型企业站建设,及对技术人才的培养等都积累与沉淀了丰富的心得和实战经验。
如果您想定制同款软件,可以将需求提交给我们【免费提交需求,获取解决方案】
免责声明:文章部分内容收集于互联网,不代表本站的观点和立场,如有侵权请联系删除。