竞赛 | Aspect-based的情感分析任务第一名方法解读 -- 2022搜狐校园算法大赛

发布时间:2022-11-27 15:00

每天给你送来NLP技术干货!


来自:ChallengeHub

知乎:https://zhuanlan.zhihu.com/p/533808475

之前没认真打过炼丹的比赛,这次机缘巧合碰上了三个牛逼又靠谱的队友,就坚持把这次比赛打完了。刚开始的时候没想到这次能拿下第一,趁着刚答辩完就顺带把这次NLP赛道的方案开源出来,欢迎各位同学参考和讨论。

赛题分析

赛题介绍

这次的比赛由NLP和推荐两部分组成,推荐的特征工程实在是做不明白,这次主要还是做NLP的部分。

抄一下官网的NLP赛题介绍:面向实体对象的文本描述情感极性及色彩强度分析。情感极性和强度分为五种情况:极正向、正向、中立、负向、极负向。选手需要针对给定的每一个实体对象,从文本描述的角度,分析出对该实体的情感极性和强度。

NLP任务的评价指标为macro-F1,在计算准确和召回的时候,是按照分析的实体数进行计数的,而非样本数。

拿一条数据来举例子(截取部分文本):

{
  "content": "离婚之后的林庆昆本以为会有一番更大的天地,没想到离开了吴敏自己什么都不是......", 
  "entity": {"吴敏": 1, "林庆昆": -1}
}

这条数据里有一段文本和两个实体,需要预测出这两个实体在文本中的情感极性,情感标签为-2, -1, 0, 1, 2五个。

简单分析可以知道这题可以定义为Aspect-level Sentiment Classification

数据分析

在正式建模之前需要进行一些简单的数据分析来挖掘赛题的特点。在这里截取一张和队友一起做的PPT的图:

竞赛 | Aspect-based的情感分析任务第一名方法解读 -- 2022搜狐校园算法大赛_第1张图片 数据分析

我们对数据中的文本长度、实体数量和标签分布进行了简单的分析,这提示我们:

  • 有部分文本长度超过BERT的512最大长度,或许可以考虑长文本处理的常用技巧;

  • 实体的情感标签分布不平衡,最少的类只有2%左右,或许可以考虑不平衡分类问题的技巧。

  • 但实验证明上面这些考虑最后都只会成为掉分点,具体的思考在后文论述。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号