竞赛 | Aspect-based的情感分析任务第一名方法解读 -- 2022搜狐校园算法大赛

发布时间：2022-11-27 15:00

每天给你送来NLP技术干货！

来自：ChallengeHub

知乎：https://zhuanlan.zhihu.com/p/533808475

之前没认真打过炼丹的比赛，这次机缘巧合碰上了三个牛逼又靠谱的队友，就坚持把这次比赛打完了。刚开始的时候没想到这次能拿下第一，趁着刚答辩完就顺带把这次NLP赛道的方案开源出来，欢迎各位同学参考和讨论。

赛题分析

这次的比赛由NLP和推荐两部分组成，推荐的特征工程实在是做不明白，这次主要还是做NLP的部分。

抄一下官网的NLP赛题介绍：面向实体对象的文本描述情感极性及色彩强度分析。情感极性和强度分为五种情况：极正向、正向、中立、负向、极负向。选手需要针对给定的每一个实体对象，从文本描述的角度，分析出对该实体的情感极性和强度。

NLP任务的评价指标为macro-F1，在计算准确和召回的时候，是按照分析的实体数进行计数的，而非样本数。

拿一条数据来举例子（截取部分文本）：

{
  "content": "离婚之后的林庆昆本以为会有一番更大的天地，没想到离开了吴敏自己什么都不是......", 
  "entity": {"吴敏": 1, "林庆昆": -1}
}

这条数据里有一段文本和两个实体，需要预测出这两个实体在文本中的情感极性，情感标签为-2, -1, 0, 1, 2五个。

简单分析可以知道这题可以定义为Aspect-level Sentiment Classification。

在正式建模之前需要进行一些简单的数据分析来挖掘赛题的特点。在这里截取一张和队友一起做的PPT的图：

数据分析

我们对数据中的文本长度、实体数量和标签分布进行了简单的分析，这提示我们：