发布时间:2022-11-27 15:00
每天给你送来NLP技术干货!
来自:ChallengeHub
知乎:https://zhuanlan.zhihu.com/p/533808475
之前没认真打过炼丹的比赛,这次机缘巧合碰上了三个牛逼又靠谱的队友,就坚持把这次比赛打完了。刚开始的时候没想到这次能拿下第一,趁着刚答辩完就顺带把这次NLP赛道的方案开源出来,欢迎各位同学参考和讨论。
这次的比赛由NLP和推荐两部分组成,推荐的特征工程实在是做不明白,这次主要还是做NLP的部分。
抄一下官网的NLP赛题介绍:面向实体对象的文本描述情感极性及色彩强度分析。情感极性和强度分为五种情况:极正向、正向、中立、负向、极负向。选手需要针对给定的每一个实体对象,从文本描述的角度,分析出对该实体的情感极性和强度。
NLP任务的评价指标为macro-F1,在计算准确和召回的时候,是按照分析的实体数进行计数的,而非样本数。
拿一条数据来举例子(截取部分文本):
{
"content": "离婚之后的林庆昆本以为会有一番更大的天地,没想到离开了吴敏自己什么都不是......",
"entity": {"吴敏": 1, "林庆昆": -1}
}
这条数据里有一段文本和两个实体,需要预测出这两个实体在文本中的情感极性,情感标签为-2, -1, 0, 1, 2五个。
简单分析可以知道这题可以定义为Aspect-level Sentiment Classification。
在正式建模之前需要进行一些简单的数据分析来挖掘赛题的特点。在这里截取一张和队友一起做的PPT的图:
数据分析我们对数据中的文本长度、实体数量和标签分布进行了简单的分析,这提示我们:
有部分文本长度超过BERT的512最大长度,或许可以考虑长文本处理的常用技巧;
实体的情感标签分布不平衡,最少的类只有2%左右,或许可以考虑不平衡分类问题的技巧。
但实验证明上面这些考虑最后都只会成为掉分点,具体的思考在后文论述。
线材下料优化python算法_贝叶斯优化(Bayesian Optimization)只需要看这一篇就够了,算法到python实现...
从零开始实现lmax-Disruptor队列(五)Disruptor DSL风格API原理解析
python读取并可视化npy格式的深度图文件以及将其保存为jpg图片的方法
PostgreSQL 超越 MySQL,成功夺得最受欢迎数据库榜首
【Python GUI】Tkinter之制作路径选择框实现路径选择效果(tkinter之filedialog)。
Windows CE初探 --(转载焦点安全文章:http://www.xfocus.net/articles/200411/747.html)