听达观杯现场答辩有感

前几日(周日)去了达观杯答辩现场听了前10名做了报告,有了一些感想,但一直没有抽出时间写一下自己的感想(懒)。

自己大概花了十来天做了一下比赛,实际上也就是一个文本分类的比赛,因为没有比赛经验的缘故,走了很多弯路。不过也学到了一些东西。

现记录前十名的一些idea/trick:

  • 数据增强
    • 因为给的句子长度很长,因此在做截断的时候后面的就没法训练到了,可以将文本倒序作为新的数据训练模型。可以充分利用到数据
    • 将数据打乱、随机删除,实际上就是对一个句子的词进行sample再组合
    • 打乱词序以增加数据量
    • 使用pseudo labeling,但有的队伍使用这个做出效果了,但有的没有
  • 特征工程
    • 假设开头中间结尾的信息对分类有帮助,因此截取该部分信息做训练
    • 改进baseline的tfidf的特征工程方法,使用基于熵的词权重计算
    • 降维,留下最重要的特征。先用卡方分布降到20万,再用SVD降到8000
    • 将word2vec和GloVe拼接起来作为deep learning模型的输入
    • 将文章分段,每段取前20后20拼起来
  • 模型融合
    所有队伍都无一例外使用了模型融合,stacking或者简单的投票
    • DL+ML —> lgbm model —> voting
    • 深度模型+传统模型,在深度模型最后一层加入传统模型的信息/feature
    • 后向选择剔除冗余模型
  • DL&其他
    • HAN,选择10个attention vector
    • 对易错类增加权重,通过改变损失函数来增加权重
    • CNN, [1,2,3,4,5,6]*600
    • 提出新的模型(第一名)

其实除了一些trick,我还是有些失望的,因为都是用模型融合堆出来的,这也让我对比赛失去了一些兴趣。虽然能理解现在的比赛都是这样的,但感觉实在太暴力了。
当然,其中还是有一些亮点的,有一支队伍立意很高,从理解业务的角度出发而不是堆模型,也取得了很好的效果;还有一个使用了最新论文中的特征工程改进方法,令我耳目一新;以及第一名在比赛过程中提出来三个新的模型。

Anyway,我目前还是太菜了,还是安心搞科研吧。_(:з」∠)