# Text AutoAugment: Learning Compositional Augmentation Policy for Text Classification
- 会议期刊:EMNLP 2021
- 机构:Peking University, WeChat AI
- 代码:https://github.com/lancopku/text-autoaugment
# 核心思想
提出了一种组合式、可学习的数据增强范式,探究“如何组合、调优各种不同的数据增强方法,以取得更好的增强样本”的问题。简单来说就是我们有了各种增强方法,如何构建一个最优的“投资组合”,来让最终的增强样本带来的收益最大。
而由于如何组合、什么顺序、什么程度这些都是超参数,无法用传统的基于梯度的方法来优化,因此本文使用了AutoML中常用的贝叶斯优化来进行这些超参数的调节。
# 跟传统方法的对比
传统方法,要么超参数是靠经验来设置(比如EDA、BT),要么可以学,但是是单一的增强方法(比如LDM,使用强化学习来调参)。而本文的TAA则是可学习的、组合式的增强。
# 流程图
其实看下来,你说真正多大的创新吧,也没有,上图中,把使用AutoML的SMBO算法来调参给换成grid search、random search之类的传统调参方式,那就跟传统的增强没有太大区别:先跑一组超参看看,根据验证集的效果,再调整超参数。只不过之前我们调参的时候,没有太多理论的指导,而这里则是基于贝叶斯优化等理论来进行调参,所以最终寻找到的参数组合当然更好。
所以,总体看,这篇文章是“现有算法”迁移到“新任务”上,取得了不错的效果,虽然理论上的创新不大,不过整个论文的叙述、实验都比较solid,所以是一个不错的工作。
# 实验设计
本文我觉得主要优点在于实验非常丰富。这一点是值得学习的。本文设计的实验如下:
# 主实验:
- 低资源场景:数据集都只使用少量的训练样本;
- 类别不平衡场景;
- 高资源场景(作者成为“可扩展性”):当训练集充足时的实验,这里作者直接使用在低资源场景下调参的结果来跑。
补充实验(参数分析):
- 参数策略迁移实验:将一个数据集的超参数方案,直接迁移到另一个数据集上,看看稳定性;
- 增强样本数量的实验;
- 参数策略的结构;
- 增强样本的多样性对比:使用“Dist-2”的指标,来衡量数据集的多样性;
- 语义相似度(增强样本的语义保留情况)的对比:使用Sentence-Bert来计算样本间相似度;
所以,这么多的实验,哪怕核心理论贡献并不大,但是大家可以从实验中了解到很多新知识,或者验证很多我们的猜想,这是我认为这个工作的价值所在。
# Take Away
- 超参数也是可以学习的,这正是AutoML领域研究的重点。在网上看到一个写的不错的博客:https://towardsdatascience.com/a-conceptual-explanation-of-bayesian-model-based-hyperparameter-optimization-for-machine-learning-b8172278050f
- 衡量一个语料的多样性(diversity),可以使用distinct-1、distinct-2等指标。这个指标最初在论文 A Diversity-Promoting Objective Function for Neural Conversation Models 中提出。