# 使用V-Usable Information来理解数据集难度
今天介绍一篇 ICML'22 的 outstanding paper:
Understanding dataset difficulty with V-usable information.
一作在 Twitter 上给出的简介:
已经有很多的工作在视图解释模型,但是很少有工作去解释数据集。
这篇文章就是数据集角度的一个探索,提出使用 V-Usable Information 来理解数据集难度。V 代表模型,所以大意就是“模型可以使用的信息量”来反映数据集的难度。下面我们来看看具体如何操作的。
# 背景
我们一般是如何评价数据集的难度呢?比方同样是分类任务,AGNews 和 20NewsGroup 大家肯定都很熟悉,我们使用 BERT 去训练一下,对比一下不同数据集的准确率,准确率越高的,可以认为这个任务越简单。
然而,这样对比,并不是那么靠谱,有这么几个原因:
- 不同数据集,可能类别个数不同(e.g. 一个2分类,一个10分类,accuracy不具备可比性);
- 不同数据集,可能类别平衡程度不同(e.g. 同样是accuracy=70%,但是其中一个数据集本身数据很平衡,一个很不平衡,那也无法比较)
还有其他的原因,导致我们很难在“同一标准”上对比两个模型的难度。
(当然,也有一些工作,从 training dynamics 的角度去分析样本的难度,比如前面介绍过的 EMNLP'20 的工作 Dataset Cartography,就是对训练过程中的样本的预测概率的变化,来考察样本难度的。在还有很多工作,从 loss、gradient、forgetfulness 等等角度去考察。我们把这些方法放在后面对比讨论。)
# 信息量 vs. 难度
首先思考个问题:
信息量如果不变的话,难度可以改变吗?—— 答案是:可以改变。
这个问题很有意思,也是这篇文章让我最印象深刻的一个点,作者在 introduction 部分讲了一个例子:
假设一个模型族 V,可以学习到把一个句子 X 跟某个情感 Y 对应上(就是情感分类任务),那么就意味着 X 中蕴含了关于情感 Y 的信息,这些信息被 V 利用,才能使得 V 可以正确分类。
如果我们对 X 进行一定的改变,比如“加密”,而且是唯一的一对一的那种加密,那么 X 中蕴含的关于 Y 的信息量改变了吗?——根据香农信息论,信息量实际上没有改变。
但是,对于模型 V 来说,加密后的 X——X',变得更难了,变得更加“难以利用了”,所以虽然信息量并没有改变,但是对于模型 V 来说,难度确实增加了。
举一个更加实际的例子,我们熟练掌握了中文,那么做中文阅读理解肯定也十分简单,但如果把文章都翻译成英文再让我们做,我们就不一定会做了。从中文到英文,信息量并没有变,我们没都修改、丢失任务信息,只是表达方式不一样了,但是对于我们来说任务却变难了。