For Better Bert

TODO

Self-Attention：计算负责度限制了长文本的输入（如文本生成任务）->Longformer；BigBird

T5：Transfer Text-to-Text Transformer
将所有 NLP 任务都转化成 Text-to-Text（文本到文本）任务。模型架构：Encoder-Decoder vs Decoder；自监督训练方法：BERT-style，破坏一部分 vs GPT（从左到右预测）vs shuffle（将文本打乱然后还原）；本文破坏的方式：mask（把一些token换成mask）vs替换一部分spanvs drop一部分 ERNIE（百度）
模型主要是针对BERT在中文NLP任务中表现不够好提出的改进，在训练时将短语、实体等先验知识进行mask，强迫模型对其进行建模，学习它们的语义表示。RNIE采用三种masking策略：Basic-Level Masking——跟bert一样对单字进行mask，很难学习到高层次的语义信息；Phrase-Level Masking——输入仍然是单字级别的，mask连续短语；Entity-Level Masking——首先进行实体识别，然后将识别出的实体进行mask。

multi-modal：VideoBert videoBert将视频转化为一系列“visual words”(可视化单词)。视频由一系列图片构成，一幅图片对应一帧，作者将n个连续的帧构成一个片段clip，使用cv领域的模型进行特征提取，最终抽取了特征向量，随后对所有特征向量做hierarchical vector quantization(分层矢量量化)，即聚类，得到20736 各类，每个视频都有属于自己的一个类，这个类就是文本处理时的token（visual token）。

模型压缩：TinyBERT(模型蒸馏)