For Better Bert

TODO

Self-Attention:计算负责度限制了长文本的输入(如文本生成任务)->Longformer;BigBird

T5:Transfer Text-to-Text Transformer
将所有 NLP 任务都转化成 Text-to-Text(文本到文本)任务。模型架构:Encoder-Decoder vs Decoder;自监督训练方法:BERT-style,破坏一部分 vs GPT(从左到右预测)vs shuffle(将文本打乱然后还原);本文破坏的方式:mask(把一些token换成mask)vs替换一部分spanvs drop一部分 ERNIE(百度)
模型主要是针对BERT在中文NLP任务中表现不够好提出的改进,在训练时将短语、实体等先验知识进行mask,强迫模型对其进行建模,学习它们的语义表示。RNIE采用三种masking策略:Basic-Level Masking——跟bert一样对单字进行mask,很难学习到高层次的语义信息;Phrase-Level Masking——输入仍然是单字级别的,mask连续短语;Entity-Level Masking——首先进行实体识别,然后将识别出的实体进行mask。

multi-modal:VideoBert videoBert将视频转化为一系列“visual words”(可视化单词)。视频由一系列图片构成,一幅图片对应一帧,作者将n个连续的帧构成一个片段clip,使用cv领域的模型进行特征提取,最终抽取了特征向量,随后对所有特征向量做hierarchical vector quantization(分层矢量量化),即聚类,得到20736 各类,每个视频都有属于自己的一个类,这个类就是文本处理时的token(visual token)。

模型压缩:TinyBERT(模型蒸馏)

I do not accept rewards, but you can donate to the public welfare of China.
0%