transformer-让你从底层知原理

发布时间:2023-08-18 08:00

6: BERT Pre-training模型源码完整实现、测试、调试及可视化分

1,词典Vocabulary库构建多层级源码实现及测

2Dataset加载及数据处理源码完整实现及测试和调

3Next Sentence Prediction机制源码完整实现及测

4Masked Language Model机制中80%词汇Masking源码实

5Masked Language Model机制中10%词汇随机替换和10%词汇保持不变源码实

6Masked Language Model机制下的Output Label操作源码实

7,加入CLSSEP Tokens

8Segment Embeddings源码实

9Padding源码实现及测

10,使用DataLoader实现Batch

11BERT的初始化initforward方法源码实

12PositionalEmbeddings源码实现详

13TokenEmbeddings

14SegmentEmbeddings

15BERTEmbeddings层源码实现及调

16,基于Embeddings之多Linear Transformation

17QueriesKeysValues操作源

18Attention机制源码实

19Multi-head Attention源码实

20Layer Normalization数学原理及源码实

21Sublayer Connection源码实

22Position-wise Feedforward层源码实

23Dropout数学机制及源码实

24,基于Embeddings之上的Linear Transformation及其不同源码实现方

25TransformerBlock源码完整实现及测

26BERT模型训练时候多二分类和多分类别任务数学原理和实现机

26BERT Training TaskMLM源码完整实现及测

27BERT Training TaskNSP源码完整实现及测

28Negative Sampling数学原理及实现源

29MLMNSPLoss计算源码实

30BERT模型的训练源码实现及测

31,使用小文本训练BERT模型源码、测试和调

32,使用特定领域的(例如医疗、金融等)来对BERT进行Pre-training最佳实

33BERT加速训练技巧:动态调整AttentionToken能够Attending的长

34BERT可视化分

7: BERT Fine-tuning源码完整实现、调试及案例实

1,数据预处理训练集、测试集源

2,文本中的TokenMaskPadding的预处理源

3,数据的Batch处理实现源码及测

4,加载Pre-training模型的BertModelBertTokenizer

5,模型Config

6Model源码实现、测试、调

7BERT Model微调的数学原理及工程实

8BERT Model参数Frozen数学原理及工程实

9BertAdam数学原理及源码剖

10,训练train方法源码详

11fully-connected neural network层源码详解及调

12,采用Cross-Entropy Loss Function数学原理及代码实

13Evaluation 指标解析及源码实

14Classification任务下的Token设置及计算技

15,适配特定任务的Tokenization

16BERT + ESIM(Enhanced Sequential Inference Model)强化BERT

17,使用BERT + LSTM整合强化BERT

18,基于Movie数据的BERT Fine-tuning案例完整代码实现、测试及调

8: 轻量级ALBERT模型剖析及BERT变种中常见模型优化方式详

1,从数学原理和工程实践的角度阐述BERT中应该设置Hidden Layer的维度高于(甚至是高几个数量级)Word Embeddings的维度背后的原

2,从数学的角度剖析Neural Networks参数共享的内幕机制及物理意

3,从数学的角度剖析Neural Networks进行Factorization的机制及物理意

4,使用Inter-sentence coherence任务进行模型训练的的数学原理剖

5,上下文相关的Hidden Layer Embeddings

6,上下午无关或不完全相关的Word Embeddings

7ALBERT中的Factorized embedding parameterization

8ALBERT中的Cross-Layer parameter sharing机制:只共享Attention

9ALBERT中的Cross-Layer parameter sharing机制:只共享FFN

10ALBERT中的Cross-Layer parameter sharing机制:共享所有的参

11ALBERT不同LayersInputOutput相似度分

12,训练Task的复杂度:分离主题预测和连贯性预测的数学原因及工程实

13ALBERT中的不同于BERT Sentence Negative Sampling

14,句子关系预测的有效行分析及问题的底层根

15ALBERTSOP(Sentence Order Prediction)实现分析及工程实

16ALBERT采用比BERT更长的注意力长度进行实际的训

17N-gram Masking LM数学原理和ALERT对其实现分

18,采用Quantization优化技术的Q8BERT模型架构解

19,采用Truncation优化技术的“Are Sixteen Heads Really Better than One?”模型架构解

20,采用Knowledge Distillation优化技术的distillBERT模型架构解

21,采用多层Loss计算+知识蒸馏技术的TinyBERT模型架构解

22,由轻量级BERT带来的关于Transformer网络架构及实现的7点启

9: ALBERT Pre-training模型及Fine-tuning源码完整实现、案例及调

1Corpus数据分

2Pre-training参数设置分

3BasicTokenizer源码实

4WordpieceTokenizer源码实

5ALBERTTokenization完整实现源

6,加入特殊Tokens CLSSEP

7,采用N-gramMasking机制源码完整实现及测

8Padding操作源

9Sentence-Pair数据预处理源码实

10,动态Token Length实现源

11SOP正负样本源码实

12,采用了FactorizationEmbeddings源码实

13,共享参数Attention源码实

14,共享参数Multi-head Attention源码实

15LayerNorm源码实

16,共享参数Position-wise FFN源码实

17,采用GELU作为激活函数分

18Transformer源码完整实

19OutputClassificationN-gram Masking机制的Loss计算源

20,使用Adam进行优化源码实

21,训练器Trainer完整源码实现及调

22Fine-tuning参数设置、模型加

23,基于IMDB影视数据的预处理源

24Fine-tuning阶段Input Embeddings实现源

25ALBERT Sequence Classification参数结构总

26Fine-tuning 训练代码完整实现及调

27Evaluation代码实

28,对Movie数据的分类测试及调


 

第10: 明星级轻量级高效Transformer模型ELECTRA: 采用Generator-DiscriminatorText Encoders解析及ELECTRA模型源码完整实

1GANGenerative ModelDiscriminative Model架构解

2,为什么说ELECTRANLP领域轻量级训练模型明星级别的Model

3,使用replaced token detection机制规避BERT中的MLM的众多问题解

4,以Generator-Discriminator实现的ELECTRA预训练架构解

5ELECTRTAGAN的在数据处理、梯度传播等五大区

6ELECTRA数据训练全生命周期数据

7,以Discriminator实现Fine-tuning架构解

8ELECTRAGenerator数学机制及内部实现详

9GeneratorLoss数学机制及实现详

10DiscriminatorLoss数学机制及实现详

11GeneratorDiscriminator共享Embeddings数据原理解

12Discriminator网络要大于Generator网络数学原理及工程架

13Two-Stage TrainingGAN-style Training实验及效果比

14ELECTRA数据预处理源码实现及测

15Tokenization源码完整实现及测

16Embeddings源码实

17Attention源码实

18,借助Bert Model实现Transformer通用部分源码完整实

19ELECTRA Generator源码实

20ELECTRA Discriminator源码实

21GeneratorDiscriminator相结合源码实现及测

22pre-training训练过程源码完整实现

23pre-training数据全流程调试分析

24,聚集于DiscriminatorELECTRAfine-tuning源码完整实

25fine-tuning数据流调试解

26ELECTRA引发Streaming ComputationsTransformer中的应用思

第11: 挑战BERT地位的Autoregressive语言模型XLNet剖析及源码完整实

1,作为Autoregressive语言模型的XLNet何以能够在发布时在20个语言任务上都能够正面挑战作为Autoencoding与训练领域霸主地位的BERT

2XLNet背后Permutation LMTwo-stream self-attention数学原理解

3Autoregressive LMAutoencoding LM数学原理及架构对

4Denoising autoencoding机制的数学原理及架构设

5,对Permutation进行Sampling来高性价比的提供双向信息数学原

6XLNetPermutation实现架构和运行流程:content streamquery stream

7XLNet中的缓存Memory记录前面Segment的信

8XLNetcontent stream attention

9XLNetquery stream attention

10,使用Mask Matrices来实现Two-stream Self-attention

11,借助Transformer-XL 来编码relative positional

12XLNet源码实现之数据分析及预处

13XLNet源码实现之参数设

14Embeddings源码实

15,使用Mask实现causal attention

16Relative shift数学原理剖析及源码实

17XLNet Relative attention源码完整实

18content stream源码完整实

19queery stream源码完整实

20Masked Two-stream attention源码完整实

21,处理长文件的Fixed Segment with No GradNew Segment

22,使用einsum进行矩阵操

23XLNetLayer源码实

24Cached Memory

25Head masking

26Relative-position encoding源码实

27Permutation实现完整源

28XLNet FFN源码完整实

29XLNet源码实现之Loss操作详

30XLNet源码实现之training过程详

31,从特定的checkpointXLNet进行re-training

32Fine-tuning源码完整实

33Training Evaluation

34,使用XLNet进行Movies情感分类案例源码、测试及调

12章:NLP比赛的明星模型RoBERTa架构剖析及完整源码实

1,为什么说BERT模型本身的训练是不充分甚至是不科学的

2RoBERTa去掉NSP任务的数学原理分

3,抛弃了token_type_idsRoBERTa

4,更大的mini-batches在面对海量的数据训练时是有效的数学原理解

5,为何更大的Learning rates在大规模数据上会更有效

6,由RoBERTahyperparameters调优的数学依

7RoBERTa下的byte-level BPE数学原理及工程实

6RobertaTokenizer源码完整实现详

7RoBERTaEmbeddings源码完整实

8RoBERTaAttention源码完整实

9RoBERTaSelf-Attention源码完整实

10RoBERTaIntermediate源码完整实

11RobertLayer源码完整实

12RobertEncoder源码完整实

13RoBERTaPooling机制源码完整实

14RoBERTaOutput层源码完整实

15RoBERTa Pre-trained model源码完整实

16RobertaModel源码完整实现详

17,实现Causal LM完整源码讲

18RoBERTa中实现Masked LM完整源码详

19RobertLMHead源码完整实

20RoBERTa实现Sequence Classification完整源码详

21RoBERTa实现Token Classification完整源码详

22RoBERTa实现Multiple Choice完整源码详

23RoBERTa实现Question Answering完整源码详

13章:DistilBERTsmaller, faster, cheaper and lighter的轻量级BERT架构剖析及完整源码实

1,基于pretraining阶段的Knowledge distillation

2Distillation loss数学原理详

3,综合使用MLM lossdistillation losscosine embedding loss

4BERT Student architecture解析及工程实

5,抛弃了BERTtoken_type_idsDistilBERT

6Embeddings源码完整实

7Multi-head Self Attention源码完整实

8Feedforward Networks源码完整实

9TransformerBlock源码完整实

10Transformer源码完整实

11,继承PreTrainedModelDistilBertPreTrainedModel源码完整实

13DistilBERT Model源码完整实

14DistilBertForMaskedLM源码完整实

15DistilBertSequence Classification源码完整实

第14: Transformers动手案例系

1,动手案例之使用Transformers实现情感分析案例代码、测试及调

2,动手案例之使用Transformers实现NER代码、测试及调

3,动手案例之使用Transformers实现闲聊系统代码、测试及调

4,动手案例之使用Transformers实现Summarization代码、测试及调

5,动手案例之使用Transformers实现Answer Span Extraction代码、测试及调

6,动手案例之使用Transformers实现Toxic Language Detection Multi-label Classification代码、测试及调

7,动手案例之使用Transformers实现Zero-shot learning代码、测试及调

8,动手案例之使用Transformers实现Text Clustering代码、测试及调

9,动手案例之使用Transformers实现semantics search代码、测试及调

10,动手案例之使用Transformers实现IMDB分析代码、测试及调

11,动手案例之使用Transformers实现cross-lingual text similarity代码、测试及调

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号