Blog1

标签: 预训练

此标签下有5条笔记。

  • 2026年4月30日

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    • 论文
    • NLP
    • 预训练
    • 双向Transformer
    • MLM
    • 微调
  • 2026年4月30日

    Training Compute-Optimal Large Language Models

    • 论文
    • 大语言模型
    • Scaling-Law
    • 计算最优
    • 预训练
  • 2026年4月30日

    DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

    • 论文
    • LLM
    • 缩放定律
    • 开源
    • 预训练
  • 2026年4月30日

    RoFormer: Enhanced Transformer with Rotary Position Embedding

    • 论文
    • 位置编码
    • Transformer
    • 预训练
    • 深度学习
  • 2026年4月30日

    An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

    • 论文
    • 视觉Transformer
    • 图像分类
    • 自注意力
    • 预训练

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community