Blog1
Search
搜索
暗色模式
亮色模式
探索
Home
❯
AI阅读笔记
文件夹: AI阅读笔记
此文件夹下有69条笔记。
2026年4月30日
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文
NLP
预训练
双向Transformer
MLM
微调
2026年4月30日
CLAP: Learning Audio Concepts From Natural Language Supervision
论文
音频理解
对比学习
多模态
zero-shot
2026年4月30日
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
论文
推理
Prompt-Engineering
思维链
LLM
2026年4月30日
Training Compute-Optimal Large Language Models
论文
大语言模型
Scaling-Law
计算最优
预训练
2026年4月30日
Competitive Programming with Large Reasoning Models
论文
推理
竞赛编程
o1
o3
CodeForces
IOI
RL
2026年4月30日
Denoising Diffusion Probabilistic Models
论文
扩散模型
图像生成
生成模型
score-matching
2026年4月30日
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
论文
目标检测
DETR
Transformer
端到端检测器
对比去噪训练
2026年4月30日
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
论文
LLM
缩放定律
开源
预训练
2026年4月30日
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
论文
代码模型
MoE
开源
Code-Intelligence
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
论文
推理
强化学习
RL
GRPO
蒸馏
DeepSeek
LLM
2026年4月30日
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
论文
LLM
MoE
MLA
高效推理
KV-Cache
2026年4月30日
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
论文
LLM
稀疏注意力
RL-Scaling
Agent
推理
2026年4月30日
DeepSeek-V3 Technical Report
论文
LLM
MoE
FP8训练
MTP
负载均衡
2026年4月30日
Emu3.5: Native Multimodal Models are World Learners
论文
多模态
原生多模态
世界模型
自回归
扩散模型
GRPO
图像生成
Tokens
2026年4月30日
FLUX.1 Kontext: Flow Matching Rectified Transformer for Unified Image Generation and Editing
论文
图像生成
图像编辑
流匹配
Rectified-Flow
统一模型
DiT
2026年4月30日
Flow Matching for Generative Modeling
论文
流匹配
连续归一化流
生成模型
扩散模型替代
2026年4月30日
Language Models are Few-Shot Learners
论文
NLP
大语言模型
少样本学习
In-context-Learning
Scaling-Law
2026年4月30日
GPT-4 Technical Report
论文
大语言模型
多模态
GPT-4
RLHF
Safety
2026年4月30日
GPT-4o System Card
论文
多模态
安全
GPT-4o
System-Card
2026年4月30日
Graph of Thoughts: Solving Elaborate Problems with Large Language Models
论文
推理
图推理
LLM
Prompt-Engineering
2026年4月30日
HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction
论文
CTR预估
序列建模
特征交互
Hybrid-Transformer
工业部署
抖音搜索
2026年4月30日
Training language models to follow instructions with human feedback
论文
NLP
对齐
RLHF
指令微调
PPO
2026年4月30日
InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction
论文
CTR预估
特征交互
序列建模
Transformer
Meta-Ads
工业部署
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
论文
多模态
Agent
RL
Agent-Swarm
并行Agent
视觉推理
MoE
2026年4月30日
Kimi K2: Open Agentic Intelligence
论文
LLM
MoE
Agent
MuonClip
RL
工具使用
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
论文
推理
RL
长上下文
多模态
训练基础设施
Long2Short
2026年4月30日
Kimi-VL Technical Report
论文
多模态
VLM
MoE
OCR
Agent
长上下文
MoonViT
2026年4月30日
LLaMA: Open and Efficient Foundation Language Models
论文
大语言模型
开源
高效训练
Scaling-Law
2026年4月30日
The Llama 3 Herd of Models
论文
大语言模型
开源
多语言
Tool-Use
Llama
2026年4月30日
LoRA: Low-Rank Adaptation of Large Language Models
论文
NLP
参数高效微调
低秩分解
微调
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
论文
多模态
统一模型
离散扩散
DiMOO
GRPO
图像生成
Params
2026年4月30日
Masked Autoencoders Are Scalable Vision Learners
论文
自监督学习
视觉预训练
掩码自编码器
ViT
2026年4月30日
MLP-Mixer: An all-MLP Architecture for Vision
论文
MLP
视觉架构
图像分类
无需卷积
无需注意力
2026年4月30日
Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
论文
多模态
嵌入模型
检索
MLLM
视觉token压缩
2026年4月30日
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
论文
LLM
推理模型
Lightning-Attention
混合注意力
CISPO
RL-Scaling
MoE
2026年4月30日
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
论文
MoE
稀疏模型
条件计算
语言模型
机器翻译
2026年4月30日
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
论文
稀疏注意力
长上下文
高效推理
DeepSeek
FlashAttention
KV-Cache
2026年4月30日
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning
论文
OCR
Benchmark
多模态
LMM
文字识别
文本定位
推理
2026年4月30日
ObjEmbed: Towards Universal Multimodal Object Embeddings
论文
多模态
目标检测
嵌入
对比学习
开放词汇
2026年4月30日
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
论文
文档解析
Benchmark
OCR
PDF
多模态
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
论文
多模态
图像生成
图像编辑
In-Context生成
GRPO
指令对齐
Omni-RoPE
2026年4月30日
OneRec Technical Report
论文
生成推荐
MoE
RL
工业部署
Factorization-Machine
GRPO
2026年4月30日
OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment
论文
生成推荐
偏好对齐
DPO
召回
排序
2026年4月30日
OneRec-Think: In-Text Reasoning for Generative Recommendation
论文
生成推荐
推理增强
CoT
GRPO
LLM
2026年4月30日
OneRec-V2 Technical Report
论文
生成推荐
MoE
Scaling-Law
Lazy-Decoder
GRPO
工业部署
2026年4月30日
OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
论文
CTR预估
Transformer
序列建模
特征交互
工业部署
Scaling-Law
2026年4月30日
OpenOneRec: An Open Foundation Model and Benchmark to Accelerate Generative Recommendation
论文
生成推荐
开源模型
Scaling-Law
Benchmark
LLM推荐
跨域迁移
2026年4月30日
PyTorch: An Imperative Style, High-Performance Deep Learning Library
论文
深度学习框架
Python
Autograd
兼容式执行
2026年4月30日
Qwen3 Technical Report
论文
LLM
MoE
推理
多语言
开源
蒸馏
2026年4月30日
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
论文
NLP
检索增强
QA
知识密集型
2026年4月30日
RoFormer: Enhanced Transformer with Rotary Position Embedding
论文
位置编码
Transformer
预训练
深度学习
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
论文
多模态
检索
嵌入
对比学习
MLLM
2026年4月30日
SAIL-Embedding: Omni-modal Embedding Foundation Model
论文
多模态
嵌入模型
推荐系统
抖音
工业部署
音频
2026年4月30日
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
论文
图像生成
双语生成
中英文
DiT
LLM文本编码器
RLHF
2026年4月30日
Seedream 3.0 Technical Report
论文
图像生成
双语生成
DiT
REPA
流匹配
VLM奖励模型
2026年4月30日
Seedream 4.0: Toward Next-generation Multimodal Image Generation
论文
图像生成
图像编辑
多模态
多图生成
高效DiT
VAE
2026年4月30日
Show-o2: Improved Native Unified Multimodal Models
论文
多模态
统一模型
自回归
Flow-Matching
视频生成
原生多模态
Params
Data
2026年4月30日
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
论文
多模态
视觉编码器
对比学习
多语言
密集预测
2026年4月30日
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文
视觉Transformer
分层架构
Shifted-Window
目标检测
语义分割
2026年4月30日
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
论文
MoE
稀疏模型
语言模型
模型并行
蒸馏
2026年4月30日
Attention Is All You Need
论文
深度学习
NLP
注意力机制
机器翻译
基础架构
2026年4月30日
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
论文
推理
搜索
LLM
树搜索
CoT扩展
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
论文
多模态
统一模型
Encoder-Free
Flow-Matching
像素空间
MAE
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
论文
多模态
统一模型
语义编码器
SigLIP
图像编辑
Flow-Matching
2026年4月30日
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
论文
视觉Transformer
图像分类
自注意力
预训练
2026年4月30日
You Only Look Once: Unified, Real-Time Object Detection
论文
目标检测
单阶段检测器
实时检测
2026年4月30日
gpt-oss-120b & gpt-oss-20b Model Card
论文
推理模型
MoE
开源
MXFP4
安全对齐
Agent
2026年4月30日
olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
论文
OCR
文档解析
VLM
PDF
开源
语言模型训练数据
2026年4月30日
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
论文
多模态
统一模型
综述
扩散模型
自回归模型
离散扩散
Tokenization