Blog1
Search
搜索
暗色模式
亮色模式
探索
Home
❯
Wiki
❯
Sources
文件夹: Wiki/Sources
此文件夹下有123条笔记。
2026年5月11日
Attention Is All You Need
transformer
attention
NLP
fundamentals
2026年5月11日
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoPE
position-encoding
transformer
NLP
2026年5月11日
Training Language Models to Follow Instructions with Human Feedback
InstructGPT
RLHF
alignment
instruction-following
OpenAI
2026年5月11日
LLaMA: Open and Efficient Foundation Language Models
LLaMA
open-source
scaling
efficiency
Meta
2026年5月11日
The Llama 3 Herd of Models
Llama-3
open-source
scaling
DPO
Meta
2026年5月11日
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT
pretraining
NLP
bidirectional
MLM
2026年5月11日
Training Compute-Optimal Large Language Models
Chinchilla
scaling-laws
compute-optimal
DeepMind
2026年5月11日
Language Models are Few-Shot Learners
GPT-3
few-shot
in-context-learning
scaling
OpenAI
2026年5月11日
GPT-4 Technical Report
GPT-4
multimodal
scaling
safety
OpenAI
2026年5月11日
GPT-4o System Card
GPT-4o
omni-modal
safety
multimodal
OpenAI
2026年5月07日
AHE Agentic Harness Engineering
agent
coding-agent
harness
observability
self-evolution
2026年5月07日
DeepSeek V4
llm
deepseek
moe
reasoning
long-context
attention
quantization
2026年5月07日
EmoSet 视觉情感数据集
emotion
dataset
visual-emotion
affective-computing
2026年5月07日
Emu3 原生多模态模型
multimodal
native
next-token-prediction
unified-model
emu
2026年5月07日
GLM-5 从 Vibe Coding 到 Agentic Engineering
llm
agent
coding
glm
zhipu
agentic-engineering
reinforcement-learning
moe
2026年5月07日
GPT-2
llm
pretraining
zero-shot
openai
2026年5月07日
Gen-Searcher
image-generation
agent
reinforcement-learning
search
multimodal
GRPO
2026年5月07日
Kimi Linear 高效注意力架构
attention
linear-attention
efficiency
kimi
moonshot
hybrid-architecture
delta-rule
2026年5月07日
LLM Agent 综述 2023
agent
llm
survey
autonomous-agent
2026年5月07日
LLM 可扩展水印
watermarking
llm
safety
detection
google
2026年5月07日
MiniMax-01 Lightning Attention
attention
linear-attention
efficiency
minimax
long-context
moe
2026年5月07日
Normalizing Flows 归一化流
generative-model
normalizing-flows
density-estimation
foundations
2026年5月07日
OpenAI o1 System Card
llm
openai
reasoning
rl
safety
2026年5月07日
PaperBanana
academic-illustration
agent
image-generation
scientific-figure
benchmark
2026年5月07日
Qwen 技术报告
llm
qwen
alibaba
pretraining
alignment
rlhf
code-generation
math-reasoning
2026年5月07日
Qwen-Image 技术报告
image-generation
qwen
alibaba
diffusion
multimodal
text-rendering
image-editing
2026年5月07日
Qwen2.5 技术报告
llm
qwen
alibaba
pretraining
coding
math
2026年5月07日
Qwen2.5-VL 技术报告
vlm
qwen
alibaba
multimodal
vision-language
2026年5月07日
Qwen3-VL 技术报告
vlm
qwen
alibaba
multimodal
vision-language
reasoning
long-context
moe
2026年5月07日
Qwen3-VL-Embedding and Reranker
embedding
retrieval
reranker
multimodal
qwen
alibaba
vlm
2026年5月07日
Seedance 2.0 视频生成
video-generation
diffusion
bytedance
seed
multimodal
audio-video
2026年5月07日
Thinking with Visual Primitives
visual-reasoning
image-generation
primitives
multimodal
spatial-grounding
counting
topological-reasoning
2026年5月07日
Unify-Agent
image-generation
agent
multimodal
world-grounded
unified-model
2026年5月07日
VLM2Vec-V2
embedding
multimodal
video
image
document
retrieval
2026年5月07日
生成式推荐综述
recommendation
generative
survey
data
model
tasks
2026年5月06日
Self-Evolving Agents 综述
agent
self-evolving
reinforcement-learning
survey
2026年4月30日
Aes-R1: Unlocking the Essence of Beauty — Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization
aesthetic
IAA
reasoning
RL
MLLM
2026年4月30日
AIEdiT: Affective Image Editing Shaping Emotional Factors via Text Descriptions
emotion
image-editing
affective-computing
MLLM
2026年4月30日
Agent AI: Surveying the Horizons of Multimodal Interaction
agent
multimodal
embodied-AI
survey
2026年4月30日
Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
agent
image-editing
tool-use
high-resolution
2026年4月30日
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
image-editing
dataset
unified
diffusion
task-aware
2026年4月30日
BAGEL: Emerging Properties in Unified Multimodal Pretraining
unified-multimodal
bagel
mot
emergent-properties
2026年4月30日
CLAP: Learning Audio Concepts From Natural Language Supervision
contrastive-learning
audio
multimodal
zero-shot
2026年4月30日
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
chain-of-thought
prompting
reasoning
emergent-ability
2026年4月30日
Competitive Programming with Large Reasoning Models
reasoning-model
competitive-programming
RL
o3
2026年4月30日
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet)
image-generation
control
diffusion
ControlNet
foundational
2026年4月30日
Denoising Diffusion Probabilistic Models
diffusion
generative-model
DDPM
2026年4月30日
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
DINO
DETR
目标检测
端到端
去噪训练
2026年4月30日
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
deepseek
scaling-laws
pretraining
open-source
2026年4月30日
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
DeepSeek-Coder-V2
代码生成
MoE
338语言
GPT-4级
2026年4月30日
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
deepseek
rl
reasoning
grpo
distillation
2026年4月30日
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
DeepSeek-V2
MLA
MoE
KV-cache
高效推理
2026年4月30日
DeepSeek-V3 Technical Report
deepseek
moe
mla
fp8-training
mega-model
2026年4月30日
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
deepseek
sparse-attention
rl
agent
reasoning
2026年4月30日
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing
image-editing
world-dynamics
physics
instruction-following
reasoning
2026年4月30日
EmoArt: A Multidimensional Dataset for Emotion-Aware Artistic Generation
emotion
dataset
art
diffusion
benchmark
valence-arousal
2026年4月30日
EmoEdit: Evoking Emotions through Image Manipulation
emotion
image-editing
AIM
diffusion
adapter
2026年4月30日
EmotiCrafter: Text-to-Emotional-Image Generation based on Valence-Arousal Model
emotion
image-generation
valence-arousal
continuous-emotion
diffusion
2026年4月30日
Emu3.5: Native Multimodal Models are World Learners
native-multimodal
world-model
next-token-prediction
DiDA
2026年4月30日
FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space
flow-matching
image-editing
DiT
FLUX
in-context
rectified-flow
2026年4月30日
Flow Matching for Generative Modeling
flow-matching
CNF
generative-model
optimal-transport
2026年4月30日
Generating Fearful Images: Investigating Potential Emotional Biases in Image-Generation Models
emotion
bias
AI-safety
image-generation
evaluation
2026年4月30日
GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing
image-generation
image-editing
reasoning
chain-of-thought
MLLM
diffusion
2026年4月30日
Graph of Thoughts: Solving Elaborate Problems with Large Language Models
graph-of-thoughts
reasoning
prompting
2026年4月30日
HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction
CTR-prediction
feature-interaction
sequence-modeling
unified-architecture
hybrid-transformer
2026年4月30日
ImgEdit: A Unified Image Editing Dataset and Benchmark
image-editing
dataset
benchmark
unified
2026年4月30日
InstructPix2Pix: Learning to Follow Image Editing Instructions
image-editing
instruction-following
diffusion
data-generation
foundational
2026年4月30日
InterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction
CTR-prediction
feature-interaction
sequence-modeling
heterogeneous-interaction
bidirectional
2026年4月30日
Kimi K2: Open Agentic Intelligence
MoE
Agent
Kimi
RLVR
sparsity
2026年4月30日
Kimi K2.5: Visual Agentic Intelligence
多模态
Agent
Kimi
视觉
RL
2026年4月30日
Kimi k1.5: Scaling Reinforcement Learning with LLMs
RL
推理模型
Kimi
long2short
多模态
2026年4月30日
Kimi-VL Technical Report
VLM
多模态
Kimi
MoE
MoonViT
2026年4月30日
A Survey on LLM-based Autonomous Agents
agent
LLM
survey
2026年4月30日
LoRA: Low-Rank Adaptation of Large Language Models
LoRA
微调
高效训练
LLM
2026年4月30日
Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
unified-multimodal
discrete-diffusion
llima
lumina-dmoo
2026年4月30日
Masked Autoencoders Are Scalable Vision Learners
MAE
自监督学习
ViT
何恺明
CV
2026年4月30日
MLP-Mixer: An all-MLP Architecture for Vision
mlp-mixer
vision-architecture
inductive-bias
2026年4月30日
Magic-MM-Embedding
embedding
multimodal
MLLM
token-compression
2026年4月30日
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
image-generation
agent
reasoning
knowledge-retrieval
benchmark
2026年4月30日
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention
MiniMax-M1
Lightning-Attention
test-time-compute
推理模型
CISPO
2026年4月30日
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
MoE
条件计算
稀疏门控
Google-Brain
架构
2026年4月30日
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
NSA
稀疏注意力
DeepSeek
长上下文
硬件对齐
2026年4月30日
OCRBench v2: An Improved Benchmark for Evaluating LMMs on Visual Text
benchmark
OCR
LMM
text-recognition
2026年4月30日
ObjEmbed: Towards Universal Multimodal Object Embeddings
embedding
multimodal
object-detection
region-level
2026年4月30日
OminiControl: Minimal and Universal Control for Diffusion Transformer
image-generation
DiT
control
diffusion-transformer
minimal
2026年4月30日
OmniDocBench: Benchmarking Diverse PDF Document Parsing
benchmark
document-parsing
PDF
VLM
2026年4月30日
OmniGen2: Towards Instruction-Aligned Multimodal Generation
unified-multimodal
omnigen
instruction-alignment
grpo
2026年4月30日
OneRec Technical Report
generative-recommendation
end-to-end
scaling-laws
reinforcement-learning
industrial-deployment
2026年4月30日
OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment
generative-recommendation
session-wise-generation
DPO
preference-alignment
MoE
2026年4月30日
OneRec-Think: In-Text Reasoning for Generative Recommendation
generative-recommendation
chain-of-thought
reasoning
RL-recommendation
2026年4月30日
OneRec-V2 Technical Report
generative-recommendation
decoder-only
scaling-laws
reinforcement-learning
model-architecture
2026年4月30日
OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender
CTR-prediction
ranking-model
feature-interaction
sequence-modeling
transformer
unified-architecture
2026年4月30日
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
image-generation
image-editing
dataset
GPT-4o
taxonomy
2026年4月30日
OpenOneRec Technical Report: An Open Foundation Model and Benchmark to Accelerate Generative Recommendation
generative-recommendation
foundation-model
benchmark
scaling-laws
open-source
2026年4月30日
PyTorch: An Imperative Style, High-Performance Deep Learning Library
PyTorch
深度学习框架
define-by-run
自动微分
FAIR
2026年4月30日
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition
Qwen-Image
分层编辑
RGBA
图层分解
图像编辑
一致性
2026年4月30日
Qwen3 Technical Report
Qwen
推理模型
MoE
蒸馏
thinking-budget
2026年4月30日
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
RAG
检索增强生成
知识密集
DPR
Meta
2026年4月30日
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing (RISEBench)
image-editing
reasoning
benchmark
evaluation
LMM
2026年4月30日
RzenEmbed: Towards Comprehensive Multimodal Retrieval
embedding
multimodal
video-retrieval
document-retrieval
2026年4月30日
SAIL-Embedding: Omni-modal Embedding Foundation Model
embedding
omni-modal
recommendation
industry
2026年4月30日
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
Seedream
image-generation
bilingual
DiT
flow-matching
text-rendering
2026年4月30日
Seedream 3.0 Technical Report
Seedream
image-generation
flow-matching
MMDiT
text-rendering
acceleration
2026年4月30日
Seedream 4.0: Toward Next-generation Multimodal Image Generation
Seedream
image-generation
image-editing
multimodal
DiT
flow-matching
acceleration
2026年4月30日
Show-o2: Improved Native Unified Multimodal Models
unified-multimodal
show-o
flow-matching
3d-vae
2026年4月30日
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
siglip
contrastive-learning
vision-language
multilingual
2026年4月30日
Step1X-Edit: A Practical Framework for General Image Editing
image-editing
MLLM
diffusion
benchmark
open-source
2026年4月30日
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
vision-transformer
hierarchical
shifted-window
backbone
2026年4月30日
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
MoE
Switch-Transformer
万亿参数
Google
架构
2026年4月30日
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
tree-of-thoughts
reasoning
planning
search
2026年4月30日
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation
unified-multimodal
encoder-free
pixel-space
tuna-2
2026年4月30日
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
image-editing
dataset
instruction-following
diffusion
large-scale
2026年4月30日
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
unified-multimodal
semantic-encoder
image-editing
uniworld
2026年4月30日
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities
unified-multimodal
survey
taxonomy
2026年4月30日
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
vision-transformer
image-classification
self-attention
2026年4月30日
VisionCreator: A Native Visual-Generation Agentic Model
image-generation
agent
MLLM
reinforcement-learning
Tencent
2026年4月30日
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
multimodal
comprehension
generation
benchmark
multi-turn
interleaved
2026年4月30日
WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark
image-editing
benchmark
causal-reasoning
world-knowledge
2026年4月30日
You Only Look Once: Unified, Real-Time Object Detection
YOLO
目标检测
一阶段检测
实时
CV
2026年4月30日
gpt-oss-120b & gpt-oss-20b Model Card
gpt-oss
OpenAI
开源模型
推理模型
Apache-2.0
2026年4月30日
olmOCR: Unlocking Trillions of Tokens in PDFs with VLMs
PDF
OCR
VLM
toolkit
open-source
2026年4月29日
DreamOmni2: Multimodal Instruction-based Editing and Generation
image-editing
image-generation
diffusion
multimodal
VLM
DiT
2026年4月29日
llm-wiki
meta
methodology
knowledge-management