首页
大模型
人工智能

首页
大模型
人工智能

- 登录
- 注册
登录
注册

大模型算法实战训练营

第30任务：【LLaMA】16 混合专家模型 (4) MOE的专家权重损失函数

查看课程

任务列表

第1任务：【LLaMA】1 LLaMA中的Decoder架构详解
第2任务：【LLaMA】2 LLaMA中的Embedding层
第3任务：【LLaMA】3 RMSNorm均方根层归一化
第4任务：【LLaMA】4 旋转位置编码ROPE(1)
第5任务：【LLaMA】4 旋转位置编码ROPE(2)
第6任务：【LLaMA】4 旋转位置编码ROPE(3)
第7任务：【LLaMA】4.5 旋转位置编码的Q&A
第8任务：【LLaMA】5 KV缓存的原理与初步实现
第9任务：【LLaMA】5.5 时间复杂度、机器翻译等Q&A
第10任务：【LLaMA】6 注意力的代码实现(1-1) 注意力计算流程
第11任务：【LLaMA】6 注意力的代码实现(1-2) 注意力计算流程
第12任务：【LLaMA】7 注意力的代码实现(2-1) Flash Attention与掩码
第13任务：【LLaMA】7 注意力的代码实现(2-2) Flash Attention与掩码
第14任务：【LLaMA】7.5 有关掩码和算力的Q&A
第15任务：【LLaMA】8 注意力的代码实现(3-1) KV缓存下QKV矩阵的生成
第16任务：【LLaMA】8 注意力的代码实现(3-2) KV缓存下QKV矩阵的生成
第17任务：【LLaMA】9 注意力的代码实现(4) KV缓存下的编码与注意力输出(4-1)
第18任务：【LLaMA】9 注意力的代码实现(4) KV缓存下的编码与注意力输出(4-2)
第19任务： LLaMA】9 注意力的代码实现(4) KV缓存下的编码与注意力输出(4-3)
第20任务：【LLaMA】10 大语言模型评估方法 + KV缓存效果验证
第21任务：【LLaMA】10.5 Q&A+科研指导+大模型发论文方向指南(1)
第22任务：【LLaMA】10.5 Q&A+科研指导+大模型发论文方向指南(2)
第23任务：【LLaMA】11 门控前馈网络 (1) GLU与Silu激活函数(1-1)
第24任务：【LLaMA】11 门控前馈网络 (1) GLU与Silu激活函数(1-2)
第25任务：【LLaMA】12 门控前馈网络 (2) FFN层的代码实现
第26任务：【LLaMA】13 混合专家模型 (1-1) MOE模型的架构与训练流程
第27任务：【LLaMA】13 混合专家模型 (1-2) MOE模型的架构与训练流程
第28任务：【LLaMA】14 混合专家模型 (2) 瓶颈问题与辅助损失
第29任务：【LLaMA】15 混合专家模型 (3) 常见的辅助损失函数
第30任务：【LLaMA】16 混合专家模型 (4) MOE的专家权重损失函数
第31任务：【LLaMA】17 混合专家模型 (5) 代码实现MOE的门控机制
第32任务：【LLaMA】18 混合专家模型 (6) 代码实现MOE的控机制数据流(1-1)
第33任务：【LLaMA】18 混合专家模型 (6) 代码实现MOE的控机制数据流(1-2)
第34任务：【LLaMA】19 混合专家模型 (7) MOE联用FFN层与LLaMA
第35任务：【LlaMA】20 混合专家模型的Q&A + 面试题 + 学习方法分享
第36任务：【LlaMA】21 LLaMA架构复现 (1) 大模型架构适配deepspeed与hf
第37任务：【LlaMA】22 LLaMA架构复现 (2-1) TransformerBlock与打包器
第38任务：【LlaMA】22 LLaMA架构复现 (2-2) TransformerBlock与打包器
第39任务：【LlaMA】23 LlaMA架构复现 (3-1) 自回归推理函数与网络配置
第40任务：【LlaMA】23 LlaMA架构复现 (3-2) 自回归推理函数与网络配置
第41任务： LLaMA原理精讲与架构复现课件

大模型算法

LLaMA架构原理
多模态架构

大模型应用开发

人工智能

面试题

大模型相关知识
Java基础
数据库

SIMPLE AI

SIMPLE AI对话
SIMPLE AI绘画
SIMPLE AI视频

Powered by EduSoho v25.1.4 ©2014-2026 课程存档