Meta-Llama-3-8B-Instruct
热度★ 4,624
组织meta-llama
来源Hugging Face
Meta-Llama-3-8B-Instruct 是由 Meta 发布的大语言模型,属于 Llama 3 系列中的指令微调版本,参数量为 80 亿。项目定位为面向对话与文本生成任务的高性能开源模型,支持英文语境下的多轮交互与指令跟随。 核心能力方面,该模型基于 transformer 架构,经过大规模指令微调,能够执行问答、摘要、创意写作、代码生成等自然语言处理任务。技术亮点包括采用分组查询注意力机制(GQA)以提升推理效率,使用 8192 的上下文窗口长度,并在超过 15 万亿 token 的公开数据上完成预训练。模型权重以 safetensors 格式存储,兼容 Transformers 库与文本生成推理(TGI)框架,可直接部署于 Azure 等云平台。 参数与规模上,模型拥有 8.03B 参数,隐藏层维度 4096,注意力头数 32,层数 32。训练数据截止于 2023 年 12 月,采用 Llama 3 社区许可协议(llama3)发布,不支持商用场景下的再分发限制。在多项基准测试中,该模型在 MMLU、HumanEval、GSM8K 等任务上达到同参数量级领先水平。 适用场景包括智能客服、教育辅导、内容辅助生成、代码解释与调试、以及研究机构进行对话系统原型开发。由于模型体积适中,可在单张消费级 GPU(如 RTX 3090/4090)上进行推理,适合中小团队快速集成。项目在 Hugging Face 平台获得超过 4600 次点赞与 140 万次下载,社区活跃度较高。
本档案由千智坊基于公开信息整理,访问项目原文:
