源2.0全面适配百度PaddleNLP

2024年10月14日

近日，浪潮信息源2.0开源大模型与百度PaddleNLP完成全面适配。用户通过PaddleNLP，可快速调用源2.0预训练大模型，使用源2.0在语义、数学、推理、代码、知识等方面的推理能力，也可以使用特定领域的数据集对源2.0 进行微调，训练出适合自身业务需求的大模型。

PaddleNLP是百度基于飞桨框架打造的大语言模型套件，聚合业界优质预训练模型并提供开箱即用的开发体验，覆盖NLP多场景的模型库，搭配产业实践范例，提供极致的训练与推理性能，可满足灵活定制的开发需求。源2.0系列基础大模型是首个全面开源的千亿参数模型，包括1026亿、518亿、21亿三种参数规模的模型，在对话问答、编程、逻辑推理等方面展示出了领先的能力。

此次适配标志源2.0大模型迁移到飞桨生态中，丰富了PaddleNLP的大模型库，方便用户在PaddleNLP内快速使用源2.0大模型的能力，并能使用特定领域的数据集做微调，利用相对较少的资源就能训练出更适合实际应用场景的大模型。源2.0基于PaddleNLP内置的预训练-微调-推理全流程，支持大模型数据并行、数据分组切片并行和模型并行，提供高性能分布式训练与推理技术，同时无需修改即可适配多种硬件，从而给用户带来开箱即用的开发体验，实现高效训练和推理。

在微调阶段，利用PaddleNLP中Zero Padding零填充数据流优化技术，通过分组贪心的数据填充策略，可最大程度消除无效填充的比例。通过上述优化，相比LLaMA-Factory，PaddleNLP在监督微调环节性能提升，可以更快训练出适合客户应用场景的专属源2.0大模型。