J9九游会登录入口新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效

加载中...

2024-01-01

　　J9九游会登录入口新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效同时,咱们还斥地了基于chunk的tensor存储机制。这个思绪来自于DDP里通过bucket去擢升实践梯度同步通讯恶果。

　　咱们框架里是正在全程推算中都完毕了序列维度的切分,也便是说只消有足够众的配置,咱们就可以完毕一个无尽长的序列一个推算▲。

　　咱们这套序列并行计划原来不光对操练,况且对大模子推理也是有用的。由于遵循咱们的体味,咱们常用这些推理卡,A10安置一个7B足下模子推理,单卡可以承载这个拓扑数2500-3000级别。咱们了解看到有许众,像是64K,以至128K如此一个超长序列模子,它去做如此的模子超长序列推理岁月,会需求咱们如此的序列并行计划去完毕一个超长序列的分散式惩罚▲▲。

　　第二个是模子并行,这个网罗咱们框架里供应的计划,网罗流水线并行,网罗张量并行,同时针对差别的物理拓扑,会供应少少差别的模子并行优化算法,抵达最佳的推算和通讯同步的恶果。

　　近年来AI飞速兴盛。之前2016的岁月,当时比力火的ResNet模子,可以几个小时就可能操练完一个CIFAR10行使,到了其后操练BERT模子可以花一两天可能做完▲。不过到了此刻大模子期间,咱们模子的参数目和推算量都是膨胀到一个卓殊可观数目级。

　　咱们是思要操纵这个高本能分散式的算法,去助助企业落地分散式大模子,也助助他们去完毕降本增效▲。咱们这个框架一个厉重的安排思绪,网罗以下三层:

　　3、低延迟推理体系,咱们操纵量化、并行推算等等计谋最大化的推理安置一脾气价比▲。工业界得到必定的认同和影响力,咱们看到横向对照少少其他厂商分散式框架,延长速率比力疾,目前积攒了3.5万众颗Star▲▲。这些开源社区用户也是来自全全邦各地。同时咱们的少少中央职业也是被少少顶级的集会所罗致▲。

　　咱们一个思绪,把目前业界最SOTA最高效这些并行计划整合进一套体系,借助咱们永远做体系优化的体味,去助助用户他们来遴选适应的并行计划,同时供应一个最高效的体系完毕。

　　所以咱们推出Colossal-AI框架,思要正在分散式安置这一层去操纵高效的分散式算法,处理AI大模子安置一个超高本钱题目。这个框架是举动一个软件的底子办法,它是向上可能承接PyTorch、Huggingface、Lightning等差别的AI行使,向下可能兼容网罗GPU、TPU、NPU等等差别的硬件加快计划▲▲。

　　1、高效内存管制体系,它的厉重的思绪是可能操纵更低廉的CPU内存和硬盘空间去缓存模子推算中冗余的存储开销,极大地低落GPU的存储压力,相当于低落硬件门槛。

　　咱们本年还推出少少进一步擢升用户体验,低落用户门槛的少少产物,像是一个云平台跟一体机▲▲。云平台便是咱们集成Colossal-AI的分散式加快才力,以及网罗操练、微调、推理、安置等场景,供应一个低代码、低门槛、低本钱的云上AI斥地体验▲。

　　第三个是序列并行,由于现正在长序列一个模子也是目前比力热门一个兴盛趋向。原来其他少少框架或众或少有少少相同去处理这个长序列一个计划,好比说Deepspeed等都有序列计划,不过借使周详商酌过他们的完毕,会发觉他们正在推算attention的岁月,并没有切分序列长度这个维度▲。

　　基于上述这些体系优化,对待常睹的开源模子,比如GPT、Llama等等,咱们都可以完毕显着的降本和加快。

　　一体机大模子任事器这个产物,是咱们会针对软硬件做少少极致优化,同时供应足够模子库和利用榜样,让用户尽量开箱即用,得到一个低本钱、低代码的AI斥地体验▲▲。

　　其它咱们还开源了一个中文LLaMA-2这么一个转移操练计划▲▲。这个计划是咱们基于LLaMA-2开源基座,只利用了8.5个Billion数据量,不赶过1000美刀的本钱,把LLaMA-2叙话才力转移到中文场景内中。咱们可能看到正在常睹的公然中文benchmark上,它的才力和之前7B、6B界限的少少开源大模子,比如百川、ChatGLM的分数也是势均力敌的▲。

　　像数据并行,咱们处理了一个题目,常睹数据并行计划下,借使咱们操练批巨细赶过8000以上,导致最终模子有一个泛化题目▲。正在咱们框架里通过LARS、LAMB如此少少针对做优化这些优化器处理这个题目,同时把批巨细进步到像64K一个水平。

　　2、N维并行体系,这一层咱们操纵少少分散式的算法,不光可以平均去切分大模子的存储开销,同时也可以完毕一个比力高效的推算和通讯。

　　感激诸君,我是来自潞晨科技的卞正达。这日厉重代外董事长跟行家做一个相易,这日禀享这个核心厉重是闭于AI大模子的分散式体系优化▲▲。最先我先先容一下大模子期间下的兴盛靠山和少少挑衅▲▲。

　　第二点,内存管制异构体系。由于咱们了解深度进修,格外是正在用搀和精度操练岁月,它的大局限存储原来被用正在优化器参数更新上,推算比力重的前向和反向推算历程当中,原来它的存储开销相对较少。所以咱们可能通过较为低价的CPU存储去缓存一局限的模子推算中少少冗余存储,好比可能把这个优化器的局限都转移到CPU存储上,低落这个GPU的存储压力▲。咱们了解目前少少物理配置上,CPU和GPU之间带宽比力瓶颈,所以咱们依旧思要尽可以裁减异构存储带来卓殊的通讯开销J9九游会登录入口。咱们一个思绪是,尽可以依旧把大局限存储都放正在GPU上,惟有把赶过上限这个局限缓存到CPU上,如此就能裁减大局限的数据换取,然后同时咱们也尽可以把推算都保存正在GPU上去做。

　　好比说谷歌PaLM模子,借使用一张显卡操练,传说是要操练岁月长达赶过300年,同时操练本钱高达900万美元。这么高本钱由于厉重它的参数目和操练所需的数据量的界限都显现一个逐年飞速延长的趋向。因此它带来的推算量曾经抵达了一个卓殊庞杂的数目级。

　　下面整个先容一下咱们框架的中央安排细节。第一个便是N维并行体系,正在咱们斥地这个Colossal-AI框架之前,曾经有卓殊众的并行的少少技巧计划,像是Gpipe的流水线并行计划,Deepspeed的Zero数据并行计划、以及Megatron的3D并行计划等等。不过咱们发觉用户拿到一个实践需求之后,他很难去无误遴选一个适应的加快计划,把这个需求转化成真正一个落地的大模子处理计划。

　　同时,咱们为了得胜安置大模子的操练和推理,咱们需求去维持一个成百上千张显卡的庞杂的集群。这个本钱也口舌常可观的。

　　12月20日,由中邦互联网协会、微博、新浪讯息主办的“数字力气,摸索无穹”2023摸索大会正在北京拉开帷幕。潞晨科技结合创始人兼CTO卞正达分享了题为《Colossal-AI:AI大模子的挑衅与体系优化》的演讲。

　　同时咱们正在年头2-3月份岁月,也是第一个推出ChatGPT的RLHF计划的一个复现和开源。咱们还推出中文ColossalChat这么一个众轮对话的行使,同时也网罗ColossalEval这个对话模子的验证东西。

　　天津大学代外团赴日内瓦到场2023年《禁止生物火器契约》缔约邦集会并与众个邦际机闭拓展相易团结渠道

　　方才有许众专家提到,目前一个主流的操练计划是预操练加上微调这两步。通过这个计划,咱们把它拆成预操练+转移操练+微调这三步。由于第一步预操练是本钱最高的闭节,咱们可能操纵目前开源少少大模子,咱们也可能看到目前开源模子这个兴盛也是相等神速,LLaMA等这些开源模子都卓殊不错。咱们可能借助它们的才力,正在笔直规模上只消通过转移操练加上微调两步把它大模子才力落地到整个场景中,可能完毕一个较低的本钱下,杀青比力定制化一个专业模子。所以咱们开源模子之后也是受到了必定的热度。

新闻中心

J9九游会登录入口新浪新闻探索大会｜卞正达：Colossal-AI：AI大模型帮助企业降本增效