“有用”的算力“不好用”?

【导语】国产算力芯片以“能用、好用”为评价标杆,但“高性能”与“易用”间似存鸿沟。业内人士指出,国产算力为提升使用率,在软件栈设计上“有意”平衡,既要简化操作降低用户成本,又因场景多样、代际和异构差异面临挑战,实现“更好用”仍需突破。

对于国产算力芯片来说,“纸面上的指标不重要,真(zhēn)正(zhèng)能(néng)用(yòng)、好(hǎo)用(yòng)才(cái)重(zhòng)要(yào)”,几(jǐ)乎(hu)成(chéng)为(wèi)业(yè)界(jiè)默(mò)认(rèn)的(de)评(píng)价(jià)标(biāo)准(zhǔn)。然(rán)而(ér),近(jìn)日(rì)记(jì)者(zhě)从(cóng)产(chǎn)业(yè)活(huó)动(dòng)中(zhōng)了(le)解(jiě)到(dào),算(suàn)力(lì)的(de)“高(gāo)性(xìng)能(néng)”和(hé)“易(yì)用(yòng)”之(zhī)间(jiān)似(shì)乎(hu)存(cún)在(zài)着(zhe)一(yī)道(dào)“看(kàn)不(bù)见(jiàn)的(de)鸿(hóng)沟(gōu)”。

好(hǎo)算(suàn)力(lì)不(bù)易(yì)用(yòng),厂(chǎng)商有意为之?

“好用和用得好似乎是天然的矛盾。”摩尔线程联合创始人首席技术官张钰勃表示。对于用户而言,“好用”首先意味着使用和迁移成本低。要实现“好用”,让用户先在自己的平台上“用起来”,算力芯片企业就得将自己的计算平台包装得非常简单,非常标准化,甚至做得跟CUDA一模一样。“这样开发者确实不需要做太多的额外学习,能够最小化学习和迁移成本。”张钰勃说。

小2.j

国产算力芯片用于数字人

然而,单纯与国际主流保持一致,国产算力的创新性如何体现?国产卡又如何真正实现在诸多应用场景的部署,成为“有用”算力呢?

针对这一问题,北京硅基流动科技有限公司创始人、首席执行官袁进辉解释道:算力芯片中往往会设计很多细节,存在很多复杂的结构和功能,充分调用其功能需要一定的经验和技巧。如果想让更多的人尽快地用起来,芯片就要尽可能地把细节隐藏起来,用简单而抽象的指令,尽可能让使用的方式简单一些。也就是说,把软件接口做简单,使用户能“傻瓜式”地把芯(xīn)片(piàn)用(yòng)起(qǐ)来(lái),便(biàn)实(shí)现(xiàn)了(le)芯(xīn)片(piàn)的(de)“好(hǎo)用(yòng)”。

但(dàn)算(suàn)力(lì)芯(xīn)片(piàn)应(yīng)用(yòng)的(de)场(chǎng)景(jǐng)是(shì)多(duō)样化的,场景覆盖AI、图形处理、科学计算等等诸多类型,每一种任务的工作负载不尽相同,对底层芯片的使用方式也各不相同。在不同的场景中,工程师如果发现了需要解决的(de)问(wèn)题(tí),需(xū)要(yào)从(cóng)上(shàng)到(dào)下(xià),逐(zhú)层(céng)把一些工作负载细化、分解,以匹配硬件上的规格。

因此,所谓算力芯片“好用的没用”“有用的不好用”的争论,其实一定程度上是算力芯片企业为提升本品牌芯片使用率,“有意为之(zhī)”的(de)结(jié)果(guǒ)。

“好(hǎo)用(yòng)不(bù)好(hǎo)用(yòng)”,软(ruǎn)件(jiàn)栈(zhàn)很(hěn)重(zhòng)要(yào)

为(wèi)了(le)使(shǐ)用(yòng)户(hù)先(xiān)“用(yòng)起(qǐ)来(lái)”而(ér)故(gù)意(yì)隐(yǐn)藏(cáng)部(bù)分(fēn)信(xìn)息(xi),既(jì)反(fǎn)映(yìng)出(chū)算(suàn)力(lì)芯(xīn)片(piàn)企(qǐ)业(yè)对(duì)用户的重视,也反映出用户习惯仍然在国产算力芯片普及化过程中扮演着相当重要的角色。软件栈的成熟度和“好用”程度,也很大程度上决定了开发者对算力芯片品牌的信赖度。

当前,用户期待算力基础设施能够承载包括大规模训练、推理在内的诸多职能。与此同时,国产算力芯片存在代际迭代,超智融合的算力中心还存在异构情况。上述这些需求,都对底层软件栈的稳定性带来很大的挑战。

“我们期待的状态是,上层应用跑得好。”启元实验室助理研究员(yuán)王(wáng)豪(háo)杰(jié)在(zài)接(jiē)受(shòu)采访(fǎng)时(shí)表(biǎo)示(shì)。英(yīng)伟(wěi)达(dá)的(de)芯(xīn)片(piàn)之(zhī)所(suǒ)以(yǐ)受(shòu)到(dào)欢(huan)迎(yíng),稳(wěn)定(dìng)、高(gāo)效(xiào)且(qiě)简(jiǎn)易(yì)的(de)软(ruǎn)件(jiàn)栈(zhàn)发(fā)挥(huī)了(le)很(hěn)大(dà)的(de)作(zuò)用(yòng)。王(wáng)豪(háo)杰(jié)举(jǔ)例(lì),一(yī)个(gè)在(zài)A100芯(xīn)片(piàn)上训练的模型,可以部署在4090显卡上,整个过程非常顺利,不需要对软件做任何修改。“这是英伟达好用的本质核心。”王豪杰说。

小.j

国产算力用于远程作业平台

反观国产芯片生态:一方面,同一品牌的产品存在代际差异;另一方面,不同品牌之间、底层软件栈之间也存在差异。在某一款产品上进行训练,再到另一款算力芯片上推理,模型在不同的软件和底层硬件迁移之后,精度损失会非常严重。甚至可能出现,某些接口在一款产品上适配了,但在另一款产品上没有适配,模型跑不起来的可能。

“在单点算力不足的情况下,为了满足算力规模需求,我们需要调用异构算力。底层软件的是支撑实现这一切的基础。”王豪杰(jié)称(chēng)。

基(jī)于(yú)此(cǐ),国(guó)产(chǎn)算卡要实现“更好用”,就得使任务能够轻易地调用不同品牌的算力卡。如果存在严格的适配机制和验证机制,能够通过中间层统一的架构,保障在上层代码不作修改的情况下,任务也能够在不同品牌的算力芯片上运转起来,便能推动我国智能算力进一步朝着产业化、规模化方向拓展。