选超算还是智算?

标签:超算智算
分享到:

政府服务社会公共产业,建设综合医院;企业要服务于自身特殊需要,适合建设“专科医院”。随着数字经济进入一个新的发展阶段,计算能力已经成为核心资源之一。据相关统计,我国有46万多个计算中心,总面积超过1000万平方米,未来将保持一定的增长概率。然而,虽然“算力”这个词近年来非常流行,但很少有人真正理解它的含义,算力其背后的技术领域依然小众,认知门槛也很高。如果你连算力的概念都不了解,那么企业和政府在规划计算能力中心时,必然会遭受巨大的损失,甚至出大事。基于这个问题,本文讨论了计算能力中心建设的重点,分析了如何正确认识算力,并澄清了算力中心建设中常被误解的地方。

一、对立统一

算力中心有多种,大致可分为数据中心、超算中心、智算中心等,而它们都可以用云的形式来提供服务。其中数据中心在互联网企业中常用到,用于处理数据密集、通讯密集的事务性任务,比如手机app应用的后台数据数理。超算中心更偏重于科学计算等计算密集型的任务。最后,智算中心则应用于特定的大规模AI任务。

超算和智算之间更容易被混淆,但要区分它们其实也很简单,“我们可以把超算看成综合医院,把智算看成专科医院。”综合医院、专科医院都有其存在的价值,并在动态意义上可以互相转化,由此也暗示超算和智算的对立统一关系。

对立

很多媒体对算力中心存在许多误解,甚至都算不上是误解,很多时候连基本概念都没有搞清楚。近期,某人工智能计算中心宣布建成投运,不少媒体报道指出该智算中心的算力规模达到1000P,“AI算力峰值性能相当于5万台高性能计算机。”专家表示,媒体这种说法并不专业,就像说飞机飞的比100座山还高。“一座山的高度可能是100米,可能是8848米。一台高性能计算机,可能有10个节点,也可能有10000个节点。”另外,人们可能会认为,该智能计算中心的算力已经超越了曾获得超算TOP500榜单第一的富岳(537PFLOPS)。

但实际上,超算采用“FLOPS”即每秒浮点运算数为算力单位,而智能计算的算力单位一般会采用“OPS”即每秒操作次数为算力单位,两者是完全不同的度量单位。此外,智能计算的性能结果(单位OPS)通常是基于半精度及整型运算测试(AI基准)得到的,超算的性能结果(单位FLOPS)则是基于双精度、单精度浮点运算测试(Linpack)得到的。

对于超算和智算之间性能的比较,专家持比较严苛的观点,其表示1000POPS性能可能相当于0 PFLOPS,这里面涉及到能与不能的问题。具体还要看运算精度,而运算精度最终是影响到可执行的任务类型的。就好比,我们不能说十个牙科诊所相当于一个综合医院。

计算机的精度类型包括双精度、单精度、半精度以及整数类型等,随着精度减小,其表示的数值范围依次大幅度降低,同时对应硬件能胜任的任务也越来越聚焦到特定领域。

注释:【100P双精度性能超算】和【1000P半精度浮点性能智算】执行任务对比

 

注释:不同精度可执行任务对比

在AI推理、AI训练、模拟这个维度上,芯片的应用上限由其底层构造所决定,即使采用软件优化也无法再往上提升。此外,有些厂商还会模糊智能计算机的推理性能和训练性能,或者在同为FLOPS单位的情况下,掩盖运算精度细节。比如近期被媒体广泛宣传的声称达到超算TOP500第五的国外超级计算机,其实更接近于智能计算机,它的性能数值其实也是基于低精度运算得到的。

统一

由于精度上的限制,使得智能计算机受限为专用算力,一般仅支持单个场景,而无法提供平台性的服务。比如安防领域拥有海量视频,智算中心可以只做一个任务即视频处理,并且做10年乃至20年,它都能表现的很好。但是,让智算中心去跑需要运行数万不同类型软件的任务,那就是勉为其难了。因此,智算中心并不适用于公共服务型的算力中心,而更适用于企业。

超级计算机则是一种通用算力,更加擅长高精度计算,可胜任行星模拟、新材料开发、分子药物设计、基因分析等科学计算任务,以及能源、气象、工程仿真、生物基因、智慧城市等。

当然,超算的胜任任务还包括人工智能,我们可以深入到芯片层面来比较。如果底层芯片采用的是CPU+GPU,那么其既能打造成超算,也可以打造成智算。因为GPU既能做双精度运算,从而通用性很好,可用于科学计算,也可用于AI的模拟、训练、推理。而如果底层芯片采用的是CPU+专用芯片比如AI芯片,那么其只能打造成智算。因为AI芯片无法做双精度浮点运算,双精度浮点运算大量涉及线性代数方程求解,自然界的很多问题,包括科学问题、社会问题等,最后都可转化为线性代数方程求解问题。

尽管总存在某一方向主导的局面,但专家认为,我们仍然应该两者兼顾,不能厚此薄彼。超算和智算并不是互相排斥的存在,而是对立而统一的关系。也就是说,超算和智算应该作为两条路线分别发展,并在整体上协同,基于不同应用、服务对象建立不同的算力中心。超算相对更适合用于公共算力服务,智算更适合服务定向企业。

二、降本增效

明确了算力中心多样性的整体布局理念之后,接下来要考虑的,自然是在每一条路线上发挥最大效用,即降本增效——提升算力中心的有效性。从方法论上,可以简单总结为花更少的钱,做更多的事。

降本

造价越高的算力中心,不代表性能同等地提高。以粤港澳大湾区的两家算力约等的计算中心项目为例,项目A的整体算力为1170POPS,造价约为5亿元;而使用同等精度芯片的项目B整体算力为2000POPS,性能略超前者,造价却达到了惊人的近30亿元。换算下来,两者每亿元算力分别为234POPS、66.7POPS,相差350%。也就是说,不同的算力中心在性价比上可能差别特别大。算力中心由于市场化不足,政府获得的信息不对称,使得造价不透明,一定程度造成了公共财政资源的浪费。此外,将性能和任务相匹配,即“因地制宜”,仍然是最省钱的方式。除了上述提到了智算更专用,超算更通用以外,反过来看,不同行业适合的算力中心类型也是不同的,主要基于两个维度,即通用和性能。比如618、双11等购物节涉及的任务类型非常多,更适合用数据中心来处理;而像气候模拟、药物筛选等定义相对单一的任务则涉及大量的高精度计算,则必须用超级计算机来处理;在互联网大数据、人工智能应用场景下,超级计算机和智能计算机均能胜任。

 

智能计算机确实在向前发展,但专家再次强调,智能计算机所谓速度和能耗上的优势只是理论上的,而在实际应用中,智能计算机的表现不一定比超级计算机好。这背后的原因,即是“生态”——如何做更多的事。

增效

由于专用芯片的市场占有率低,生态支持上不如通用芯片那么完善,因此其在实际运行中往往在性能、速度、功耗上不一定能超越通用芯片。智算当前面临的一大困难是生态建设,普及程度还很差。专家主要强调的是理论和实践的差距,而媒体宣传中可能瞄准的是另一些层面。生态一般更注重通用性和平台性层面,但最好不要笼统地对任何一种计算类型谈论生态,因为所谓通用性和平台性也是相对的。

如今很多媒体经常说出诸如‘智算中心生态不行’的话语,这种表述既对,也不对。首先智能计算确实支持的应用很少,因此说它‘生态不行’是可以的。虽然智能计算只能用于特定AI应用,但如果在个别应用上达到一定的通用性,也能构成一种小生态。

三、求同存异

回顾历史,计算机的发展主要遵循两条路线,一条是专用,一条是通用,这两种趋势往往是交替的,在某个时候,我们可能会追求计算机的多任务,即通用性能,直到遇到瓶颈,然后我们就会开始转向另一个方向,即,牺牲一定程度的多样性,追求特定任务的高效性。高性能、高效率和广泛应用(通用)一直是超级计算机的追求,专用芯片也在不断尝试拓宽它们的能力边界。因此,虽然智能计算的发展还不成熟,但正如超级计算就像一个综合医院,智能计算就像一个专科医院一样,超算和智算有各自的应用领域,所以我们应该求同存异。

近年来算力这个词不断地被大众所提及,在新基建的大背景下,这体现了社会对算力的真实需求。但是,对于从业人员而言,最重要的还是脚踏实地、一步一步地把基础性工作做好,让算力真正成为竞争力和生产力。

 

 

继续阅读
选超算还是智算?

政府服务社会公共产业,建设综合医院;企业要服务于自身特殊需要,适合建设“专科医院”。随着数字经济进入一个新的发展阶段,计算能力已经成为核心资源之一。据相关统计,我国有46万多个计算中心,总面积超过1000万平方米,未来将保持一定的增长概率。然而,虽然“算力”这个词近年来非常流行,但很少有人真正理解它的含义,算力其背后的技术领域依然小众,认知门槛也很高。如果你连算力的概念都不了解,那么企业和政府在规划计算能力中心时,必然会遭受巨大的损失,甚至出大事。