探究超算和智算的特点与应用场景:如何做出正确选择

标签:超算智算
分享到:

政府在推动社会公共产业发展的同时,致力于建设一所综合医院。企业则应关注满足自身特殊需求,建设适合其需要的“专科医院”。随着数字经济进入新的发展阶段,计算能力已成为核心资源之一。根据相关统计数据显示,我国拥有超过46万个计算中心,总面积超过1000万平方米,并且未来将持续增长。然而,“算力”这个词近年来虽然很流行,但很少有人真正理解其含义,算力背后的技术领域仍然相对小众,认知门槛也很高。若企业和政府在规划计算能力中心时缺乏对算力的了解,势必会遭受巨大损失,甚至可能引发重大问题。鉴于此问题,本文讨论了计算能力中心建设的重要性,并分析了如何正确理解算力,同时澄清了在算力中心建设中常见的误解。
 
一、对立统一
 
算力中心包括多种形式,主要可分为数据中心、超级计算中心和智能计算中心等,而这些中心都可以通过云服务的形式提供服务。数据中心在互联网企业中经常使用,用于处理数据密集和通信密集的任务,例如手机应用程序后台数据处理。超级计算中心更专注于科学计算等计算密集型任务。最后,智能计算中心则用于特定的大规模人工智能任务。
 
超级计算中心和智能计算中心之间容易混淆,但实际上它们之间的区别很简单,“我们可以将超级计算中心看作是综合医院,将智能计算中心看作是专科医院。”综合医院和专科医院都有其存在的价值,并且在不同情境下可以相互转化,这也暗示了超级计算中心和智能计算中心之间的对立统一关系。
 
对立
 
许多媒体对算力中心存在着许多误解,有时甚至连基本概念都没有弄清楚。最近,某人工智能计算中心宣布建成并投入使用,很多媒体报道称该智能计算中心的算力规模达到1000P,“AI算力峰值性能相当于5万台高性能计算机。”然而,专家表示,媒体这种说法并不专业,就像说飞机飞得比100座山还高一样。“一座山的高度可能是100米,也可能是8848米。一台高性能计算机可能有10个节点,也可能有10000个节点。”此外,人们可能会认为该智能计算中心的算力已超过曾经获得超级计算机TOP500榜单第一的富岳(537PFLOPS)。
 
然而实际上,超级计算中心使用“FLOPS”(每秒浮点运算次数)作为算力单位,而智能计算中心则通常使用“OPS”(每秒操作次数)作为算力单位,两者是完全不同的度量单位。此外,智能计算的性能结果(以OPS为单位)通常基于半精度和整型运算测试.
 
AI在推理、训练和模拟方面的应用取决于芯片的底层构造,即使进行软件优化也无法提升其上限。此外,一些厂商会混淆智能计算机的推理性能和训练性能,或者在以FLOPS为单位的情况下掩盖运算精度的细节。例如,最近媒体广泛报道的声称达到超级计算机TOP500排名第五的国外超级计算机实际更接近于智能计算机,其性能数值也是基于低精度运算得出的。
 
尽管存在精度上的限制,智能计算机仅适用于特定任务的专用算力,通常只支持单个场景,并且无法提供平台级的服务。例如,在安防领域,智能计算中心可以处理大量视频数据,并在长时间内保持良好表现。然而,如果要让智能计算中心运行数万个不同类型的软件任务,就会变得困难。因此,智能计算中心不适用于公共服务型的算力中心,而更适合企业使用。
 
超级计算机则是通用算力,擅长高精度计算,可胜任科学计算任务,如行星模拟、新材料开发、分子药物设计、基因分析,以及能源、气象、工程仿真和智慧城市等领域。
 
当然,超级计算机也可以胜任人工智能任务,这可以从芯片层面进行比较。如果底层芯片采用CPU+GPU的组合,那么既可以构建超级计算机,也可以构建智能计算机。因为GPU能够进行双精度运算,具有很好的通用性,可用于科学计算和AI的模拟、训练和推理。而如果底层芯片采用CPU+专用芯片(如AI芯片),那么只能构建智能计算机。因为AI芯片无法进行双精度浮点运算,而许多问题包括科学问题和社会问题最终都需要转化为线性代数方程求解问题,而双精度浮点运算涉及大量线性代数方程求解。
 
尽管其中一种方向可能在某些方面占据主导地位,但专家认为我们应该兼顾两者,不应厚此薄彼。超级计算机和智能计算机并不是互相排斥的存在,而是对立统一的关系。也就是说,超级计算机和智能计算机应该作为两种不同的发展路径,分别发展,并在整体上协同合作,在不同的应用和服务对象下建立不同的算力中心。超级计算机相对更适合提供公共算力服务,而智能计算机更适合为企业提供服务。
 
二、成本降低,效率提升
 
在明确了算力中心多样性的整体布局理念之后,接下来需要考虑的是如何在每条发展路线上实现最大的效益,即通过降低成本和提高效率来提升算力中心的有效性。从方法论上来看,可以简单总结为以更少的资金做更多的事情。
 
成本降低
 
高成本的算力中心并不意味着性能同等提高。以粤港澳大湾区的两个算力中心项目为例,项目A的整体算力为1170POPS,造价约5亿元;而使用相同精度芯片的项目B的整体算力为2000POPS,性能稍超前者,但造价却高达近30亿元。换算下来,两者每亿元算力分别为234POPS和66.7POPS,相差350%。这意味着不同算力中心在性价比上可能存在巨大差异。由于算力中心市场化程度不够,政府获取的信息不对称,使得成本不透明,从而导致公共财政资源的浪费。此外,根据任务的性能需求来选择合适的算力中心类型,即“因地制宜”,仍然是最节省成本的方式。除了智能计算机更适合专用场景,超级计算机更适合通用场景之外,不同行业适合的算力中心类型也因需求的通用性和性能需求而异。例如,购物节如618、双11涉及的任务类型非常多,更适合使用数据中心来处理;而气候模拟、药物筛选等具有相对单一定义的任务则需要大量高精度计算,必须使用超级计算机来处理;在互联网大数据和人工智能应用场景下,超级计算机和智能计算机均能胜任。
 
确实,智能计算机在向前发展,但专家再次强调,所谓速度和功耗上的优势只是在理论上存在,在实际应用中智能计算机的表现不一定比超级计算机好。这其中的原因在于“生态”——即如何做更多的事情。
 
效率提升
 
由于专用芯片市场份额较低,其生态支持不如通用芯片完善,因此在实际运行中,性能、速度和功耗方面未必能超越通用芯片。智能计算目前面临的一个主要困难是生态建设进展缓慢,推广程度有限。专家主要强调理论和实践之间的差距,而媒体宣传可能侧重于其他方面。生态建设通常更注重通用性和平台性层面,但最好不要笼统地对任何一种计算类型谈论生态,因为所谓通用性和平台性都是相对的。
 
如今,许多媒体经常提到智能计算中心的生态问题,这种说法既正确又不完全正确。首先,智能计算确实支持的应用领域有限,因此说其“生态不行”是可以理解的。尽管智能计算只适用于特定的AI应用,但如果在某些应用场景上具有一定的通用性,也能构建起一种小型的生态系统。
 
三、寻求共同点,容纳差异
 
回顾历史,计算机的发展主要遵循两种路线:专用和通用。这两种趋势往往交替出现。在某个时刻,我们可能会追求计算机的多任务能力,即通用性能,直到遇到瓶颈,然后开始转向另一个方向,即为了特定任务的高效性而牺牲一定程度的多样性。高性能、高效率和广泛应用(通用)一直是超级计算机的追求,而专用芯片也在不断尝试拓宽其能力边界。因此,尽管智能计算的发展尚未成熟,但就像超级计算机类似于综合医院,智能计算机类似于专科医院,超算智算都有各自适用的应用领域,因此我们应该寻求共同点,容纳差异。
 
近年来,算力一词在大众中频繁出现,这反映了社会对算力的真实需求,尤其在新基建的背景下。然而,对于从业人员而言,最重要的仍然是踏实地、一步一步地做好基础工作,让算力真正成为竞争力和生产力的体现。

关键词:罗姆官网

继续阅读
探究超算和智算的特点与应用场景:如何做出正确选择

政府在推动社会公共产业发展的同时,致力于建设一所综合医院。企业则应关注满足自身特殊需求,建设适合其需要的“专科医院”。随着数字经济进入新的发展阶段,计算能力已成为核心资源之一。根据相关统计数据显示,我国拥有超过46万个计算中心,总面积超过1000万平方米,并且未来将持续增长。然而,“算力”这个词近年来虽然很流行,但很少有人真正理解其含义,算力背后的技术领域仍然相对小众,认知门槛也很高。若企业和政府在规划计算能力中心时缺乏对算力的了解,势必会遭受巨大损失,甚至可能引发重大问题。鉴于此问题,本文讨论了计算能力