给你们看看美国业内大神如何评价神威太湖之光

Tips:点击图片进入下一页

转载的这个帖子是美国知乎Quora上美国超算大牛John Gustafson写的回答,把神威太湖之光给吹爆了,我很好奇为什么到现在还没有人翻译转载到国内网络上,此回答写于2018年2月9日。那我来。此人生平:http://www.wikiwand.com/en/John_Gustafson_(scientist)一句话简介:这家伙拿过Gordon Bell Prize,是正经的顶级大牛不是什么野鸡教授。

原帖地址:http://www.quora.com/Can-the-US ... 00-petaflops-Summit
翻译:Tiberium



问题:Can the USA overtake China in the supercomputer race with her 200 petaflops Summit?
问题:美国能不能用200P的Summit干赢中国?


回答:Regrettably, no. The USA needs to aim for at least 2 exaflops if they are starting now, since it takes about two or three years to go from design to actual running hardware.
回答:很遗憾,不行。美国现在想要动的话至少得以2E为目标,所以需要两到三年才能够从设计变成实际能跑起来的硬件。


Sitting in Singapore, I am in the unusual position of having visited the Chinese #1 and #2 supercomputer sites and met with their designers, and also being familiar with the usual TOP500 sites in the US and what some of their plans are.由于我在新加坡,我参观了中国第一和第二的超算,并且跟他们的设计师会了面,这很不同寻常,同时我也对美国的的一般TOP500的超算和他们的计划很熟。

As a citizen of the USA, I find the disparity discouraging. The Chinese already have a 1 exaflops system in their pipeline, and their designs are excellent and getting better. By the time the USA ekes out a 200 petaflops system, the Chinese will almost certainly have one already in operation that runs circles around it.作为美国公民,我觉得这种差距很让人丧气。中国人已经在开发一个1E的机器,他们的设计非常出色,而且越来越好。美国人把200P的机器弄出来的时候中国人肯定就已经把那个1E的机器弄的差不多了,在跑测试。While the USA economy grew slowly from 2001 to 2016, China’s economy grew very quickly and in some specific areas they actually surpassed the USA, supercomputing being one of them. Their supercomputer engineers did a lot of things right:当美国经济从2001到2016缓慢增长的时候,中国经济增长得非常快,而且在某些特定领域已经超过美国,超算就是其中之一。他们的超算工程师做了很多对的事情:They were willing to spend the large amount of money required to compete in this arena.他们愿意在这个领域竞争,投入了很多钱。They were not wedded to the x86 processor mentality, and instead created a hardware-software stack (mostly based on the Alpha processor and its associated software that they had licensed) that delivers significantly more speed per watt of power. Alpha processors achieve about twice as many instructions per clock as do x86 processors.他们没有局限于x86处理器,相比之下他们做了一个硬件-软件集合体(基于他们之前买授权的Alpha处理器和相关软件),这套东西能够输出比x86多得多的每瓦算力。Alpha处理器能够处理相当于x86两倍的每秒指令。They took a holistic approach to the physical design, from the building structure to the cooling system to the custom cabinet design, instead of restricting themselves to easily-available and low-cost solutions to those challenges.他们全盘考虑了硬件设计,从建筑结构到冷却系统到定制的机柜设计,而不是局限于很容易搞到的和低成本的解决方案。They bought or licensed USA technologies and picked out the best ideas, then combined them with shrewd ideas of their own.他们买了或者拿到了美国技术的授权,挑出最好的点子,与他们自己的好点子结合在一起。
I should probably note that my colleague Jack Dongarra has written that Taihu Light is not based on the Alpha processor. With all due respect, he should ask one of his Mandarin-speaking graduate students to read the Taihu Light literature that has not been translated into English. The use of Alpha appears in the original, but not in the English translation… I am surrounded by bilingual Singaporeans who can confirm this! There may have been sensitivity that the designers would be accused of ripping off USA technology, so they de-emphasize that aspect of their design. They shouldn’t. There was easily enough innovation in the Taihu Light to earn the designers not just one, but two Gordon Bell Prizes.我这里应该提到我的同事Jack Dongarra写过太湖之光不是基于Alpha处理器的。说实话,他应该问问他手下的大陆研究生去读一下那些没被翻成英语的太湖之光的文章。中文版是有说用了Alpha的,但是英文翻译就没了。我周围的懂双语的新加坡人确认了此事!设计师可能是害怕会被人指责说是偷窃了美国技术,所以就没有提到设计的这方面。他们这么做很不应该。太湖之光的创新足够让设计师拿到不止一个,两个Gordon Bell奖。Each processor of Taihu Light looks like the Cray T3D on a chip. The Cray T3D was a nimble system based on Alpha processors that many HPC people feel was one of the best-designed supercomputers of all time.太湖之光的每个处理器都像是一个芯片上集成了一整台Cray T3D。Cray T3D是一个很牛逼的机器,基于Alpha处理器,很多超算人认为这是有史以来设计的最好的超算之一。Most supercomputers are severely communication-bound; the T3D was much less so, with an unusually good system balance and low-latency interconnect that made it easier to sustain a high fraction of the peak rated speed. Imagine a 256-processor T3D on a single chip (together with four processors that service that array), and a cleverly-cooled cabinet that packs hundreds of those close together, and a roomful of those cabinets, and you have a system that makes the DOE and NASA labs in the USA go… *gulp*.绝大多数的超算严重的受到通讯的限制。T3D很大程度上克服了这点,他们有一个非常好的系统平衡,以及低延迟的互联系统,这让它能够很容易的维持在顶峰速度的高荷载上。想象一个256核的T3D集成在单片上(同时还有四个处理器协同阵列),以及一个设计的很聪明的冷却机柜,将几百片这样的处理器塞在一起,再把一个房间装满这样的机柜,你就有了一台能够让能源部和NASA实验室羡慕嫉妒恨的机器。If the USA wants to really get back in the game and not just play catch-up, they need to break the me-too paradigm of filling standard racks with x86 processors that have GPU accelerators attached. We can get an order of magnitude improvement in operations per joule by rethinking everything. If I were doing it, I’d use a Very-Long Instruction Word (VLIW) processor with no caches, no instruction lookahead or speculative execution or branch prediction, explore the use of gallium nitride with 16-level logic instead of silicon CMOS, change the numeric representation from IEEE floats to posit arithmetic, connect the cabinets with free-space optics at terabytes per second per channel and a full crossbar, use only stacked memory and extensive use of in-processor RAM and ROM, and declare it a “moon shot” to make such a system work by 2022. This is the way all the great breakthroughs in supercomputing have been made historically… by being willing to change paradigms. Right now, the Chinese are proving better at breaking from legacy thinking than the USA.如果美国真的想要胜利,而不是追赶,他们就不应该局限于那种“我也行”的思路,把一大堆带GPU加速器的x86处理器塞在一起。如果我们重新思考,就能够将每瓦的计算力提高一个数量级。如果我来干这事情的话,我会用一个超长指令处理器(VLIW),不带缓存,不要向前检测,推测执行或者分支预测,探索使用16层逻辑的GaN而不是硅CMOS,将数字表示从IEEE浮点换成假定算式,将机柜用free-space光纤连接起来,带宽在TB级别,只用堆叠内存和片上RAM和ROM,宣布这是个“革命性产品”并且节点在2022年运行。(译者:我不懂超算所以这段翻得不好大家姑且看看)这是历史上所有超算巨大突破的路径——愿意去做范式更新。目前,中国人证明他们比美国人更有勇气革新。


网友评论:
美国不是已经造了新超算拿回时间第一了么?

—— 来自 HUAWEI MHA-AL00, Android 8.0.0上的 v2.0

是的,然后中国性能更高的超算快进入测试阶段了。

马上就要被E级超算碾压了,差不多也算上市即落后

----发送自 App for Android.
E级超算正式上线也要等2020吧,顶点还是能爽一年的

新超算就是问题中问的200p的Summit
lz辛苦
summit 200p应该也是一期工程吧

ps:
如果美国真的想要胜利,而不是追赶,他们就不应该局限于那种“我也行”的思路,把一大堆带GPU加速器的x86处理器塞在一起。
....?
这商业互吹让人眩晕
我怎么记得summit不是x86
是不是现在都是用黄老板芯片。
美国战忽局吧
美已输
以我的理解,这文章真假先不论,作者的意思就是中国超算在结构上做出了创新,搭建了和美国不同的新平台,相比美国现有的思路未来更容易提升
这是哭弱要钱的吧
回答给我的感觉是美国在这块太拘泥于用通用架构和通用设计来造超算,没有意识到超算这种东西一定是顶级稀少的,需要高度定制,要有单独的好设计和专门的解决方案才能把超算性能和效率提上去,而且现在也没意识到这个事?

可以看得出,这家伙是一个向量机粉。

中国采用的是多核和众核融合的设计(订制构架,神威蓝光),直接解决的互联的问题。美国采用的是ibm power9芯片通过nvlink预留的接口和volta互联,算是通过商业方案解决问题。

这位作者是偏学术的,所以他肯定支持订制架构(前者)。拥有成熟商业方案即使美国的优势,也是美国的劣势。
我的理解是他是偏学术的,倾向于价格较高的订制方案,对省钱的商业方案不满

同意。美国人的优势在于硬件成本低。

—— 来自 Sony G8142, Android 8.0.0上的 v2.0-play
Sorry,有钱就是能为所欲为.gif

问题是Summit成本一点也不低,接近4亿美元。10PB内存,太湖之光才18亿人民币,只有1.3PB内存。
太湖之光用的是 65nm的
路线不同而已,看谁先点出天赋了!
顶楼的果然是专家,谈到了使用posit来改进性能( http://www.johngustafson.net/pdfs/BeatingFloatingPoint.pdf )
不得不说老外创新能力真的强,根据计算需求改进浮点数的格式
这大爷说的都是超算的正理,但中美现在走的都是堆商业产品的邪路(神威不是,天河二号是),因为商业产品大规模生产,性价比高,只有在超算也需要大批量生产的时候照他说的干才划算。
大概是说,中国造的效率很高,美国的只是简单堆硬件?

----发送自 App for Android.
美国那个新的不是已经开始运行了么
他说的那个方案,感觉编程会很困难。。。


他的意思是,美国的思路还是先看老黄现在造出来什么特斯拉,然后想办法把尽可能多的特斯拉堆到一个节点里面,再把节点连起来

太湖之光走的路线是从上到下的,思考什么样的思路能够达成100P的需求,然后根据这样的思路,计算如何弱化CACHE的众核节点,足够完成目标,又不会在缓存上浪费过多的能耗和等待时间



这位说要造一个无缓存,无预取,无推测,无分支预测的架构,这样的处理器一定不是“通用”处理器,越通用它就是越浪费。可以下定论它绝对不适用绝大多数开发者。但是如果你是TOP ONE为目标,为了达成超大规模计算,在性能、能耗比与开发效率上必须做出选择。通用但是慢,又或者是开发难度极高但是速度、能效翻几倍。对于达到一定规模的应用,比如核爆模拟、大气模拟等等,一次开发,终身享受数倍的性能提升

无缓存架构肯定和现有的编程完全不同。如果对个人开发者,这种编程难度可以直接劝退了。但是如果你想要做一个E级超算,开发难度翻10倍的成本,可能就比用现有架构硬堆一个E级超算低,何况能效比至少是3-5倍的差距

他倾向的是效率较高的方案,现有的商业方案太贵,效率太低


风怒

这跟老外不老外没关系,本来浮点格式就是人定的,谁都可以改


你说的话没有错,但大部分国人根本不了解这个东西,更不用说找出限制系统性能的瓶颈,并去有针对性的修改这个东西了。
大部分国人的做法就是用更多更强的硬件去堆,国人搞来钱快的应用可以,优化底层的东西那还是算了,这种吃力不赚钱的事没人做的。

我不跟你比峰值,跟你比成本,开发环境,兼容性。隔壁有个帖子就是这个思路,结论就是:太湖之光是独裁土狗耗费巨大,九牛二虎之力造出来的;summit是民煮美国分分钟用商用部件拼出来的

我不跟你比峰值,跟你比成本,开发环境,兼容性。隔壁有个帖子就是这个思路,结论就是:太湖之光是独裁土狗耗费巨大,九牛二虎之力造出来的;summit是民煮美国分分钟用商用部件拼出来的

不做特定宽度标准的浮点单元,而是用通用的单元(其实就是定点单元)来计算浮点。
低精度可以非常快,高精度下开支增加也是平滑的。

最近的菊花鸡血驱动了解一下?
全篇全楼完全看不懂,但不妨碍我觉得【神威】这个名字听着超霸气

我怎么觉得那专家说的完全跟你相反?
看完脑子里就两个字”缺钱”

因为这个名字是他给的

蛤铪?
这位不喜欢通用商业方案

知乎大神还认为因为美国使用货架产品,长期一定吊打全定制的国产产品呢。
你这就乱讲了,设计超级电脑什么时候需要大多数国人来做决定了?

你我不懂、街头巷尾的人不懂是没错,你觉得设计神威·太湖之光的人也不懂?

真是只要屁股不要脑子。

大哥,不是大部分国人,是绝大部分地球人都根本不了解这个东西好吗

超算反超太湖之光,老外似乎挺高兴的http://www.bilibili.com/video/av24760683
哭穷要钱的了解一下。
不要分支预测之类的可以理解,码农和编译器费点劲,不要缓存是啥思路

你是再说显卡挖矿和专业矿机区别么
想要靠市面上既有成熟产品来堆砌出超过中国人的超算是费力不讨好的,必须软硬件结合设计,必须要更多经费!
快打钱!

大概就是这个意思?

神系列都是吗?逼格很高啊
神舟,神龙,神光,神威

虽然编造了linpack无用论、超算闲置说来安慰自己,但是连续三年屈居老三,憋着这股气不是靠yy可以发泄的。

—— 来自 HUAWEI SHT-AL09, Android 8.1.0上的 v2.0-play

内存强而有力直接全速流水不需缓存

听闻19年就可以了。

高兴的要命,昨天晚上陪一个外教喝酒,不停的叫 MAG ,MAG,我们赢了中国,川大好棒棒滴。。。。。