» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[业评] +++++++++我也搞不懂,晚出一年半的的主机,性能怎么反而还落后?

时过境迁来回顾X360和PS3架构很有趣

翻到一些旧文,供各位参考
引用:
龙或虫?Xbox360与PS3 CPU性能深度剖析 - 2005年7月
www.pconline.com.cn/diy/front/evalue/cpu/0507/663305.html

编者按:Anand Tech这篇文章,原文题目为Microsoft's Xbox 360 & Sony's PlayStation 3 - Examples of Poor CPU Performance,6月29日于Anand Tech网站刊登,当日上午就被移除。为什么被删除,这不是我们要深究的;只是这个论题确实值得一看,目前我们所能了解的信息都表明Xbox 360和PS3性能都空前强大,缘何Anand Tech如此评价它们的CPU性能?编者在Google的缓存中找到了这篇文章,我们来仔细看看Anand Tech的观点。

建议读者将本文与Anand Tech 6月24日发表的另一篇文章Microsoft's Xbox 360, Sony's PS3 - A Hardware Discussion联系起来,以便于理解本文中某些表述。

1.前言

  我们曾经对目前炒得沸沸扬扬的两款次世代游戏机进行过讨论,并得出了一些结论。文章分析了对Cell处理器及其物理计算加速能力的一些误解,并对两款游戏机使用的GPU进行了探讨。总之,Xbox 360和Playstation 3是旗鼓相当的两款产品。

  Xbox 360的Xenon CPU拥有3个通用特性的核心,而PlayStation 3只有一个。而游戏开发者通常只会使用一个内核,承担游戏中的计算,场景处理等工作。Cell处理器的强大性能来源于它的7个 SPE(Synergistic Processing Elements,协处理单元)组成的阵列;这些SPE的用途是固定的,范围比想象中要小。而Epic Games的首席开发师对充分利用Cell处理器这些SPE阵列有比较中肯的看法。

  我们还对次世代机型的GPU进行了探讨,比如 PS3使用的NVIDIA RSX核心,它极有可能仅是一个高频版的G70 GPU。在本文中还将对这个问题作进一步探讨。而Xbox 360所用的Xenos GPU,笔者认为只是一个24管线版本的R420。尽管Xenos集成了10MB的嵌入式 DRAM,预期它的性能和RSX不分伯仲;这也表明,虽然两款家用游戏的架构截然不同,但它们之间的差别很小。

  因此,笔者可以断定两种游戏平台的性能也会非常接近。在前面的探讨中,没有提及有一个非常重要的因素——把这两个平台与目前的PC架构进行对比。之所以说这个因素重要,是因为通过比较,能为评估下一代游戏机性能提供参考的尺度。我们知道现在外界都在说,这两台新游戏机的游戏性能远超过今天的任何一台PC,甚至今后几年的PC都无法超越它们。那我们就来仔细分析一下,验证这些说法的虚实。

  笔者也曾和部分游戏开发师进行了交谈(基于种种因素考虑,在此隐去他们的姓名),他们都有Xbox360和PS3的开发工具以及第一手的开发经验,问及他们对这些游戏机的看法,它们是否真的像传闻中那样比PC的性能还要优越。答案其实可以套用一句老话来表述:无论何事何物,始终一分钱一分货(as with anything, you get what you pay for)。

2.上一代机型的教训

  第一代Xbox对于家用游戏机来说,迈出了相当重要的一步,它是第一台与 Windows PC非常相似的游戏机。它使用128KB二级缓存的Pentium III 733MHz,搭配NVIDIA nForce芯片组的修改版本(nForce芯片组原为AMD Athlon XP设计,通过修改才能支持Intel Pentium III架构)。nForce芯片组集成了GPU,代号为NV2A,性能与GeForce3相近。系统还配有5X PC DVD-ROM,8GB IDE硬盘,游戏手柄也被设计成专用的接口,通过USB数据线与系统相连。

  总的来说,游戏开发者们对第一代Xbox都非常满意。Xbox的CPU、GPU以及整体系统性能都超越了过去的游戏硬件系统。当然,随着时间的推移,开发师们也会遇到Xbox的性能瓶颈问题。

  其中一个最大的瓶颈,是Xbox的64MB内存。游戏开发者曾要求使用128MB内存,主板上甚至还留有额外64MB内存的焊接位,但基于成本控制考虑,零售版Xbox还是只有64MB。第二个问题是NV2A GPU所提供的填充率和显存带宽未能满足高分辨率的要求,导致Xbox无法成为一台支持高清的游戏机(HD console)。尽管Intel为Xbox定制了一枚Pentium III/Celeron的混合体,既控制了成本,又提高了性能。但在发布之后,这枚核心频率只有733MHz的CPU,很快被证明在大型游戏中成为性能瓶颈。

  GPU和CPU的限制,使许多游戏的速度都只能跑30fps,只有部分复杂程度相对较低的游戏才能跑60 fps。分屏运行Halo时的速度,某些场景甚至低于30fps。随着Xbox上开发经验的积累,开发师们也对Xbox的性能瓶颈提出了许多创造性的解决方案。不过,大多数开发师都对Xbox的后续版本寄予希望,他们都希望后续版本能修正上一代的一系列问题。PlayStation 2也遇到了类似的情况,不过可能更为极端(比如PS2的4MB帧缓存)。假设xbox360和PS3确实取得了革命性突破,吸取了上一代机型的教训,满足了游戏开发者们的要求,那它们也肯定能解决上面的问题。

  次世代机型其中最重要的一项变动,就是把系统内存从64MB加到 512MB,Xbox360比上一代增加了8倍内存,PS3则是12倍。其次是GPU的性能也得到大幅提升。按照6-12个月的产品周期,GPU历经4年的发展,性能已变得非常强大。从图形的角度来说,次世代机种最大的突破,是将高清晰(HD)分辨率带到游戏中。当然还有其它非性能方面的改进,包括无线手柄、全方位多声道支持等等。PS3还采用了蓝光技术,增大了游戏光盘的容量。

  接着我们来看看次世代机种的CPU性能。Xbox360和PS3都搭载了多核心CPU,“将游戏的物理性以及真实性提高到前所未有的高度”。遗憾的是,笔者发现,以多核心CPU构建的游戏世界,反而在很大程度上是以性能牺牲为代价的

3.系统架构问题

  Xenon和Cell处理器本质上都是IBM PowerPC架构的改良核心版本,它们构造都极为简单,这在我们之前的讨论中可以看到。核心本身是一个2-issue in-order执行单元,集成64KB L1缓存(32KB指令/32KB数据),1MB(Xenon)或512KB(Cell)L2缓存。支持类似Pentium 4超线程的SMT,可以同时执行2个线程任务。Xenon CPU集成了三个这样的核心,而Cell则是单核心。(fallen注:AnandTech将这些核心形容为very narrow
2-issue in-order execution core)

  3核心的Xenon,核心面积比90纳米的Pentium4还要小。目前还不知道确切的数字,大概为Prescott核心的一半左右。而据IBM宣称,Xenon CPU优异的峰值浮点性价比,将最大程度节省微软xobox360的成本,这也正是微软所需要的,无怪乎微软会采用IBM的方案。

  当我们看到微软和SONY都“天真地”极力吹捧、比较Xenon和Cell两者谁的浮点性能更出众之时,人们都忽略了更为重要的东西——次世代机种的真实性能。

  据笔者目前所了解,Xenon CPU的真实性能,只不过是第一代Xbox的Pentium III 733MHz的2倍左右。如果未来4-5年xbox360都采用这个CPU,那只能用失望来形容了。在最理想的状态下,Xenon的浮点增效器,也只有 Pentium 4的1/3速度。

4.性能低下的原因

  Xenon和Cell所采用的核心(very narrow
2-issue in-order execution core),拥有非常长的流水线(Cell的PPE整数流水线深度为21级,时钟周期间隔为11个FO4延迟),但明显分支预测的设计并没有达到最优化程度。总之,一分钱一分货,一个这么小的核心,性能也就和Athlon 64或者Pentium 4差不多了。(PPE,即Power Processor Element)

  Cell的情况更甚,它只用了一个这样的核心,SPE阵列在大多数情况下都一无是处,平白浪费核心空间。(fallen注:SPE,即Synergistic Processor Unit,每个集成256KB Local Store SRAM;大家看到这里别激动,接着看下去,下面说到SPE为什么一无是处)

  我们曾提到,尽管Cell运作过程中的分支繁多,还是可以对Cell SPE的冲突检测功能进行加速。缺少分支预测功能,对于SPE来说影响不会很大,因为大多数的冲突检测分支都是随机的,即使用最好的分支预测机制也无法作出预测。因此,SPE即使没有分支预测功能也无关紧要,但每个SPE的Local Store SRAM太少,极大的影响了性能。在访问主内存之前,SPE会在总线上发出DMA请求(或者由PPE发送这个DMA请求),等待请求被执行。据使用过 PS3开发工具的程序员称,这个“发送-等待-执行”的过程,在许多实际应用中非常耗时。Local Store SRAM容量过少,限制了SPE处理任务的能力,物理运算和很多其它的重要处理都无法得到加速,浪费了SPE的加速功能。

  此外,即使SPE阵列完成了物理运算,输出了运算结果,整体性能低下的PPE又成为瓶颈。这就好比性能强大的GPU缺少相应的CPU与之搭配一样

5.关于多线程问题

  我们也向游戏开发者问到,他们愿意用Xenon(Xenon集成3个通用核心),还是Cell(1个通用核心+7个专用SPE)?大家都不约而同选择了Xenon

  据一些跨平台开发者透露,考虑到编程的难易程度以及SPE的限制性等因素,对于开发者来说,xbox 360显得更为友好;但它仍然未能满足开发者的要求。最为讽刺的是,开发者们还指出,如果这些次世代机种中使用Athlon 64或者Pentium D,那微软或者SONY都能在CPU性能的竞争上取得优势

  开发者们普遍认为,多线程游戏引擎是未来的发展趋势,但至少要3-5年后才能成为主流。微软自己也承认,尽管Xbox 360的设计支持4-6线程,但开发者的游戏引擎开发工作都是基于单线程(最多两个线程),而不是4-6线程。

  即使未来的多线程游戏得到迅速普及,并向2-4线程发展,游戏中的大部分运算处理还是在单线程下完成。或许到了Xbox 720和PS4浮出水面的时候,到了没有人再用单线程开发游戏的时候,多线程架构时代才会来临。

  总之,次世代机种的多线程处理能力对性能提高并没有太大的帮助,游戏开发者们对它们的CPU性能并不满意

6.关于浮点性能问题

  微软反复不断的吹捧Xenon CPU的峰值理论性能。自Xbox 360和PS3发布以来,我们只看到微软在说它的1TFLOPs(1 trillion floating point operations per second)浮点性能,而SONY宣称Cell能达到2TFLOPs。然而,单纯比较这些数字是毫无意义的,原因何在?我们下面来分析一下。

  首先,对于浮点运算,没有准确的定义,可以是两个浮点数值相加,可以是两个浮点数值的数量积,也可以是计算一个浮点数值的补数。任何在浮点处理器(FPU)上的操作都可以称之为浮点运算。

  其次,微软和SONY的数字,指的都是整个系统的性能,包括CPU和GPU。显然,GPU的浮点处理能力对于通用型代码或者类似的指令是毫无意义的。正如我们在PC市场上所看到的,GPU的浮点性能和它在3D处理上的完全性能相差甚远。

  再次,当它们对外宣传峰值浮点性能的时候,对某些影响浮点性能因素只字不提。每秒钟所能处理的运算数量实际上是取决于每秒钟能有多少运算被提交到FPU 中进行处理。这意味着,必须有足够的带宽来满足FPU的需求,没有错误的分支,100%缓存命中率,正确的代码架构,保证FPU时时刻刻都获得最大量的运算处理请求,这样FPU才能输出峰值性能。我们知道这并不可能发生,游戏开发者们已指出,Xenon CPU的性能甚至还不如Athlon 64或者Pentium 4;更不用说要达到输出峰值性能要求的条件是多么不现实的事情:缓存容量太大,以致于总会有那么一次,一个内存请求操作要等上数百个时钟周期后才被执行,这时候根本不会进行任何浮点运算。

  因此,或许在极端情况下Xenon CPU能够达到峰值性能,但在实际应用中不会发生这样的情况

  而Cell的PPE核心和Xenon当中的PowerPC内核相同,它同样达不到它的峰值性能。据我们所知,游戏开发者发现很多任务都不能用SPE进行处理,而Cell的浮点性能优势来源于SPE阵列,那么如果SPE都没有被使用,它的峰值性能再高又有什么意义呢?

  再从另一个角度,Pentium 4和Athlon 64的整数加延迟(integer add latencies),看看浮点性能的对比。Pentium 4有两个双泵式ALU,每个ALU在一个时钟周期内可以处理两次加运算,合起来就是每时钟周期4次。因此,一个3.8GHz的Pentium 4每秒钟能进行152亿次运算。Athlon 64有三个ALU,每个ALU每时钟周期运算一次,一个2.8GHz的Athlon 64每秒钟能处理84亿次运算。按照次世代机种的逻辑,Pentium 4比Athlon 64快两倍,而双核心Pentium 4也比双核心Athlon 64快。大家也知道事实并非如此。没有代码是全部由加运算组成的,即使有这样的代码,最终Pentium 4和Athlon 64都需要从内存中读取数据,此时,Athlon 64的读取延迟远低于Pentium 4。总之,不管这些数字有多大,它们都和性能无关。对于次世代机种来说也一样,不要相信峰值浮点性能这一套。

7.微软和SONY为什么要这样做

  SONY的Cell处理器,与PS2用的Emotion Engine大致相同,至少在概念上是相似的。浸淫游戏业界多年的SONY自然会对PS2/PS3的发展思路把握得非常到位,这种把握也与业界其它竞争者的想法暗合。SONY过去所取得的成功,并不是因为游戏机的硬件配置,而是来源于游戏开发者的努力和那些PSX/PS2平台的独家大作。单凭一款热卖游戏,就能带动数以百万计台游戏机的销售。据统计,SONY拥有的热门游戏,远多于微软在第一代Xbox上的数量。

  PS2的销量是Xbox的四倍之多,不管硬件平台性能如何,游戏开发者都不会放弃PS2平台下的游戏开发-毕竟它的市场太吸引人了。因此,即使Cell对于他们来说可能很陌生,甚至不受欢迎,但他们还是会朝SONY狂奔而去。

  微软倒是做得非常出人意料,在第一代Xbox之时,它还能认真听取游戏开发者的意见和建议;可是这一次,不管微软对外如何宣称,Xbox 360的CPU架构却并不是游戏开发者们所需要的那种架构。

  游戏开发者们是需要多核心CPU,但不是像现在这种在单线程上的表现反而还退了一大步的产品。在AMD和Intel向多核心设计转换的过程中,它们付出的代价只是区区核心频率的降低,而不是技术架构上的退步。

  我们怀疑微软之所以选择Xenon,很大一部分原因在于Xenon小巧的核心面积;核心面积越小,成本就越低。如果微软真的决定把Xbox 360的价格定在299美元,那Xenon CPU将是使之成为可能的重要原因。

  另外一个重要的原因可能是,微软曾经想自行生产Xbox 360所使用的芯片。我们十分怀疑AMD或者Intel会同意授权给微软去生产Athlon 64或者Pentium 4。那剩下只能是IBM了,它可能会同意Intel的条件,当然只限于这一个特定的芯片。

  不管什么原因,没有一个和我们交流过的开发者认为微软使用这种芯片是正确的选择。


8.GPU是救命草?

  尽管微软和SONY都走大力吹捧它们的CPU,开发者们都对次世代机种的GPU性能表示满意。

  首先来看看NVIDIA为PS3研发的RSX。我们曾经讨论过RSX将顶点的处理工作转给Cell的可能性,但仔细分析,情况并不是这样的。RSX实质上可能是90纳米版的G70(wow,90纳米啊!),支持Turbo Cache,频率为550MHz,性能非常不错。在之前的讨论中,并没有提到的一点是,为提高良品率,G70可能被屏蔽了部分管线。而转向90纳米生产之后,可能会重新启用这些管线,在晶体管数量不变的情况下,也能使RSX拥有更高的性能。SONY可能暂时不愿透露RSX的实际管线数量,事实上它至少要等到正式量产的良品率确定前的几个月才知道确切的数量。

  虽然PS3可以支持1080p,大多数开发者都选择720p作为PS3游戏的标准,而且不会支持1080p。如果只是将现有的游戏移植到PS3平台,可以运行在1080p分辨率下;但如果是真正的次世代游戏,PS3也无法提供能在1080p下渲染所需的填充率。

  虽然PS3不像Xbox 360那样支持“free 4X AA”,但在某些情况下分别并不大。那些使用超长象素引擎指令程序的游戏更依赖于象素引擎的性能表现,而不是显存带宽的高低;因此no AA和2X/4X AA的性能差别会非常小。可能也就那么几个游戏会使RSX也疲于应付,在打开AA的时候,性能也肯定会相当损失。

  总之,RSX缺乏内嵌DRAM对性能所造成的影响与否,完全取决于游戏所使用的引擎。大量使用长象素引擎指令的游戏,受AA影响的程度远小于那些依赖纹理处理的游戏。在这一点上,游戏开发者的意见分歧比较大,很难用一两种观点来概括。

  ATI的Xenos GPU看上去也很不错,大多数游戏开发者预期它的性能与RSX相近,但至少还得等上一两个月才能拿到有相关的开发工具。开发者们最近收到了更接近于最终成品的Xbox 360,他们将使用G5的开发工具来对比Xenos和R420的实际性能。由于这套开发工具的性能相对较低,开发者们还需要点时间才能得出结论。

9.结论

  PC业界多年沉淀的经验告诉我们,性能不是凭空出现的,峰值性能是近乎遥不可及的空中楼阁。这对于次世代机种的CPU和GPU同样成立,市场炒作只是为了迷惑消费者。

  这也正是本文对Xbox 360和PS3进行分析的主旨。一方面,各种市场推广把Xbox 360炒作得比它的实际性能还要强。另一方面,很多开发者指它的性能比预期的还要低。


  次世代游戏物理系统的发展至少还要再过4-5年才能再上一个台阶;而PC游戏的发展可能会更快一些。

  值得一提的是,次世代机种所使用的GPU可能是其最具潜力之处;正如我们在NVIDIA G70上所看到的一样,我们看好Xbox 360和PS3的GPU;高清分辨率支持就会成为次世代游戏的一大亮点。

  当然,次世代机种还有其它方面的进步。尽管CPU性能相对较差,它们仍然比上一代要快,改良的系统内存架构给予开发者更大的自由度。还有无线手柄的引入、更完善的网络对战可能以及新的游戏引擎等等,这些将带来更好的次世代游戏体验。

  总之,次世代机种的性能应该还要再好一些才行。它们的出现,并不意味着PC游戏将走向尽头;这和当年Xbox/PS2的情况没有太大的分别,家用游戏和PC游戏将会继续共存,家用机更容易为人们所接受,而PC则会占有一定的性能优势。

  在不久的将来,搭载性能更强大的CPU和GPU,再加上开发者的努力,我们所期盼的高清分辨率游戏也会在PC平台上出现。次世代机种将加速多线程游戏的发展,而对于游戏物理系统、AI以及其它非视觉效果,它们的实质性发展则需要PC游戏开发者的努力了。

  fallen的话:Anand Tech的观点大部分都基于游戏开发者对次世代游戏机的开发体会,很多信息在成文之时,都是第一手资料。无论Xbox 360和PS3目前还没有正式上市,最先推出的Xbox 360也要等到10月份。无论它们最终的实际性能如何,Anand Tech这篇文章无疑为我们审视次世代游戏以及PC游戏提供了新的视角。


TOP

引用:
原帖由 狂风007 于 2008-8-5 01:13 发表


既然能做出3满分的MGS4,那就说明PS3的开发虽然困难,但是也并不是那么糟糕
花5千万,几百人作出一个满分的软件卖200万

花1千万,30人团队作出一个8/9分的作品,卖600万

如果你做为一个正常的商人,你选哪个?



TOP

引用:
原帖由 恨水无痕 于 2008-8-5 00:23 发表
既然有简单便宜的办法,为何要强迫别人走远路?
现在就算拼命去做,最多也只和360画面相近,但成本多出很多,厂商不会那么傻吧


TOP

引用:
原帖由 狂风007 于 2008-8-5 00:32 发表
找到了
http://forum.beyond3d.com/showpo ... 4&postcount=569
属名JOKER454的业内原先是跨平台制作人,他们的作品因为没找到发行商,现在是某PS3独占作品制作人。

也许不让人高兴,但现实是最好不要 ...
延时渲染也不是什么特别高深的技术,几个引擎大厂完全做的出来,如果ps3的延时渲染能力完全能满足应用,估计引擎早出来了。事实上延时渲染需要大量显存做帧缓存,ps3只有256m固定显存,360是256m左右浮动,大家明白了吧。。。说穿了ps3还是性能不行

TOP

神机太高估CELL了,设计当初连RSX都是不存在的,两个CELL模拟地球啊

TOP

引用:
原帖由 红叶 于 2008-8-5 05:02 发表
神机太高估CELL了,设计当初连RSX都是不存在的,两个CELL模拟地球啊
还模拟地球啊~~~~~你这人是不是打算死活丢脸到底啊~~~~

TOP

引用:
原帖由 狂风007 于 2008-8-5 00:21 发表
还没搞懂?

开发环境的问题

XO开发环境和PC类似.厂家熟悉而且更便宜

PS3开发需要另外一套软件环境,厂家要花更大的成本去优化

所以全平台游戏厂家肯定以XO为蓝本做,这样效率更高更便宜
PS ...
船长画质甚至不如完美黑暗
也许你不愿承认:D

TOP

根据IBM放出来的风声,由东芝,IBM和索尼共同开发研制的使用在PS3上的CELL芯片已经进入最后的完成调试阶段,设计基本已经完成。制作样品来进行重复大规模测试。2004年底投入大规模商用生产,2005年就可以正式全面发售了。开发人员得意洋洋地扬言CELL的1 tera flops的性能是P4 2.5GCPU的活活一百倍。 IBM的发膘了,Intel该如何对应,让我们拭目以待

TOP

XO:一切都是为了游戏而设计
神机:大部分都是为了推广硬件而拼凑

XO:以软件为中心,硬件为辅
神机:为硬件为中心,软件为辅

TOP

引用:
原帖由 上杉不谦信 于 2008-8-5 06:00 发表

还模拟地球啊~~~~~你这人是不是打算死活丢脸到底啊~~~~
谁叫久多E3 05上要把一台游戏机和超级电脑进行类比呢?

虽然不是模拟地球,久多的原话就是PS3能模拟出来虚拟现实,就好像matrix那样

结果久多嘲笑的xbox1.5反而游戏的画面效果比PS3,久多的诸多大话也成为笑料

不过这就可怜你跟屁虫般的一个一个的替已经退休的久多老爷爷来辟谣啊,不过更可怜的是PS3现在已经模拟地球了,Life with Playstation马上就上线了

google一搜ken kutaragi ps3就可以搜出来一堆有出处的搞笑采访

http://en.wikipedia.org/wiki/Ken_Kutaragi

http://www.cnet.com.au/games/ps3/0,239035763,240054965,00.htm

E3 05发布会来啦~~~~
http://www.youtube.com/watch?v=JuGeukimhuc
从第十分钟开始看,精彩啊
第十三分钟
2Tflops within the system, with this supercomputer power
我们可以walk in然后分辨不出来real world和computer generated cyberworld
再看第十九分钟开始的宣传短片,这不是宣传模拟地球那还是什么?打滚ing
后面的树叶demo和鸭子demo,cell的模拟能力强大到出汁啊
再从1小时开始看,Phil上场,单个Cell模拟全3D真实地形不用RSX
然后1小时20分钟和田洋一出场
最后的游戏CG demo,精彩无比,湿到爆炸

TOP

个人认为主要还是PS3的GPU差了点,sony为了推蓝光,但又不至于成本过高,所以只能使用阉割版的GPU了。

TOP

主要就吃亏在GPU上了~~

TOP

显卡和xo是一个档次的,可用内存还比xo少,性能能比xo好才奇怪呢

TOP

图形芯片是渣啊,G7X残废构架还是阉割的

要是晚一年而换成G80构架的,显存直接上512M,肯定比现在好不少

TOP

事实上不管是索尼,还是微软谁不想用更强的芯片!更多的显存,更强的载体阿?
可是你的考虑成本阿!
说一千倒一万!硬件厂商最后还要考虑是否盈利的问题吧!否则的话干脆把最高
的图形工作站装再一个盒子里上市卖,然后秒杀一切不就完了!可是那样可能吗?

TOP

发新话题
     
官方公众号及微博