» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

科普教育"硬件知识"

http://www.egchina.com/bbs/dispbbs.asp?boardID=77&ID=444111
作者 爱你一棒锤

学术喷法其实也挺没劲的,很多东西有其他渠道但是没有官方数据的,基于有限的事实确实也可以推出东西来,但是不能一锤定音确实很烦。有关c1为何是“dx9.75”这个问题以前说得很多,再赘述实在是有些无聊,完全就是板上钉钉的事情。xo出来这么久了,b3d上开发人员一大把,对这个看法也是觉得“很形象”,没人表示过异议和质疑,原因很简单,sdk在手上,dx10的官方白皮书和sdk几个月前也已经发放,比对以下一目了然。
之余rsx,这个东西至今还是云遮雾绕。看似神秘,其实也不是没有可以按图索骥的方子。既然nvidia的称呼就是Nv47,那一切表面化的东西都可以无视了,正所谓万变不离其宗,微架构不是说改就改的,既然如此那还有什么可怕的,只要推理符合逻辑自然不用担心什么大问题。
现在rsx比7800gtx 256mb版弱的事实已经明朗化,我们大家所需要知道的仅仅是他们之间的差别就可以了。最明显的差别当然就是位宽和光栅处理单元了。位宽这个东西往往被人忽略,其实我可以毫不夸张的说位宽的重要性绝对不亚于几条pipeline或者贴图单元,因为大部分时候渲染跟不上并不是你的gpu内核不够强劲而是可怜的位宽杯水车薪,这是理论值和实际性能差距很大的最大罪魁。游戏机硬件环境是封闭的不是意味着这种问题好通过“优化”来解决,恰恰是更容易造成麻烦。就目前游戏开发暴露出的问题来说,xo和ps3都存在贴图单元跟不上的问题(业内人士云),xo的带宽可以化解不少问题,而ps3就很不走运了,总系统带宽只有ps2水平,才48GB,实际上还达不到。恰恰最大的问题还不是出在cell那里,而正是对带宽很敏感的rsx那里构成瓶颈。

因为128位的带宽,加上取消pcie的rsx显存界面,现在终版rsx面临的带宽问题比起alpha kit和bate kit有过之无不及。甚至aa处理都是依靠cell而不是rsx自身,所以hdr+aa就更是奢谈,根本无从谈起。当然要是非把大于8位的浮点frame buffer都归类为hdr算我没说。乐观估计因为位宽的下降导致的rsx性能损失大体在40-60%,这个不是绝对的。应该看做一个浮动的概念,因为不是所有时候都会遇到瓶颈,比方说replay是比较好回避这个问题的。
之余rops的问题,其实c1也是8个,只不过那个古怪的东西因为有eram并rop没有什么要求,而且rop是非等效rop,功能比起正常的8个还有过之无不及,所以就不多说了。具体可以看ms官方主页Next_Generation_Graphics_Programming_on_Xbox_360.ppt上的简答gpu work介绍。rsx的rop作用和7800没什么两样,720p还是够用的,但是1080p说老实话有些勉为其难了。

c1比很多人想像的要奇妙的多,毕竟是ati动用多达175位工程师两年的心血结晶,耗资数亿美元开发。c1的eram绝对不是gpu的cache那么简单,借助us架构和cpu的辅助可以实现很多特别的,这个时代gpu无法实现的东西。比方说hdr,pc上是16位rgbe,64位9e5的range下才能实现,而xo就可以靠eram用7e3的range实现,一样的效果但是消耗的机能就小很多,而且对频宽压力也不是很大。
Next_Generation_Graphics_Programming_on_Xbox_360.ppt上可以看到,xo的非常多工作流程在借助eram来实现,eram的196个门电路也不是死的,是可编程的,就是说是可以干预的,
Alpha blending, Z testing, multisample antialiasing are all free (even when combined)。
每个周期gpu和eram会执行如下流程:
GPU: Operations Per Clock
16 bilinear texture fetches
48 vector and scalar ALU operations
Interpolate 16 float4 shader interpolants
32 control flow operations
Process one vertex, one triangle
Resolve 8 pixels to system memory from EDRAM
GPU: Hierarchical Z
Rough, low-resolution representation of Z/stencil buffer contents
Provides early Z/stencil rejection for pixel quads
11 bits of Z and 1 bit of stencil per block
GPU: Hierarchical Z
NOT tied to compression
EDRAM BW advantage
Separate memory buffer on GPU
Enough memory for 1280x720 2x MSAA
Provides a big performance boost when drawing complex scenes
Draw opaque objects front to back
没有eram这些工作压力都会放到可怜的pcie上,要知道pcie16x能提供的带宽也不过几个GB而已,对gpu来说根本不够。

xo的gpu不同于一般的gpu需要通过pcie内存北桥的复杂循环来叫唤数据,cpu的1MB L2 CACHE有专门的硬件通道交换数据,带宽高达10.8GB/S(和PS3的LOCAL MEM S/L一样了,后者的优势显然又化为乌有了)。这个通道对于xo做一些更有意思的东西大有好处,主要完成的工作有dynamic geometry, instancing, particle systems, etc.
Callbacks inserted into command buffer spin up XPS threads on CPU during rendering。看到了吧?c1支持dx10关键特性geometry shader的名堂就在这里,所以说xo可以玩dx10绝非子虚乌有。毕竟dx和xo都是ms自己的东西,这又有什么奇怪的呢?

[ 本帖最后由 小JJ和大MM 于 2006-10-8 12:32 编辑 ]


TOP

2亿晶体管的R500可以玩DX10.0,微软都否认了,LZ你就慢慢YY吧,3亿多的R580都没这么乐观。



TOP

应该说是部分DX10的特效


TOP

脑袋都看大了……

TOP

引用:
原帖由 chenmingod 于 2006-10-8 12:25 发表
2亿晶体管的R500可以玩DX10.0,微软都否认了,LZ你就慢慢YY吧,3亿多的R580都没这么乐观。
GPU什么架构跟晶体管数量多少有直接联系?

TOP

官方说法360的GPU是3亿3800万晶体管,不过这应该是算上10M eram了(微软的开发文档里是非常强调这10M eram的应用的,可以说和整个GPU是密不可分的,所以算在里面应该不为过).

支持的是Direct3D 9 plus,至于那个plus怎么理解就见仁见智了:D

[ 本帖最后由 真TMD是个粪青 于 2006-10-8 16:27 编辑 ]

TOP

引用:
原帖由 真TMD是个粪青 于 2006-10-8 16:23 发表
官方说法360的GPU是3亿3800万晶体管,不过这应该是算上10M eram了(微软的开发文档里是非常强调这10M eram的应用的,可以说和整个GPU是密不可分的,所以算在里面应该不为过).

支持的是Direct3D 9 plus,至于那个p ...
所以是9.75而不是10

TOP

这次 xbox360 设计的非常的完美 (先对于 成本,性能 的 平衡 和对游戏机特点的专门优化), 相比ps3 就象一台  diy 的 粗糙的 pc .配件 用的不合理.

TOP

引用:
原帖由 hdfeel 于 2006-10-8 17:21 发表
这次 xbox360 设计的非常的完美 (先对于 成本,性能 的 平衡 和对游戏机特点的专门优化), 相比ps3 就象一台  diy 的 粗糙的 pc .配件 用的不合理.
CELL可以模拟XX

TOP

Y能模拟地球么?
不能吧~
渣!
:D

TOP

看效果,什么都假.

TOP

分析的不错。。。。。。

但这里应该没有几个人能看懂

TOP

把xo说的天花乱坠
反正我等是无法理解的了..
反驳不能

TOP

引用:
原帖由 小JJ和大MM 于 2006-10-8 12:05 发表
比方说hdr,pc上是16位rgbe,64位9e5的range下才能实现,而xo就可以靠eram用7e3的range实现,一样的效果但是消耗的机能就小很多,而且对频宽压力也不是很大。
这是在kuso吗?低精度实现效果和高精度一样?

TOP

发新话题
     
官方公众号及微博