打印

[业评] 次世代XBOX估计在架构上又是要玩四两拔千斤大逆转的戏码了~

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

1^# 大中小发表于 2013-3-15 09:09 显示全部帖子

引用:

原帖由 bsseven 于 2013-3-15 06:54 发表
这么小的CACHE对于GPU来说基本就是个摆设

对于异构运算来讲，不尽然。。
http://wenku.baidu.com/view/2be3983a83c4bb4cf7ecd152.html
中文的，我也只是看了我自己懂的部分。。

这方面720可能会有较大优势。。

引用:

原帖由 boboqpai 于 2013-3-15 03:33 发表

意思是说“泰坦”这样的怪兽使用小小容量片内超高速缓存+GDDR5已经遇到严重瓶颈，拭目以待。

另说一下使用低带宽的ddr3还必须要用到类似data move enjine这种技术，否则不能满足各模块带宽需求。

反过来想想看，ms作为图形标准制定者，为了面向未来以gpgpu based渲染方式，以后的显卡都带cache也说不定。。
再以后的显卡，甚至rop也会取消掉。。gpu会做得越来越像cpu。。

[ 本帖最后由倍舒爽于 2013-3-15 09:17 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

2^# 大中小发表于 2013-3-15 12:36 显示全部帖子

引用:

原帖由 shinkamui 于 2013-3-15 12:27 发表

那个不需要多少，一，这是分tile的，哪怕是pc显卡每个cu那么小的共享cache都够放。二，总量不过是一块屏幕分辨率这么大的图，就算全高清全部加起来也不过几M而已。三，寒霜2的gi是预计算的，不需要gpgpu，直接读显 ...

记忆中是有的。。
还有justcause2也是本世代罕有把直接计算利用到图形上的游戏。。
搜了下：
http://www.pcgameshardware.com/aid,699698/11-Days-of-DirectX-11-AMD-interview-with-Battlefield-developer-DICE/News/

更正下：
fb2是有的，但bf3就不一定。。
因为一开始bf3的企划本来是不向主机妥协的，但到中期屈服了，规模也更改了~
相信bf4才能真正体现到fb2的实力吧。。

[ 本帖最后由倍舒爽于 2013-3-15 12:39 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

3^# 大中小发表于 2013-3-18 16:40 显示全部帖子

posted by wap, platform: iPhone

引用:

原帖由 @你老闆于 2013-3-18 15:12 发表
藍寶石牌的,應該超了(1075MHz),不過原版頻率估計也比傳聞的800高就是,當然微軟可以考慮下提到1000,如果傳聞的800是真的

没超，原文也这么说了，gpuz也显示了
另外如果ｖｇｌ的例子属实的话，全负载下的带宽能去到13xgps，比这所谓的7790还要快

本帖最后由倍舒爽于 2013-3-18 16:42 通过手机版编辑

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

4^# 大中小发表于 2013-3-19 01:52 显示全部帖子

引用:

原帖由 你老闆 于 2013-3-18 18:14 发表

超了,那表都寫著7790OC
你說那個是DDR3的,我是說ESRAM的102.4,不過是改進版也不奇,畢竟720的GPU似乎是256bit,普通7790還是128

这我就很不理解了，因为tom是这样写的。。
so much so that AMD has apparently asked manufacturers not to release overclocked versions of the card for fear of it surpassing and consequently crippling sales of the HD 7850. This implies that the Bonaire XT GPU holds a lot of potential for overclocking, something that we are always exited to see.

再个7770都已经有1g的频率了，1075相对而言也算正常吧。。
而且按惯例，amd的型号十位数代表频率级别，百位数代表流处理器数量级别~
至于位宽区别也不用管了，刚好和esram的带宽相似也我觉得巧合而已，内存架构完全不同，应没什么关系的。。

如果想以单纯的带宽来逆推处理器计算能力的话，那么720的gpu还应该比7790更快才是，因为前者能达到13xgps
这个当然不是单纯d3的，是esram和d3在gpu满载时的合计带宽~

[ 本帖最后由倍舒爽于 2013-3-19 01:54 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

5^# 大中小发表于 2013-3-19 02:26 显示全部帖子

转篇东西，挺有意思。。
gaf几位提到的100%cu利用率该不是空穴来风。。

Why is it important to measure it?

The latency of the main memory directly influences the efficiency of the GPU, thus its performance: reducing wait time can be more important than increasing execution speed. Unfortunately, memory has huge latency (today, by a factor of 100 or more): A GPU waiting for 100 clocks for data would run at 1/100 efficiency, i.e. 1% of theoretical performance!

Modern GPUs have internal "memory caches" that mirror instructions/data from main memory but at far lower latencies; they allow the GPU to get data much faster and thus increase efficiency. Unfortunately the faster the cache the smaller it needs to be, thus modern GPUs contain various cache hierarchy levels (L1, L2, L3) that get progressively bigger but slower.

Memory is not only differentiated by the speed it runs at (MHz) but also its type (e.g. DDR3, GDDR3, GDDR5, etc.) and also the timings (command latencies) it supports (e.g. tCAS/CL, tRP, tRCD, tRAS, etc.). The lower the timings the lower the overall latency of memory.

http://www.sisoftware.net/?d=qa&f=gpu_mem_latency
我那边需要爬墙才能看到全文。。否则只能看一半。。

[ 本帖最后由倍舒爽于 2013-3-19 02:30 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

6^# 大中小发表于 2013-3-19 17:25 显示全部帖子

引用:

原帖由 讴歌123 于 2013-3-19 13:32 发表

那为何老黄的旗舰卡Titan还是用6G GDDR5，不用GDDR3+ESRAM？

显然MS和SCE的出发点是不一样的，MS一开始设计720时就以8G RAM（容量）为目标，各方面权衡妥协之下用了DDR3+ESRAM。而SCE一开始设计PS4时就以统一内 ...

是的，我开始也是这样想的~
1.对于传统渲染的带宽诉求来说，df也认为esram+d3就是一个sticking plaster solution，
是在低成本下追逐gd5带宽的一个方案。。
并且fxaa的发明者也认为esram的配置在延迟渲染上有诸多瓶颈~

2.但后来根据shin兄的方向，自己找了点资料，这有不确定因素。。
gpgpu运算是未来。。
且amd最重要的任务是推广hsa，必须要找到一条出路和两家侧面竞争，传统的gpu，cpu已经没法战了~
但hsa除了硬件架构外，首要的是软件跟得上。。
但是amd的下游推广能力，普及能力乃至pr都无法和两家比较~差了n个档次，这个大家都懂得。。（我搜了一圈居然没有hsa的中文讲座）
opencl作为开源api却远落后于cuda的步伐就是一个例子~~
目前pc市面上的apu光有理念却无实际应用也是一个例子，，

那么目前最方便有效推hsa的方式便是从游戏机下手，也跟游戏机商的换代诉求不谋而合、、
那么综上所述，这里就涉及到新版本的dx架构以及标准的制定~ms自己也必须为未来的dx找一个gpgpu架构方案。。
我们目前的pc乃至移动终端应用也确是如此，99%的非游戏应用都不需要gpu，实则是很浪费的，就算有应用也不过是ui方面的加速罢了。。
想象一下以后开个网页都能利用到gpu真是蛮爽的。。
esram可能是以后pc架构的某种变种存在也不一定。。
别拿xo的edram做例子，这完全两码事呢。。

注意一点是，hsa的应用不是为了追求超高性能，而是为了追求超高效率~

以后的windows任务管理器可能除了有cpu占用显示外可能还有个gpu占用。。

所以这里产生一个amd和ms可能是他们史上最大的依存关系，这是sony和amd所没有的~
在这之下产生的硬件。。。我觉得不应该看得这么单纯的。。
另外hsaf还有个重要成员就是arm~

当然，今次sony也不是省油的灯，作为不是sony员工却是ps4的首席架构师mark cerny，能有这种特殊位置，只有神级人物才有资格~
有别于当年ps3以日本团队为基础而开发，过于超前判断图形应用的错误不会再犯了~

这里有个abc的hsa讲座，无字幕，基于本人那点知识水平和听力水准~只听了点皮毛。。
有兴趣可以看看：
http://api.viglink.com/api/click ... sonp_13636850756222

另外我再补充点小要素~
crytek社不是一次两次把ps720的规格置于一种不屑的态度~
但id反而很是肯定~这感觉有点微妙。。
作为两大拳头引擎商，我是这样理解的~
ps720的传统渲染能力还是满足不了ct的诉求，这也意味着ct在gpgpu方面的研究还是不足，哭引擎目前追求的还是究极的光栅化渲染方式。。
但是id就不是了，据我所知，id在很多年前（比rage出来时更早）就在通用计算式的渲染方面做了很大的研究，论文也发布了不少。。

nv似乎把目光看得更遥远，相对大家都搞终端的硬件架构，他都要搞云端超算阵列了~
毕竟以后大家的终端已经不需要性能了。。

[ 本帖最后由倍舒爽于 2013-3-19 17:42 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

7^# 大中小发表于 2013-3-19 20:44 显示全部帖子

引用:

原帖由 KoeiSangokushi 于 2013-3-19 20:11 发表

ESRAM+DDR3是为了省钱接近GDDR5的效果？

拜托！XBOX360用的都是GDDR3，微软会穷的到次世代XBOX反而用带宽更小的DDR3？（同时代的GDDR3都比DDR3带宽要更高）

这也是为了追求低延迟！因为DDR3的延迟比GDDR3更低 ...

gd3和dd3.。

无力吐槽，你自己查查看为什么不可能用gd3吧。。

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

8^# 大中小发表于 2013-3-19 21:08 显示全部帖子

今时今日你去各大颗粒提供商看看还有生产gd3的？就算有产量肯定超少~

电气性能，同频下发热更低~

延迟，d3是由gd3发展过来的适应cpu的低延迟版本

gd3的带宽比d3要大？
我见过最高频的gd3为2ghz，而d3已经有2.8ghz~

[ 本帖最后由倍舒爽于 2013-3-19 21:10 编辑 ]

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

9^# 大中小发表于 2013-3-19 21:27 显示全部帖子

引用:

原帖由 KoeiSangokushi 于 2013-3-19 21:11 发表

那是因为GDDR5直接接过了GDDR3的棒
同期的GDDR3都比DDR3带宽高，延迟高
所以XBOX360使用GDDR3而不是DDR3
而GDDR5可以看作是GDDR3实质上的后续者

另外2008年那阵子GDDR3跑在2200MHz频率的很常见
诸如蓝宝石H ...

其他无意见。。
但xo那个年代也就是05年就有d3卖了？？有d3能用了？？
05年你就用上d3了？

上面那个图没看见么？d3比gd3更便宜！

别说同期不同期，就算有更高频。。也是过去式~
光说极限状态下的频率又什么意思呢？成本，散热全不考虑了？？这些都是钱！

今天的同期实际状况就是从颗粒商的产品显示gd3频率不如d3。。
是淘汰产品没什么生产，又更贵~又更热。。。

带宽的折衷方式我是照般df那话说的。。和讴歌123的理解一样，容量就是服务，容量为先！
其他一切围绕容量来寻求方案。。

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

10^# 大中小发表于 2013-3-19 21:46 显示全部帖子

引用:

原帖由 KoeiSangokushi 于 2013-3-19 21:29 发表

对，2008年999的中端卡都能上2200MHz的GDDR3
随着技术的不断退步，那只是“过去式”了，GDDR3已经只能用1600MHz的频率了
是不是这个道理？

你不能断章取义无视俺提出使用d3的其他重要因素，否则你就沦为为赢而赢为吵而吵了。。

实际状况是现在提供商的d3频率更高你无视掉，散热问题你无视掉，成本问题更无视掉。。

于显卡的采购诉求来讲，gd5都代替gd3了，造成gd3的产量极少~

是是是，我假设gd3能上更高的频率，那么厂商会因此而复产？？？
专为你一家720而复产？？？这成本你买单？？
性价比何在？？

且从技术角度来讲，gd3和d2一样是4bit prefetch架构，而d3是8bit，理论上的极限频率能做得更高。。

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

11^# 大中小发表于 2013-3-19 22:31 显示全部帖子

引用:

原帖由 KoeiSangokushi 于 2013-3-19 22:14 发表

我的意思很简单，微软当年上GDDR3是看中同期频率比DDR3高，所以能得到更高的带宽，虽然总体上讲XBOX360的带宽只有PS3的一半，但你不能否认GDDR3是当时最好的主内存选项

现在微软不要带宽了，但是有必要做到拿DD ...

你别忘了发展路线是gd3到gd4再到d3的，gd4都要比d3早。。
xo用什么？你穿越到05年买到d3再讲吧。。
关于d3和gd3已经说够了，我不想再说。。

但其余的能不能真是考究过再说？？
不可能不要带宽的！直接计算能力根本没去到这个境界。。
什么叫不要带宽！
不要带宽那是什么概念啊？
没有任何光栅化运算诉求，就是个纯种raytracer，tmu，rop可以扔掉再塞大量cu，直接插卡2d卡就ok了！！
起码再等5~6年吧。。。

纯追求低延迟吗？那直接上2000年左右的sdram啊~延迟够低了。。

连ue4都不是纯direct compute引擎，该走传统管线的地方必须也要走，并且依赖度还十分大~
你要不信可以向shin兄求证~

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

12^# 大中小发表于 2013-3-20 03:06 显示全部帖子

喂，原来黄老板那边开大会啊。。
偶简单说说吧。。
nv也要玩“hsa”不过肯定不是这么叫，反正明年黄总也要统一虚拟地址了~
到时得找arm？芯片组自己出？

原来之前传闻次世代能上的堆栈式dram要到2015年才有戏啊！！
疯狂！！显存居然能成为gpu的胶水daughter die，位宽肯定吓死人~
他们说带宽能上1tb，我操。。

其余什么为云端服务的grid对咱没啥直接关系，
几十万一台。。。开公司另说。。

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31843
精华: 0
积分: 39574
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前离线

13^# 大中小发表于 2013-3-20 08:27 显示全部帖子

引用:

原帖由 讴歌123 于 2013-3-20 02:35 发表
请各位业内点评下这篇文章的观点看呢？这么看来32M ESRAM的确蛮牛逼的么至于MS采用DDR3是为了减少延迟这种说法我看可以洗洗睡了，明显是GDDR5+ESRAM才是不差钱的终极选择……

http://vga.zol.com.cn/172/172 ...

其他不敢说。。
但此文提到的内存速度影响通用计算的部分，我存在质疑~
即时演算方面我不知道~
但是离线渲染和内存速度没什么关系，还得看内存容量，尽可能降低和硬盘数据的交换程度~

刚搜了圈补充下：

[ 本帖最后由倍舒爽于 2013-3-20 08:45 编辑 ]

TOP