打印

[新闻] 【英特尔版四两拨千斤】Haswell中的eDRAM：性能提升明显价格稍贵

boboqpai

小黑屋

帖子: 736
精华: 0
积分: 9328
激骚: 200 度
爱车
主机
相机
手机
注册时间: 2004-11-8

发短消息
加为好友
当前离线

31^# 大中小发表于 2013-4-29 14:39 只看该作者

引用:

原帖由 shinkamui 于 2013-4-29 14:26 发表

真心不知道你在说什么。没写过的话，至少去看看例子。最简单的比如nbody，blur之类，看看性能是怎么提升的。

直接说关键了，读写缓存方面的开销，Cerny提到了这个。

TOP

shinkamui

混世魔头

帖子: 2497
精华: 0
积分: 15356
激骚: 141 度
爱车
主机
相机
手机
注册时间: 2006-2-2

发短消息
加为好友
当前离线

32^# 大中小发表于 2013-4-29 14:45 只看该作者

引用:

原帖由 boboqpai 于 2013-4-29 14:39 发表

直接说关键了，读写缓存方面的开销，Cerny提到了这个。

说了半天你还是没搞过，shader根本不存在什么前端后端的。看看书明白了再出来说话会死么？非要不懂装懂。

cerny的读写缓存开销分两点，一个是set device资源，一个是device计算时读写资源，就是更加说明了大缓存的重要性。

TOP

boboqpai

小黑屋

帖子: 736
精华: 0
积分: 9328
激骚: 200 度
爱车
主机
相机
手机
注册时间: 2004-11-8

发短消息
加为好友
当前离线

33^# 大中小发表于 2013-4-29 14:51 只看该作者

引用:

原帖由 shinkamui 于 2013-4-29 14:45 发表

说了半天你还是没搞过，shader根本不存在什么前端后端的。看看书明白了再出来说话会死么？非要不懂装懂。

cerny的读写缓存开销分两点，一个是set device资源，一个是device计算时读写资源，就是更加说明了大缓存 ...

Cerny的意思不是直接在内存set device？绕过缓存。

TOP

shinkamui

混世魔头

帖子: 2497
精华: 0
积分: 15356
激骚: 141 度
爱车
主机
相机
手机
注册时间: 2006-2-2

发短消息
加为好友
当前离线

34^# 大中小发表于 2013-4-29 15:09 只看该作者

引用:

原帖由 boboqpai 于 2013-4-29 14:51 发表

Cerny的意思不是直接在内存set device？绕过缓存。

没法跟你说了，先去看dxsdk弄明白管线流程再说吧

TOP

boboqpai

小黑屋

帖子: 736
精华: 0
积分: 9328
激骚: 200 度
爱车
主机
相机
手机
注册时间: 2004-11-8

发短消息
加为好友
当前离线

35^# 大中小发表于 2013-4-29 15:30 只看该作者

还是看实际效果吧，720的esram并不是本地缓存，ps4的做法也是第一次，都不知道效果怎样。

TOP

shinkamui

混世魔头

帖子: 2497
精华: 0
积分: 15356
激骚: 141 度
爱车
主机
相机
手机
注册时间: 2006-2-2

发短消息
加为好友
当前离线

36^# 大中小发表于 2013-4-29 15:33 只看该作者

引用:

原帖由 boboqpai 于 2013-4-29 15:30 发表
还是看实际效果吧，720的esram并不是本地缓存，ps4的做法也是第一次，都不知道效果怎样。

这个倒是说的没错。我也只是说大缓存非常有用，不过720的esram到底咋样，反正我是不知道……

TOP

來福時代

魔王撒旦

帖子: 5625
精华: 0
积分: 7738
激骚: 227 度
爱车
主机
相机
手机
注册时间: 2011-4-27

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

37^# 大中小发表于 2013-4-29 16:15 只看该作者

以技术砖家的装模做样的口吻来吐一些技术盲一样的观点，这贴真是有趣娱乐得紧啊 :D

TOP

FXCarl

魔头

帖子: 1344
精华: 0
积分: 21010
激骚: 258 度
爱车: Lynk&Co 03
主机
相机
手机
注册时间: 2005-8-22

TGFC 2015新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

38^# 大中小发表于 2013-4-29 21:33 只看该作者

我是不觉得内存泄漏和统一架构有什么关系，顺带我也并不认为大多数的程序员需要关心这个方面 …… 老老实实的申请空间销毁对象，泄漏个毛线啊。我倒认为内存越多越毛病，数据挪来挪去的。

编程复杂度的问题更像是个沟通问题 …… 多花点时间和技术美术沟通好自己游戏的渲染流程比专门琢磨硬件怎么能实现各种花样要靠谱。因为不做底层开发的缘故，我更加觉得这事情是个沟通问题。讨论好需要几张缓冲，按照什么样的顺序来使用，每张缓冲有多少分辨率，哪些缓冲用完可以写入别的东西 —— 预先对存储空间的使用做好预算和君子协定，实现不了的东西就绕过去呗

不从使用目的出发的性能讨论难道不都是耍流氓么 ……

于是本着不耍流氓的态度来说，我觉得内存一致化的方式会更让人觉得安心 —— 因为没有什么特定的需要注意的地方，也没有某个性能拐点。最惹人讨厌的事情一般都是“我们可以怎么怎么做，但是需要在某个特定的条件，或者什么什么不能超过什么什么”，说到最后还是要靠设计的人来规避，内容制作不断的走弯路还累成狗。

不过 Haswell 要是真敢弄 128M eDRAM 进去，我看也就没主内存什么事情了，投资百万美元级别的中小行游戏基本上美术资源用不掉那么大显存 …… 就看国内页游那德行 …… 50美元不便宜 ……

[ 本帖最后由 FXCarl 于 2013-4-29 21:51 编辑 ]

TOP

ylgtx

魔神至尊

帖子: 16266
精华: 0
积分: 19381
激骚: 488 度
爱车
主机
相机
手机
注册时间: 2006-11-2

TGFC 2017新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

39^# 大中小发表于 2013-4-29 22:23 只看该作者

集成显卡，不抱希望。能比得上apu里的就不错了

TOP

Zico2003

魔神至尊

享受工作，享受生活。

帖子: 21668
精华: 0
积分: 48564
激骚: 1185 度
爱车: Z
主机: Z
相机: Z
手机: Z
来自: Shanghai CHN
注册时间: 2006-2-5

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆ 任区任饭认证☆☆

发短消息
加为好友
当前离线

40^# 大中小发表于 2013-4-29 22:29 只看该作者

怎么可能比得上APU……

再说INTEL的集显驱动一直是硬伤，高薪把NV的QUADRO驱动团队挖来算了

TOP

倍舒爽

银河飞将

“”公平与正义“”

帖子: 31862
精华: 0
积分: 39599
激骚: 1416 度
爱车
主机
相机
手机
注册时间: 2003-10-30

发短消息
加为好友
当前在线

41^# 大中小发表于 2013-4-30 01:17 只看该作者

引用:

原帖由 FXCarl 于 2013-4-29 21:33 发表
我是不觉得内存泄漏和统一架构有什么关系，顺带我也并不认为大多数的程序员需要关心这个方面 …… 老老实实的申请空间销毁对象，泄漏个毛线啊。我倒认为内存越多越毛病，数据挪来挪去的。

编程复杂度的问题更像是 ...

我认为各位不要把思路放到传统核显上~
传统的核显基本就是用来跑跑低端游戏而已~
也就是你干你的我还是干我的。。

而haswell我估计在很多应用上是把gpu当作成cpu的协处理器~

静观微软有什么动作吧。。

但有一句话让我很抓头，“超过80%的天朝独显”
两个关键字，天朝和80%

为啥要定在天朝这个范围内？？咱们的独显和国外的有个p分别咩。。

超过80%的独显性能？？
如果解读为游戏性能的话，偶觉得就扯谈了~
应该是某些应用吧！！例如压片或者图片等一些媒体处理？？

[ 本帖最后由倍舒爽于 2013-4-30 01:39 编辑 ]

TOP

boboqpai

小黑屋

帖子: 736
精华: 0
积分: 9328
激骚: 200 度
爱车
主机
相机
手机
注册时间: 2004-11-8

发短消息
加为好友
当前离线

42^# 大中小发表于 2013-4-30 08:34 只看该作者

来分析下，如果这颗edram对异构计算作用这么大，为什么intel不把它用在桌面？intel也只提到gpu性能。
前面说的720那颗esram不再同一总线同一控制器下，如果不能统一编址（共享数据），那意味着数据需复制到内存才能共享。

TOP

FXCarl

魔头

帖子: 1344
精华: 0
积分: 21010
激骚: 258 度
爱车: Lynk&Co 03
主机
相机
手机
注册时间: 2005-8-22

TGFC 2015新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

43^# 大中小发表于 2013-4-30 13:07 只看该作者

引用:

原帖由 boboqpai 于 2013-4-30 08:34 发表
来分析下，如果这颗edram对异构计算作用这么大，为什么intel不把它用在桌面？intel也只提到gpu性能。
前面说的720那颗esram不再同一总线同一控制器下，如果不能统一编址（共享数据），那意味着数据需复制到内存才能 ...

…… 总觉得异构计算的需求属于很微妙的领域。目前绝大多数抱怨速度不够快的应用场合对速度的容忍都很宽裕。譬如 Final Cut Pro 这种东西，出个片子总归几个小时，能提升数倍显然不错，但是此时又对数据拷贝多消耗的那些个秒数没感觉了。另外就是这种应用场合，在日常使用中比例也还真是低。

要说真好用的 GPU 计算，其实是低复杂度，高数据量的批处理 …… 但好像除了游戏图形渲染流水线之外，我还真没见过多少应用场合是兼具计算简单（线形复杂度）和数据量傻大（没有数据结构）的，物理引擎上GPU加速也是计算能力先成为瓶颈（向量机在随机访问上天然弱气，于是有些暴力重复的部分）。呒，视频编码解码算一部分 …… 这样说来也许 Haswell 是为了解决 4K 视频问题了。这也许是个好解释？

TOP

shinkamui

混世魔头

帖子: 2497
精华: 0
积分: 15356
激骚: 141 度
爱车
主机
相机
手机
注册时间: 2006-2-2

发短消息
加为好友
当前离线

44^# 大中小发表于 2013-4-30 14:49 只看该作者

引用:

原帖由 FXCarl 于 2013-4-30 13:07 发表

…… 总觉得异构计算的需求属于很微妙的领域。目前绝大多数抱怨速度不够快的应用场合对速度的容忍都很宽裕。譬如 Final Cut Pro 这种东西，出个片子总归几个小时，能提升数倍显然不错，但是此时又对数据拷贝多消 ...

物理计算用gpu的主要提升部分来自于碰撞检测，这个可以高度并行，而且有大量数据可以线程间共享，因此非常适合gpgpu。目前的瓶颈仍然是io。存储的数据结构是主要优化方向之一，包括在全局显存和共享缓存。另外就是建立良好的领域搜索结构，让访问不要那么随机。无论大量刚体还是流体，柔体，都是一样。

TOP

qyqgpower

魔王撒旦

帖子: 7374
精华: 0
积分: 30673
激骚: 258 度
爱车
主机
相机
手机
注册时间: 2002-4-2

TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

45^# 大中小发表于 2013-4-30 20:14 只看该作者

已经有消息称这块EDRAM是CPU逻辑部分和GPU部分共用的了。
IBM的主机用的POWER7就有超大内嵌缓存，Intel说不定也会在Xeon上加这个

TOP

[新闻] 【英特尔版四两拨千斤】Haswell中的eDRAM：性能提升明显 价格稍贵

引用:

引用:

引用:

引用:

引用:

引用:

引用:

引用:

[新闻] 【英特尔版四两拨千斤】Haswell中的eDRAM：性能提升明显价格稍贵