[业评] 深度分析3家体感,实现很简单,关键是精度,微软真扯淡

carnon

小黑屋

帖子: 12246
精华: 0
积分: 21384
激骚: 67 度
爱车
主机
相机
手机
注册时间: 2004-12-18

发短消息
加为好友
当前离线

1^# 大中小发表于 2009-6-5 10:07 显示全部帖子

偶觉得微软这套系统是3家系统里面鲁棒性最差的，最容易受干扰，动态捕捉慢导致容易跟丢出错，至今看的视频都是在相对理想的环境下面做的演示；语音识别不说非英语国家，就算英语国家的各种口音发音能否正确识别都成问题

TOP

carnon

小黑屋

帖子: 12246
精华: 0
积分: 21384
激骚: 67 度
爱车
主机
相机
手机
注册时间: 2004-12-18

发短消息
加为好友
当前离线

2^# 大中小发表于 2009-6-5 10:27 显示全部帖子

引用:

原帖由 superjay 于 2009-6-5 10:09 发表

我以为FF是那什么家族的个案，看来是普遍现象

您知道win95时代就有语音输入文本的技术了吗，您知道有中文版吗，您知道使用前都要矫正、适应每个人的发音习惯吗

也难怪，所谓物以类聚，是这个理

这个偶也知道，对用户发音采样的越多越精确，但是这样就不够casual了，对用户也有严格限制，就跟动作捕捉对环境也有限制一样。而且你拿这个跟语音识别文本比是有点偏离方向的，跟语音识别文本不同，这套东西是应用于游戏的，是实时系统，对即时指令识别准确度要求很高的。

[ 本帖最后由 carnon 于 2009-6-5 10:32 编辑 ]

TOP

carnon

小黑屋

帖子: 12246
精华: 0
积分: 21384
激骚: 67 度
爱车
主机
相机
手机
注册时间: 2004-12-18

发短消息
加为好友
当前离线

3^# 大中小发表于 2009-6-5 10:47 显示全部帖子

引用:

原帖由 superjay 于 2009-6-5 10:40 发表

因为不是用的常见光摄像头，因此降低了对环境光线的苛刻要求，我在上一页贴了3dv视频，演示环境是几乎一片漆黑

其实这个所谓“ai”也就是你说的那么简单，语音识别成文本，文本才触发脚本，脚本教虚拟角色回答 ...

你没看懂我的意思？

我是说这套语音识别是用在游戏这类实时系统的，跟文本识别不同，文本识别错了可以更改，在多数实时游戏里面系统识别错你一句话或者是你发音有错误是无法更改的，致使建立起用户发音数据库也不能完全保证准确度，所以我才说这东西应用于游戏时鲁棒性差，或者只能受限于应用在专门为这套系统设计的，对精度要求不高的游戏。

[ 本帖最后由 carnon 于 2009-6-5 10:54 编辑 ]