Google的英文语音合成,你能分清楚哪个是合成么?

Tips:点击图片进入下一页



最近泥潭有好奇人工智能/机器学习的进展的,觉得近几个月来最有震撼力的结果就是Tacotron 2。它合成的出来的语音和真人的语音几乎没有区别。
我做了个网站,http://mzpz.me/public/tts/ 把他们的结果和真实结果放在了一起。希望各位听完之后把自己认为哪个是合成的放在回帖里

正确答案是2221

全选能看答案



网友评论:
感觉都是第一个是合成的

但是已经算是挺自然的了

如果是中文的话大概更容易听出来吧
我觉得是1211


错了三个

错了两个


我觉得是1221===
回去又听了一遍,第一个虽然1不大自然,但是2的音调问题好像更大一丢丢,所以应该是2221
感觉1122,第3个是蒙的
感觉1122,第3个是蒙的
2211
1222?第三个听不出来。
1222?第三个听不出来。
1222
我觉得是1121
我觉得是2111


正确率接近50%就是事实上的无法分辨了
如果低于33%就说明人类更承认AI是人,而看不起真人
我觉得是2211
非母语对这个有影响的
2 2 2 1
我觉得是1221


肯定有3个2,第二个肯定是2

2221AI的语速太平了

我觉得是1122
请问有没有中文的
哈哈 全错
我觉得是1111

错三个。。
我觉得是1222

没。。现在这个模型是字符到语音的模型,中文是方块字,不像英文那样能拆成字母,训练难度更大一点

— from samsung SM-G950U1, Android 7.0 of Next Goose v1.3.2.1-fix-play
傲骨之战第二季第一集


……

能, voice conversion

能, voice conversion

能, voice conversion
我觉得是1121

我搜了一下,但是没有发现具体软件


我觉得是1111

求答案啊

fuuuuuuuuuuuuu……看了答案后十分尴尬

大概没人做过吧…… 具体的效果就是把A的声音套上B的 style
非母语很难猜啊
1222
高德导航里的志玲姐姐的声音也是合成的啊。


我觉得是1122
我靠,错了3个
外国人听不出瑕疵很正常啊,母语使用者的正确率呢
2222,错了一个

还是很好判断的,如果平时接触的英语多的话。

百度跟yy有在搞
第一个绝对是2更自然吧
猜对一半,很可观的成绩了


我觉得是1121
挺简单的。。。对于英语母语水平的人来讲(膨胀

虽然很想这么说,但是秒打脸。
错了俩,我还以为语速上显得平均的是AI,居然错了
我觉得是2221


2212
错了两个还行
这个现在开放使用了吗?


我觉得是2121
感觉像是一个机器说话一个人模仿机器说话,选的结果似乎不是哪个机器模仿的更像而是哪个人模仿的更不像

没。。现在生成还是需要很长时间,所以没法做到实用。不过这种优化很快的,大概半年左右就有很好的人成果了

— from samsung SM-G950U1, Android 7.0 of Next Goose v1.3.2.1-fix-play
分辨不出啊 -_-|| 英语不好……中文的也许我能分辨……
我觉得是2122