4月21日,百度董事长兼任CEO李彦宏语音版的《智能交通》有声书上线了,全书大约20万字的文本,全部依靠“李彦宏语音包”来完成,完全不是我们常见的机械合成音,而是非常接近于李彦宏本人录制的原音。而这一效果的达成,仅仅用了李彦宏九句话的素材,AI系统通过学习、训练,就复刻出来了李彦宏的声音,如果声音素材扩展到300句话,就能形成一个媲美专业音库的音频内容。这合成的语音听起来不仅是音色相似,念起句子来还非常自然,甚至富有感情。
“以假乱真,我基本分不清哪个是真人说话哪个是AI说话。”网友给出了这样的评价。通过AI合成自己的声音来朗读,这个功能说来并不稀罕,过去还处在实验阶段的这一功能很明显已经走上了市场化推广之路,记者在自己的手机中也找到了AI合成语音功能,手机的智慧语音助手功能可以实现声音定制。AI会准备15条长短句,真人录音朗读后AI会进行学习训练,大约二十分钟后就能够获得属于自己的定制声音,记者尝试定制了自己的声音,并与语音助手对话,虽然稍有不自然的卡顿之处,但是整体上与真人的音色、语调习惯非常类似,说一句“以假乱真”并不为过。
通过AI来生产内容,这一内容生产模式被称作是AICG,除了让AI语音朗读文本外,做语音助手外,当前还存在着大量让AI深度学习后自我创作的内容,去年B站网友就曾上传了一个让AI看了四万小时恐怖电影后独立创作的恐怖片,基本上就是恐怖片元素大杂烩,非常滑稽而无逻辑。这大体上能够代表AI创作的一个基本原理,就是对基本元素的重组,交出来的结果常常会啼笑皆非。
在人们看来,AI的创作还停留在机械复制的阶段,但就在不久前,深度AI软件DALL•E发布的第二版软件似乎完全颠覆了人们对于AI在内容生产方面能力的预期,DALL•E的玩法很简单,输入你想要的内容,给一个风格,AI能制作出一张全新的图片,比如“浮世绘风格的购物的泰迪熊”,得出的画面精美的就像一位画家创作的插画作品。
AI的深度学习水平愈发的惊人,语言文字甚至于艺术创作、商务办公等多场景下都得到极为广泛的应用,人工智能不再是“人工智障”,而与真实不断靠近。这一飞速的发展也正与数字时代对内容生产的效率提升需求相吻合,这无疑将为内容生产领域带来巨大的变革。
一方面,创作的门槛降低,要实现大规模、批量化的创作不再费时费力,AI能够又快又好的补足人工缺口,极大的提升内容创作的效率,另一方面,创意的获取也不再仅仅依靠灵光一现,海量的AI数据库能为我们组合生产出足够丰富的、高度个性化、定制化的创意内容,未来的原创内容生产者,或许不仅仅只是生产内容的人,训练AI为自己生产的人也可能成为新一代的内容生产者。
也有网友对于如此逼真的AI语音持有谨慎的态度,尤其提到了如果用这种合成语音诈骗怎么办?这种担忧并非空穴来风,4月20日,媒体就曾报道江苏镇江警方今日成功打掉了一起电信诈骗团伙,这个团伙中的18名嫌疑人用AI机器人拨打1700万个电话,为境外诈骗团伙引流,用过AI机器人电话推荐股票和炒股软件,不少不明所以的人误入圈套,损失惨重。要是AI语音加上AI换脸,即便是视频通话对面的“人”都真假难辨,哪怕是熟练使用互联网的年轻人都要防不胜防了。
AI机器人打电话推销也不算少见了,记者曾接到过AI广告推销电话,声音非常像真人,并且对答如流,能够根据机主的回应给出相应的回复,稍没注意恐怕真的会以为这是真人,也有网友对这些AI机器人做了图灵测试,在经过几轮你来我往的言语交谈后,AI机器人的言语漏洞才会暴露出来。
人工智能到底怎么用,最终的决定权还是在人的手上,汕尾电信最近使用的云呼机防疫AI机器人就给出了AI智慧语音的一个新应用场景,让AI语音机器人代替真人,去拨打居民电话做日常防疫信息通知,回应居民问题,其效率远远高于人工拨号,用到正途,AI前途才是不可限量。
扬子晚报|紫牛新闻记者 沈昭
校对 徐珩