这家硅谷初创公司的声音模拟技术,可能会让配音演员失业

热点专题 浏览(1377)

今年8月,中国最著名的时尚博主之一高戈比采访了林允儿,他在十几岁时是封面人物。在采访中,高戈比的韩语很流利。此外,他可以在主要时装周轻松用英语采访欧美时尚偶像。他的语言能力实际上已经超过了大多数时尚博客,这也是他在时尚界备受青睐的原因之一。

事实上,随着声音模拟技术的快速发展,多语言人才的优势可能会消失。

记者了解到,总部位于加州的初创公司ObEN能够提供快速、准确的音频和视频模拟技术。用户只需要阅读ObEN指定的单词两分钟,他们的电子声音就可以被模拟出来,用所有可以想象的语言来唱歌、背诵和做所有可能的事情。

ObEN团队的其他三维图像重建技术也可以通过自画像照片为消费者快速创建三维人脸模型,进一步拉近虚拟世界和现实世界之间的距离。

ObEN联合创始人尼基尔贾恩和亚当郑

模拟技术给声音带来无限可能

这种声音模拟技术有许多未来发展蓝图。

例如,录制家庭中孩子的声音,这种声音模型可以一直保留到他长大,可以用作新内容。例如,当一部电影在国外放映时,可以用明星的原声用外语配音,这样他们自己的声音就可以顺利地“输出”。对于时尚博主来说,更不用说采访韩国、欧洲和美国明星了,即使时尚博主进入印度、土耳其甚至非洲,他们也可以轻松地用当地语言进行采访。此外,当人们与家人分离时,他们也可以通过这项技术在各种智能设备中听到熟悉的声音。天堂仍然是我们的邻居,不再是想象。

这些蓝图使欧本成功地与各行各业的顶尖企业达成合作意向,包括与美国最大的玩具公司合作开发智能玩具,与好莱坞最大的语音公司和电影公司合作等。

虽然上面提到了各种可预测的蓝图,但视听模拟技术听起来仍然很抽象。具体来说,ObEN以这种方式为消费者的声音提供了各种使用方案。

首先,这项行业领先的技术大大缩短了声乐模型的训练时间。换句话说,消费者只需要花2-3分钟就可以读出指定的文本,ObEN可以通过人工智能领域的机器学习技术来创建消费者专属的电声模型。这就像每个人都有独特的指纹一样。ObEN可以通过深入学习获得每个用户的“声纹”。

你知道,今天只有少数人可以体验市场上所有的独家声音模型,输入数据需要几天甚至几周的时间。

此外,有了这种电子声音模型,欧碧倩可以让消费者用中文、日文、韩文甚至世界上任何现存的语言来说、唱、背诵自己的电子声音,而不局限于源声音的语言类型和用法。想想看,一个一点也不懂中文的美国白人可以用他自己的电子声音唱秦腔。一个中国人也能听到他的宝莱坞歌曲。

除了细化算法之外,越多的消费者使用这项技术,ObEN的音频模型就越真实。

ObEN的语音模拟技术背后是加州大学洛杉矶分校和加州理工学院的计算机人才。在决定开发这项技术后,ObEN的两位联合创始人亚当郑(Adam Zheng)和尼克希尔贾恩(Nikhil Jain)邀请加州大学洛杉矶分校声学研究所所长阿贝阿尔万(Abeer Alwan)和加州理工大学高级计算机科学家朱利安邦恩(Julian Bunn)合作开发。两位教授,以及他们的其他合作伙伴和博士生,在独立开发声音模拟技术的过程中,都为ObEN提供了重要的帮助。

$page$

声音模拟×新技术

更重要的是,这项技术将进一步发展当今技术产业的许多主要方向。

首先,各种机器人的拟人化会更成功,因为它们可以访问真实的可控声音模型。一个具体的例子是,在今年的CES期间,欧本与凯撒娱乐集团和微信合作,在凯撒娱乐旗下酒店提供名为“本”的虚拟客户服务。凯撒娱乐集团旗下LINQ酒店的客人可以通过观看凯撒娱乐集团的微信号,用手机与本互动

此外,哈尔滨工业大学机器人组与欧本合作,还在LINQ酒店大堂提供了迎宾机器人,使虚拟客服本“物化”为有形机器人。客人可以通过与受欢迎的机器人交流,直接感受多语言和多语音机器人提供的便利服务。

ObEN与哈尔滨工业大学机器人组合作,在LINQ酒店提供欢迎机器人

服务。同样,声音模拟技术在虚拟现实领域将有许多发展机会。例如,在虚拟教育领域,当声音来自真实的老师和同学时,孩子们会更容易沉浸其中。例如,在虚拟医学领域,更真实的声音会让病人更容易接受。

结合3D图像重建重新定义虚拟世界

早在1946年,美国学者埃德加戴尔(Edgar Dell)提出的“学习锥”(Cone of Learning)和多年的认知科学研究都证明,当听觉和视觉相结合时,人类有更强的理解和学习能力,远远超越了单纯的听觉或视觉。

因此,为了进一步缩短虚拟世界和现实世界之间的距离,ObEN团队还开发了一种基于照片的3D人脸重建技术。声音和图像是紧密匹配的,未来有很大的想象空间。

在过去十年左右的时间里,人们对未来游戏的普遍想象是玩家将以近乎真实的外表和声音在游戏世界中游荡。

ObEN提供的声音模拟和3D图像重建技术很可能在现实中第一次实现这种想象。

事实上,3D人脸重建技术并不是欧本的第一个。就精确度而言,如果深度相机用于长时间扫描,所建立的模型肯定会更加真实。然而,在消费者端推广这种耗时且基于深度相机的3D重建技术是极其困难的。

因此,ObEN选择开发一种技术,通过手机拍照,从平面照片中生成三维人脸模型。这项技术基于机器学习(machine learning),最终是通过大量学习二维照片和相应三维模型之间的关系而形成的。当然,如果消费者愿意提供更多的照片,如侧面照片等。这也将使ObEN的最终3D模型更加精确。

3D模型通过ObEN technology

与联合创始人Nikhil Jain的2D照片完成如上所述,这项技术在虚拟现实/增强现实领域有很多可能性,包括教育、医疗、游戏、设计、音乐等。几乎可以说,只要是需要性格的地方,就可能需要。这也意味着ObEN有可能与虚拟现实行业的许多企业合作。

例如,在医院里,病人自己医生的虚拟形象肯定比卡通式的虚拟医生更受病人欢迎。在虚拟现实教育中,如果孩子们能看到和听到真正的同学和老师,教育效果会好得多。最重要的是,只要消费者使用ObEN提供的三维图像重建技术,他们就可以轻松地将社会关系导入虚拟世界。

这个功能是QQ和微信之火的基础。有了ObEN,我们可以期待虚拟现实领域的一些杀手级应用。

$page$

虚拟现实的第一年,拥有巨大的发展空间

2016是虚拟现实/增强现实(VR/AR)的第一年。ObEN的声音模拟技术和三维图像重建技术很可能成为虚拟现实/增强现实发展的重要推动力。

近年来,业界一直强调3D音频在虚拟现实中的重要性。ObEN可以提供不同的声音和语言,除了3D音频技术之外,它还补充了虚拟世界中声音的“内容”,使虚拟世界中的声音更具吸引力。

声音和图像技术的结合也是ObEN和虚拟现实/增强现实中一个重要的可预见的方向。ObEN已经开始开发自己的应用程序,并试图将这两种技术结合起来。他们即将推出的全新虚拟现实/现实约会应用是“复制”每个用户的虚拟图像和声音,这意味着无论你是否在线,你都可以用真实的虚拟图像与其他用户交流。欧本的首席运营官亚当郑说:“我们相信在未来,每个人都需要一个符合自己形象的虚拟世界助理。”。在虚拟现实/现实领域,这样的虚拟世界助理可以在各个方面为他们的所有者服务。

据悉,ObEN已入选宏达电Vive X加速器项目,并在1000多个项目中脱颖而出,与其他32家初创公司一起探索虚拟现实领域的未来可能性。亚当表示,加速器项目中的许多虚拟游戏公司都对ObEN的两项技术表示了兴趣。

ObEN成立于2014年,其主要创始人是首席运营官亚当郑(COO Adam Zheng)和首席执行官尼基贾恩(Nikhil Jain)。其中,亚当是清华大学环境工程硕士,伯克利金融工程硕士,加州大学戴维斯分校交通工程博士。他也是百合网的联合创始人和光速投资公司的投资伙伴。尼基尔贾恩(Nikhil Jain)拥有南加州工商管理硕士学位,是加州的一名持续企业家。ObEN的总工程师马克哈维拉(Mark Harvilla)博士是卡内基梅隆大学的电子工程博士,曾在理查德斯特恩(Alex Acero,苹果Siri负责人,李博士学位论文教授之一)手下学习。