10 月 8 日消息 9 月 22 日,小冰公司与微软(亚洲)互联网工程院在北京联合举行了第九代小冰年度发布会,带来了多项技术升级、战略合作和产品扩展。Bing 搜索引擎已完成与小冰框架融合,将于下个月在更多国家上线。自 11 月起,在 Windows 及移动应用产品中的个性化推荐及信息流,也将先后融合小冰。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

在小冰框架开放域对话方面,小冰重点加强了小样本学习与反馈式学习的效能。根据最新的横向评测,全部五项指标均领先于同行业者的超大规模预训练模型效果。这五项指标分别是:平均对话长度、上下文一致性、上下文相关性、对话信息含量与话题引导成功率。与此同时,单轮对话成本仅为同行业者的二十分之一。

在超级自然语音及多模态交互方面,小冰宣布了在语音自然度(Naturalness MOS)和平均舒适时长(Average Comfort Duration)之后的最新技术指标:多样性(Diversity)。并展示了该项技术在人工智能内容生成及小冰岛产品中的实际落地效果。

小冰第九代推出了全新的诗歌与绘画创作模型(V3),支持中国画模型与“艺术家模型”;还有新的人工智能歌声合成技术、新歌手及 X Studio 2.0 发布;另外小冰团队还发布了首个第一方社交平台 App“小冰岛”,无论一群人还是独自一人,你都可以幸福生活。这是人工智能最温暖的一面。

在小冰第九代发布会后,专访了小冰公司首席执行官李笛,就小冰的新技术和新角色等话题进行了探讨。

下面是采访内容:

:小冰本次发布会上公布了开放域对话引擎、超级自然语音等技术,相比起此前的技术有哪些明显变化和应用吗?对比同行业者领先多少。另外下一步小冰对话引擎和自然语音等技术的难点或突破在哪里。

李笛:在发布会上我们公布了一张表,是小冰跟同行业者两个引擎的对比,一个是基于 GPT3 超大规模预训练模型的,还有一个基于检索模型的。我们看得出,即使在这个超大规模预训练模型上,其大部分指标还是不如小冰的。另外,在对话过程信息含量指标上,原本以为会比小冰现在线上的模型应该要好,但最后结果还是不行。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

目前为止,在对话引擎上面,最重要的、需要突破的点是推理,就是你的对话溯源。你为什么要说这句话,包括生成对话文本,这句话生成的目的和背后的意图,对意图的了解这一块应该是有很多可做的东西。我们最近跟清华智源研究院在做多语言种类的、新的超大规模的预训练模型(预计今年年底前会公布结果)一定程度上能解决这个问题。

小冰线上的产品,目前为止最大的问题不是对话的问题,而是线上产品套装了过滤系统。这个过滤系统很大程度上影响对话体验。在安全性上极大提高,一定程度上会造成对话质量不够好。目前为止看来,我们还保持着优势。

:微信小冰已回归,在以后的运营方面会更看重哪些内容。有没有想法推出小冰 App 或者快应用 ?

李笛:微信小冰其实无论从用量上还是渗透率上,其实都没有办法跟华为、小米、OPPO、vivo 或者 QQ 里面的小冰相比。甚至一定程度上跟微博小冰相比都不够大。我们现在也有抖音 API,将来如果做抖音小冰的话,可能都会比微信小冰好。但微信小冰回归,是因为微信小冰毕竟是有一定的代表意义的。另外,有一些微信的交互是我们比较熟悉的,但是在微信小冰上其实没有特别的运营的目标。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

小冰的快应用包括跟华为,还有其他几家合作,疫情前小冰实际上是华为应用市场快应用排名第一。至于小冰的 App 方面,小冰岛是我们现在主要使用的一个 App,另外就是小冰其实还有一些不叫小冰的 App,主要是用来做测试,比如小柚酱,这是一个小程序,后面会有 App。还有像 XEva 等等,这些主要是用来测试产品设计的。

:目前内嵌小冰的智能设备超 10 亿台,下一步数字语音助理的方向会是哪些领域。小冰会推出自有带屏硬件吗?

李笛:目前在数字语音助理领域,我们比较看重的其实是汽车,所以一年前我们开始做。我们希望乘客可体会温暖便利兼具的出行体验。现在像新势力造车,包括高合、蔚来、小鹏,都是我们的客户。传统汽车企业像宝马、日产、北汽、上汽都是我们的客户。我们在这方面发展还是比较快,有点后来居上。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

另外,我们认为智能语音助理的发展方向是公共领域。所以在日本测试了很多铁路、月台、地铁这些环境。我们准备在国内复制已经有的经验。比如说一些月台和即时通讯之间的协同,应用 AI,应用小冰,或者是 Rinna 这种方式来进行协同。这是我们比较看重的。

至于说智能设备,包括传统的智能 IoT,智能手机和音箱,已经基本完成了这方面的合作。所以如果我们要推出一款带屏音箱也好,无屏音箱也好,一个硬件终端也好,我们一定需要有一个目的。

目前为止,有屏音箱,无屏音箱领域,一定程度上其实已经从 AI 故事,或者说 AI 战场,转向消费类电子战场了,离 AI 比较远了。我们肯定不是做消费类电子的,所以近期没有推出小冰的自有的硬件的计划。

:这次夏语冰等学会了中国画等画风,还有更多歌手出现、合作企划等启动,是否意味着小冰开始更多面向消费者领域有更大的动作。

李笛:从微软分拆之后,我们在 AI TO C 这方面可以做的更灵活,所以动作会比以前更多一些。而整个行业,在 AI 这个领域,整个行业过去主要还都是 AI TO B 的思想文化,比如智慧城市、智能交通、智能安防等。

我们正在大力布局消费类内容,比方短视频生成,绘画、诗歌、音乐,这些都是消费类内容。但我们目前为止,最主要的还是在布局消费类内容提供平台,而不是消费类内容 IP 化运营平台。我们跟次世文化合作推出了 MERROR 虚拟人物。MERROR 是次世文化负责运营的虚拟偶像。而小冰更像是在背后去驱动包括但不仅限于这几个或者十几个提供内容的虚拟偶像的平台。

:中国画的绘制相比之前的西方油画之类的,有什么不一样的难点吗?

李笛:中国画模型这次是属于新增,但是坦率讲,中国画模型在技术难度突破上,不如我们推出的艺术家模型和细节构图精度提高,这两个技术含量更高。艺术家模型技术含量最主要是集中在样本是比较少的。比如说塞尚,他的画作没有那么多。我们以前想训练一个风格,并且能够锁定在这个风格上,需要比较多的训练数据。艺术家其实训练数据没有那么多。所以,这是一个比较大的突破,我们现在能够在小样本基础上能够做出来,然后构图精度提高。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

中国画模型近期才新增,是因为它的训练数据不容易获得。中国画的训练数据,跟西洋画的训练数据相比,他的精度和画面保存完好度不够好。同时画上还容易有很多章印,很难确定这章印是不是画面的一部分。以前训练数据不够理想,而这一次,我们把训练数据解决了。

当然,它里面也有独特性,比如中国画比较强调散点透视,就是多点透视,移步换景。西洋画一般都是有一个比较明确的直观性。在形成画作的时候,绘画创作过程中会有一些不同,但这些不同没有那么大,更多的在于数据的功力。

:小冰岛的社交网络与动物之森、西部世界有何不同,为何要采用人类与人工智能 AI Beings 的模式。这种模式下用户会不会很快变得厌倦,除了小岛主人还有其他人类用户的交互吗?

李笛:小冰岛也只是我们在这个阶段的一个产品形态,他的目的跟我们以前其他阶段产品形态是一样的。他固然本身是一个产品,但是他主要还是为了能够通过进一步新的数据获得来训练人工智能。我们的终极想法是未来要建立一个很多人和很多 AI beings 混合在一起的融合社交网络。那么这个融合社交网络除了提供内容和服务之外,他需要实现交互。这个交互,一般来说是分为四类交互,最后是把这四类交互合并在一起。所以我们需要分别去获得这四类交互的数据。我们已经获得内容包括:一个人和一个 AI 之间的交互,通过华为、小米、OPPO、vivo,QQ 小冰私聊,可以得到大量数据。另外,我们也获得了多人和一个 AI 的交互数据。

小冰李笛:对话引擎需突破对话溯源,小冰岛 App 研究多 AI Beings 与人类交互-风君子博客

我们缺两类数据:一类是一群 AI beings 和一个人之间的交互数据。这里面就涉及到这群 AI beings 之间是不是要相互配合。或者说这群 AI beings 应该以人为中心,还是不应该以人为中心。他们是应该分别跟这个人发展关联,还是他们应该拉一个群跟这个人去交流。另一类是一群 AI beings 和一群人之间的交互数据。当然,我们也可以上来就先做一个好多人跟好多个 AI beings 在一起的产品。但是那样的话,不利于数据迭代。我们可以在现有的基础上,再去做一个升级,升级成多个人和多个 AI beings 的交互。

我们并不追求所有的用户天天都登录到这个平台上,这跟当初小冰一代迭代的时候是一样的。一代小冰迭代的时候,为了得到纯粹的交互数据,我们故意让小冰不能完成任何的任务。当时一些用户说小冰怎么不干活?怎么不智能?就走了。而留下的另一些用户觉得小冰是智能的。这样便于我们清洗数据。

今天的情况也是一样的,在行业里面,没有一个 App 能够支持我们迭代多个 AI 和一个人的交互数据,所以我们推出了小冰岛。