科大讯飞邢猛：面向智能座舱的多模感知技术及交互设计思考

作者：

时间：1900/1/1 0:00:00

2021年6月17日至19日，由中国汽车工业协会主办的第十一届中国汽车论坛在嘉定举行。站在新五年的起点上，本届论坛以“新起点、新战略格局——推动汽车产业高质量发展”为主题，设置“一次闭门峰会+一次会议论坛+两次中外论坛+12场主题论坛”，全方位汇聚政府领导、全球汽车企业领袖、汽车行业精英，共商汽车产业强市大计，落实国家提出的“二氧化碳排放峰值、碳中和”战略目标要求，助力打造。其中，科大讯飞汽车事业部高级产品总监孟醒在6月19日上午举行的主题论坛“智能驾驶舱创新技术论坛”上发表了主题演讲。以下为现场演讲:

discovery

感谢王教授的邀请和论坛。比如王等很多教授给我们在的合作机会，更深入的产学研合作可以促进驾驶舱的进一步深入发展。我今天分享的主题是“智能座舱的多模式感知技术与交互设计思维”。科大讯飞谈论最多的是语音。今天为什么不谈语音学？语音一定要说，但未来语音多模态一定是趋势。科大讯飞进入语音学行业比较早，从语音学不可用、可用、难用、好用开始做了十几年。怎么解决？从语音到多模态一定是未来的发展模式。现在很多人都在说多模。什么是多模？是一堆传感器堆在一起和用户互动吗？是也不是，今天就用自己的想法和大家交流一下。首先，声音。如何更好的服务用户，如何占用用户的时间，如何及时为用户提供更好的服务，这才是诉求。在车上上诉会更痛苦。每天在车里呆上近两个小时，你会发现，以前没有机器的时候在车里挺无聊的，有人陪你聊天就好。智能网联越来越发展，很多东西已经上车了，娱乐，导航，LBS，停车。现在觉得功能不够用，还在逐渐堆积功能。用户坐上这样的多功能公交车是幸福还是负担？这是一个我们深入思考的话题。做了这么多功能，他喜欢从语音和服务上提供给用户的功能吗？这是我们正在思考的问题。如何为用户提供更好的交互方式？让它们用起来更舒服。用户接触互动，83%的信息输入来自视觉，11%来自听觉。但是信息输出的第一步必须依靠语音语调。但是在车上，车内自然的曲线和限制打破了视觉和听觉的平衡，在车上完全靠视觉很难做到，所以发音很重要。今天很多嘉宾分享的语音痛点让我们深有感触，所以我们总结了语音交互的痛点，这也是对这些问题的深入思考和逐步解决。这么多年来，业界和科大讯飞一直专注于为用户提供更好的语音交互。但是我很想把语音交互闭环，让用户在语音交互闭环下使用起来更加流畅顺畅。业内很多客户都想把链条砍掉，砍掉之后再增加更多的优势因素，这是没有问题的。就看怎么切入，怎么整合整合更多好的资源。技术是解决问题的基础和必要元素，但有了技术，用户的问题不一定能完全解决。用户想要的是交互，是体验，是服务。如何做好交互也是我们思考的问题，尤其是在汽车上。在汽车中安全是第一位的，所有的技术和交互都满足一定的目的，但是在汽车环境中保证安全的东西有很多，比如简单、智能、人性化等等。举个小例子，车内语音交互以前是按键和语音唤醒。例如，“飞宇”是科大讯飞互动产品的品牌名称。我们对飞宇说:你好，飞宇，我想去喜来登酒店。“一堆……大还是可以帮你完成的，但是够简单吗？够自然吗？随着用户的使用，如何解决问题？用一句话解决“你好飞鱼，我想去哪里”。这在业内叫一拍即合。但是，用户发现这件事要花很长时间。我的目的是去谢拉顿酒店。有没有快速表达的方法？喜来登酒店。用户说完之后，马上能体现出来的解决方案，在行业内可以说是看得见的。但是这样解决问题是不是更好呢？能充分发挥发音的优势吗？不一定，语音交互最大的优势是渗透。所谓“渗透”，用一句话来表达有三个目的，用一个声音来渗透渗透是最大的优势。可见在某些场景下可以解决问题，但无法发挥发音的最大优势。看、指、说都是一步到位，但没有充分发挥发音的本质问题。我该怎么办？跨场景叫醒电话很多，场景完全是穿透式跨场景。第一句说的是“喜来登酒店”，下一句说的是“先忘掉你的感受”。可见语音交互把简单和自然发挥到了极致。再说智能化和人性化。对智能产品了解不够的人认为，你能和我说话，智能就很厉害，但对智能了解足够的用户知道，智能远不止这些。举个小例子，我儿子叫邢子瑞。有一次玩用户定义，我问邢总是谁，我给我儿子看了。他会说这很聪明。既然你知道我的名字，你知道我的信息，他就高兴极了。让用户定义智能和个性化，让他定义自己的智能。也许他能找到自己的感觉。用户能否参与智能化、人性化的设计？在产品中这样做，让他定义对话，定义他认为好听的模式和形式。第二，多模式。从语音到多模态一定是趋势，语音不可能解决所有问题，也不能解决所有问题。人-车-厂驱动多模式该怎么办？汽车是一个非常复杂的工业集成产品。在车上，集成了各种非常先进的传感技术，包括麦克风、摄像头和雷达。现在很多眼镜也是智能的，还有声学。车上有很多智能设备。汽车是人工智能最好的舞台。汽车的属性慢慢发生了变化。汽车不仅是汽车，也是传统的数据汽车。汽车的数据没有改变，但是随着智能化需求的发展，人的需求会进一步释放。我对车有更多的要求。我想工作和娱乐。人体数据的采集在未来一定会越来越重要，会有更多的领域，更多的领域接触空间。人、车、工厂的数据是一个大平台，收集了很多数据，是一个移动空间。经过这种思考，多模感知的融合一定不是单一模式，而是多模高感知技术的融合。其次，多维数据更好的协同，目的是提高用户体验和交互体验。这么多传感器和数据对客户有什么价值？智能化是一个，但是有没有更好的方法来提升客户品牌的价值，探索更多的商业模式？肯定有。你以为苹果手机卖手机？也许是，也许不是。大场景的架构应该定义为“生物光电”多模态融合。车上有DMS摄像头，麦克风，手势。当用户稍有变化，比如他会知道你变了，推荐导航等语音触发。即使用户用手指说“去那里”，他也能立即导航到那里。DMS摄像头、语音麦克风、手势传感器结合在一起，用户会觉得你懂我一秒，不需要过多解释。只有集成更多的传感器，交互才能更加完整。日前，国家全面放开第三胎。车越来越多，空间越来越大。车里有那么多家人。属性肯定不一样，对车的需求也不一样。车里的人可以同时独立互动吗？交互后，汽车的反馈也是独立的，互不干涉……彼此相爱。主司机反馈导航，孩子反馈娱乐。语音交互和语音交互驾驶舱声音管理必须整合协调。为什么不说语音？语音肯定是非常重要的一个环节，接下来就是把听、说、看、显示各个方面和用户感知结合起来。不是简单的把1+1+1的函数加在一起，而是每个环中的交集部分非常关键，这恰恰是每个领域都无法很好解决的问题，交集问题可以很好的解决。看具体情况——多模式免唤醒。免唤醒跨场景多用途语音传输交互很重要。在车上互动的时候，你会发现未来车里的人很多。是通过人的交互还是机器的交互，和谁？做个区分。如何做好区分？视觉上融合了吗？我知道你的视线，也知道你在和机器互动。还有一些场景你发现嘴唇不动了。如果你没在动，突然的声音说明你没在说话，这就是干扰。视觉和语音相结合，实现多模态免唤醒交互，使车内交互更加可靠、自然、连贯。虚像就是传统的语音波动，显示的是波动条。需要有人用声音做表情吗？肯定是必要的。因为发音是有感情的，有喜有悲。表达上要不要和发音同步规划？你也必须做这件事。从多模态合成到多维合成，多维合成是情感面部表情和情感语言表达的表达。看一下数据。汽车数据平台有很多种数据，场景，用户，汽车。如何整合好数据？中科创达做场景引擎，我们在做，很多行业都在做。还需要有很深的语义理解，不仅仅是文字，还有你的形象、视觉、发音等。要做深层次的语义理解，给你的对话逻辑反馈，一定是更智能的。一位女士在开车，可能车里有各种噪音。很多司机不知道什么意思还继续开，不知道怎么办。出现这种问题的时候，系统和语音助手能不能和他很好的互动，告诉他当天在车上发生了什么，是继续开车不要理他，还是靠边停车的时候怎么办？对车、人、安全、交通系统一定是很好的保障。如何在汽车的知识图谱和汽车本身相关的事物之间建立更好的互动，是我们正在思考的事情。如何为客户创造价值？语音助手的屏幕处于镂空的位置，每天和用户打交道。他是深度用户，其次是汽车、厂商、品牌。他们能联系好吗？车有很多支架，能不能串好？肯定有。当车和数据需要维护到一定阶段，你知道用户有这样的需求，4S店就有这样的服务。适时提醒用户，他一定会接受。对于主机厂和客户来说，用户的深度转化率会提高。简单看一下科大讯飞，他刚刚在6月9日庆祝了他的20岁生日。总的来说，科大讯飞正处于它的青年时代，而且仍然欣欣向荣。希望科大讯飞的大屏智能产业在未来能发展的更好。有两个国家平台，一个是科大讯飞的国际评估，它在6月14日获得了福布斯创新奖。这不是关键。重点是可以看到国家政策和行业趋势对人工智能的落地以及落地的成果。接下来就是进入真正的大规模推广阶段。科大讯飞在人工智能行业不断创新，科大讯飞希望把要求从98提高到99，甚至99.5%，这是作为核心技术创新企业不能忘记的初心。看一下行业内的服务现状。2019年和2020年，讯飞67%-70%的语音交互场景由客户提供，交付项目超过1000个，累计装机量2300万。我很荣幸能参加这次会议。我们想成为多模态的。行业、产业、企业一起是多模态超脑融合的创新之旅，本身就是多模态的。科大讯飞拥有人工智能的技术，并与……打造智能汽车出行体验的行业生态。谢谢大家！2021年6月17日至19日，由中国汽车工业协会主办的第十一届中国汽车论坛在嘉定举行。站在新五年的起点上，本届论坛以“新起点、新战略格局——推动汽车产业高质量发展”为主题，设置“一次闭门峰会+一次会议论坛+两次中外论坛+12场主题论坛”，全方位汇聚政府领导、全球汽车企业领袖、汽车行业精英，共商汽车产业强市大计，落实国家提出的“二氧化碳排放峰值、碳中和”战略目标要求，助力打造。其中，科大讯飞汽车事业部高级产品总监孟醒在6月19日上午举行的主题论坛“智能驾驶舱创新技术论坛”上发表了主题演讲。以下为现场演讲:

discovery

感谢王教授的邀请和论坛。比如王等很多教授给我们在的合作机会，更深入的产学研合作可以促进驾驶舱的进一步深入发展。我今天分享的主题是“智能座舱的多模式感知技术与交互设计思维”。科大讯飞谈论最多的是语音。今天为什么不谈语音学？语音一定要说，但未来语音多模态一定是趋势。科大讯飞进入语音学行业比较早，从语音学不可用、可用、难用、好用开始做了十几年。怎么解决？从语音到多模态一定是未来的发展模式。现在很多人都在说多模。什么是多模？是一堆传感器堆在一起和用户互动吗？是也不是，今天就用自己的想法和大家交流一下。首先，声音。如何更好的服务用户，如何占用用户的时间，如何及时为用户提供更好的服务，这才是诉求。在车上上诉会更痛苦。每天在车里呆上近两个小时，你会发现，以前没有机器的时候在车里挺无聊的，有人陪你聊天就好。智能网联越来越发展，很多东西已经上车了，娱乐，导航，LBS，停车。现在觉得功能不够用，还在逐渐堆积功能。用户坐上这样的多功能公交车是幸福还是负担？这是一个我们深入思考的话题。做了这么多功能，他喜欢从语音和服务上提供给用户的功能吗？这是我们正在思考的问题。如何为用户提供更好的交互方式？让它们用起来更舒服。用户接触互动，83%的信息输入来自视觉，11%来自听觉。但是信息输出的第一步必须依靠语音语调。但是在车上，车内自然的曲线和限制打破了视觉和听觉的平衡，在车上完全靠视觉很难做到，所以发音很重要。今天很多嘉宾分享的语音痛点让我们深有感触，所以我们总结了语音交互的痛点，这也是对这些问题的深入思考和逐步解决。这么多年来，业界和科大讯飞一直专注于为用户提供更好的语音交互。但是我很想把语音交互闭环，让用户在语音交互闭环下使用起来更加流畅顺畅。业内很多客户都想把链条砍掉，砍掉之后再增加更多的优势因素，这是没有问题的。就看怎么切入，怎么整合整合更多好的资源。技术是解决问题的基础和必要元素，但有了技术，用户的问题不一定能完全解决。用户想要的是交互，是体验，是服务。如何做好交互也是我们思考的问题，尤其是在汽车上。在汽车中安全是第一位的，所有的技术和交互都满足一定的目的，但是在汽车环境中保证安全的东西有很多，比如简单、智能、人性化等等。举个小例子，车内语音交互以前是按键和语音唤醒。例如，“飞宇”是科大讯飞互动产品的品牌名称。我们对飞宇说:你好，飞宇，我想去喜来登酒店。“一堆……大还是可以帮你完成的，但是够简单吗？够自然吗？随着用户的使用，如何解决问题？用一句话解决“你好飞鱼，我想去哪里”。这在业内叫一拍即合。但是，用户发现这件事要花很长时间。我的目的是去谢拉顿酒店。有没有快速表达的方法？喜来登酒店。用户说完之后，马上能体现出来的解决方案，在行业内可以说是看得见的。但是这样解决问题是不是更好呢？能充分发挥发音的优势吗？不一定，语音交互最大的优势是渗透。所谓“渗透”，用一句话来表达有三个目的，用一个声音来渗透渗透是最大的优势。可见在某些场景下可以解决问题，但无法发挥发音的最大优势。看、指、说都是一步到位，但没有充分发挥发音的本质问题。我该怎么办？跨场景叫醒电话很多，场景完全是穿透式跨场景。第一句说的是“喜来登酒店”，下一句说的是“先忘掉你的感受”。可见语音交互把简单和自然发挥到了极致。再说智能化和人性化。对智能产品了解不够的人认为，你能和我说话，智能就很厉害，但对智能了解足够的用户知道，智能远不止这些。举个小例子，我儿子叫邢子瑞。有一次玩用户定义，我问邢总是谁，我给我儿子看了。他会说这很聪明。既然你知道我的名字，你知道我的信息，他就高兴极了。让用户定义智能和个性化，让他定义自己的智能。也许他能找到自己的感觉。用户能否参与智能化、人性化的设计？在产品中这样做，让他定义对话，定义他认为好听的模式和形式。第二，多模式。从语音到多模态一定是趋势，语音不可能解决所有问题，也不能解决所有问题。人-车-厂驱动多模式该怎么办？汽车是一个非常复杂的工业集成产品。在车上，集成了各种非常先进的传感技术，包括麦克风、摄像头和雷达。现在很多眼镜也是智能的，还有声学。车上有很多智能设备。汽车是人工智能最好的舞台。汽车的属性慢慢发生了变化。汽车不仅是汽车，也是传统的数据汽车。汽车的数据没有改变，但是随着智能化需求的发展，人的需求会进一步释放。我对车有更多的要求。我想工作和娱乐。人体数据的采集在未来一定会越来越重要，会有更多的领域，更多的领域接触空间。人、车、工厂的数据是一个大平台，收集了很多数据，是一个移动空间。经过这种思考，多模感知的融合一定不是单一模式，而是多模高感知技术的融合。其次，多维数据更好的协同，目的是提高用户体验和交互体验。这么多传感器和数据对客户有什么价值？智能化是一个，但是有没有更好的方法来提升客户品牌的价值，探索更多的商业模式？肯定有。你以为苹果手机卖手机？也许是，也许不是。大场景的架构应该定义为“生物光电”多模态融合。车上有DMS摄像头，麦克风，手势。当用户稍有变化，比如他会知道你变了，推荐导航等语音触发。即使用户用手指说“去那里”，他也能立即导航到那里。DMS摄像头、语音麦克风、手势传感器结合在一起，用户会觉得你懂我一秒，不需要过多解释。只有集成更多的传感器，交互才能更加完整。日前，国家全面放开第三胎。车越来越多，空间越来越大。车里有那么多家人。属性肯定不一样，对车的需求也不一样。车里的人可以同时独立互动吗？交互后，汽车的反馈也是独立的，互不干扰……和对方在一起。主司机反馈导航，孩子反馈娱乐。语音交互和语音交互驾驶舱声音管理必须整合协调。为什么不说语音？语音肯定是非常重要的一个环节，接下来就是把听、说、看、显示各个方面和用户感知结合起来。不是简单的把1+1+1的函数加在一起，而是每个环中的交集部分非常关键，这恰恰是每个领域都无法很好解决的问题，交集问题可以很好的解决。看具体情况——多模式免唤醒。免唤醒跨场景多用途语音传输交互很重要。在车上互动的时候，你会发现未来车里的人很多。是通过人的交互还是机器的交互，和谁？做个区分。如何做好区分？视觉上融合了吗？我知道你的视线，也知道你在和机器互动。还有一些场景你发现嘴唇不动了。如果你没在动，突然的声音说明你没在说话，这就是干扰。视觉和语音相结合，实现多模态免唤醒交互，使车内交互更加可靠、自然、连贯。虚像就是传统的语音波动，显示的是波动条。需要有人用声音做表情吗？肯定是必要的。因为发音是有感情的，有喜有悲。表达上要不要和发音同步规划？你也必须做这件事。从多模态合成到多维合成，多维合成是情感面部表情和情感语言表达的表达。看一下数据。汽车数据平台有很多种数据，场景，用户，汽车。如何整合好数据？中科创达做场景引擎，我们在做，很多行业都在做。还需要有很深的语义理解，不仅仅是文字，还有你的形象、视觉、发音等。要做深层次的语义理解，给你的对话逻辑反馈，一定是更智能的。一位女士在开车，可能车里有各种噪音。很多司机不知道什么意思还继续开，不知道怎么办。出现这种问题的时候，系统和语音助手能不能和他很好的互动，告诉他当天在车上发生了什么，是继续开车不要理他，还是靠边停车的时候怎么办？对车、人、安全、交通系统一定是很好的保障。如何在汽车的知识图谱和汽车本身相关的事物之间建立更好的互动，是我们正在思考的事情。如何为客户创造价值？语音助手的屏幕处于镂空的位置，每天和用户打交道。他是深度用户，其次是汽车、厂商、品牌。他们能联系好吗？车有很多支架，能不能串好？肯定有。当车和数据需要维护到一定阶段，你知道用户有这样的需求，4S店就有这样的服务。适时提醒用户，他一定会接受。对于主机厂和客户来说，用户的深度转化率会提高。简单看一下科大讯飞，他刚刚在6月9日庆祝了他的20岁生日。总的来说，科大讯飞正处于它的青年时代，而且仍然欣欣向荣。希望科大讯飞的大屏智能产业在未来能发展的更好。有两个国家平台，一个是科大讯飞的国际评估，它在6月14日获得了福布斯创新奖。这不是关键。重点是可以看到国家政策和行业趋势对人工智能的落地以及落地的成果。接下来就是进入真正的大规模推广阶段。科大讯飞在人工智能行业不断创新，科大讯飞希望把要求从98提高到99，甚至99.5%，这是作为核心技术创新企业不能忘记的初心。看一下行业内的服务现状。2019年和2020年，讯飞67%-70%的语音交互场景由客户提供，交付项目超过1000个，累计装机量2300万。我很荣幸能参加这次会议。我们想成为多模态的。行业、产业、企业一起是多模态超脑融合的创新之旅，本身就是多模态的。科大讯飞手握AI技术，携手行业生态，打造智能汽车出行体验。谢谢大家！

标签：发现