汽车导航 汽车导航
Ctrl+D收藏汽车导航
首页 > 汽车资讯 > 正文

爱数智慧张晴晴:对话式AI数据推动智能座舱语音交互发展

作者:

时间:1900/1/1 0:00:00

2021年6月17日至19日,由中国汽车工业协会主办的第十一届中国汽车论坛在嘉定举行。站在新五年的起点上,本届论坛以“新起点、新战略格局——推动汽车产业高质量发展”为主题,设置“一次闭门峰会+一次会议论坛+两次中外论坛+12场主题论坛”,全方位汇聚政府领导、全球汽车企业领袖、汽车行业精英,共商汽车产业强市大计,落实国家提出的“二氧化碳排放峰值、碳中和”战略目标要求,助力打造。其中,AIDSU创始人兼CEO、中科院声学研究所研究员张庆庆在6月19日上午举行的主题论坛“智能驾驶舱创新技术论坛”上发表了主题演讲。以下为现场演讲:

Discovery, Beijing

大家好!我是张庆庆,北京爱数智能科技有限公司的创始人兼CEO,今天之前你讲的所有报告都是以智能算法为主,包括产品在汽车行业的应用。也听说很多汽车客户和企业都在提这段时间的数据。今天的报告关注数据,谈论对话式AI数据,以促进智能驾驶舱中的语音交互。一、公司简介二、智能驾驶舱开发。第三,智能驾驶舱数据解决方案。一、公司简介。爱数智为希望进行行业智能化转型的车企提供相应的底层数据解决方案。围绕人机交互的场景,围绕场景中的三个核心点:语音识别、语音合成和自然语言理解,这三个部分需要的数据都有相应的解决方案。核心服务包括相应的标准训练数据产品,以及车厂智能化转型过程中关于智能驾驶舱、智能客服、短视频营销等方面的方案咨询,同时将围绕相应的落地场景提供定制化的数据采集和标注服务。最后,它为汽车工厂提供了一个可以私有化的数据处理系统。公司成立五年来,为头部车企、为汽车行业提供解决方案的算法公司、造车新势力提供相应的数据解决方案。这是我们公司的核心人员。本人在人机交互领域有17年的相应经验。我曾经是中科院声学研究所的博士,法国国家实验室的博士后。我也参与了很多车企解决方案在语音、语言、对话式AI方面的落地。第二,智能驾驶舱的发展。智能驾驶舱已经发展了很多年。最早主要是用来控制硬件,开空调或者上下调节车窗。现在我希望人和机器之间有更多类型的交互,包括对话式的自然交流。比如温度升高,可以说我感觉很热很冷。除了语音交互,现在正在进入多模态状态,包括视觉和图像,可以围绕多个维度分析用户行为,这是智能驾驶舱非常重要的发展方向。其中,语音交互本身就是信息的主要载体,也是驾驶舱非常重要的落地点。同时,因为在驾驶的过程中,最早的方式是使用语音交互来保证安全。在驾驶舱语音交互中,有很多可以使用语音的点。一些常见的导航、收音机和内容搜索会使用语音,包括与车内硬件设备交互时的语音。如果出现异常情况,比如紧急呼救,也需要涉及语音需求。核心算法主要有三个:语音识别、语音合成和自然语言理解。简单来说,语音识别就是我们说一句话,比如“帮我把温度调低”。机器需要识别我说这句话的声音,并转换成文字。对于机器来说,要听清楚我在说什么。听清楚了,我就明白用意是什么了,用意是调节温度。在这种情况下,就需要理解意思表示的认可和“理解”。接下来的环节,机器需要给我相应的反馈,通过语音合成广播声音的方式告诉我机器完成了相应的动作。“说得好”。这三点都在应用中,但也有明显的痛点和问题。比如从语音识别的角度来说,最大的一点就是人说话是有口音的。很多人说我的普通话不太标准,甚至有些人带着方言普通话说得不太好。在这种情况下,机器可能听不清楚正在说什么,所以识别率会很差,口音是很重要的一点。同时,因为驾驶舱的噪音,识别率会进一步降低。在语音合成中,我希望机器播出来的声音是自然的,甚至我可以从几千个人中选择。但我们现在看到的是,机器的合成音很机械……nd不自然,不像人说话,代入感也不好。自然语言理解是最大的难点,如何理解人们表达同一意图时使用句子的方式千差万别。比如当我想调节温度的时候,可能我说的根本不是调节温度。我说的是感觉热,这是理解意图的重要一点。对异常表情的理解是在驾驶舱过程中尽可能丰富语料。总的来说,这部分做得不够好,也可能导致机器完全看不懂。目前这三个部分在落地时都会有痛点。一般来说,大家本能的第一反应都是方案不够好或者算法不够好。其实会发现人工智能的过程核心是由三个基本部分组成的,分别是计算能力、算法和数据。其中,相对于算法,数据的影响才是根本所在。我们对比分析了孙发,基本上是不同的,但是用同样的数据,你的算法不会有很大的不同。但是如果你是同一个算法,数据清洗和选择不一样,结果完全不一样。所以系统的增益主要来自数据部分。数据并不是大家想的那样。从人说话的那一刻开始采集语音后,就可以发送到智能系统。其实不然。在这个过程中,需要经历结构化数据清洗的过程。数据有点像原油。汽油加原油的过程需要很多过程,最后才能得到真正能用的型号。数据是一样的。从左边的原始音频到右边的数据,再送到系统迭代,会经过很多专业的步骤,每一步的质量都会影响到最终模型的性能。对于数据来说,结构的质量决定了智能系统的性能。除了“质”,很重要的一点是“量”。蓝图的这条线是大家在智能化过程中主要使用的深度学习算法,红线是过去传统的浅层学习方法。当你看蓝线的时候,你会发现两点。首先,你会看到趋势。横坐标是发送给模型的训练数据量,纵坐标是识别性能。发送的数据越多,识别性能越好。在这个过程中,顶点就是目前属于互联网的头部公司每年在AI上投入的结构化数据量。以下几点是目前行业客户投入的数量级。基本上你会看到一个很大的量级差异。例如,互联网公司每年在结构化数据上投资大约100,000小时的增量数据。所以做人机交互的互联网公司识别性能会更好。数据量对模型性能的影响也非常关键。“质”和“量”都是要考虑的点。大家都会觉得数据只要加进去就能获得更好的性能。有必要投入大量资金才能获得相应的收益吗?其实并不一定每个人都要投入那么多才能得到相应的收益。在数据行业,提出了“数据匹配28原则”。在汽车行业,80%的数据是通用数据,可以通过标准化数据集来构建,这部分数据可以理解为完全的一次性投入,一次性投入后可以用于很多功能点的迭代优化。真正需要定制的数据只占总数的20%。从时间R&F的角度来看,实际投资总额并不高,获得的收益也不错。给你一个更生动的数据来呈现。左图显示汽车驾驶舱内有四个场景和功能点。如果不是为了迭代模型的性能完全按照二八原则定制每个功能点,现在有些车企还在用这种方式,相对来说还是比较安全的。但是这样每个功能点就要花费1000个小时,总成本是4000个小时。但是每个功能点只享受1000小时的训练数据,量是有限的。另一方面,右图中,一个是导航,一个是音乐控制,一个是硬件控制。然而,这将伴随着对话,这将涉及……口音和方言。这些数据可以作为底层数据共享。如果80%的数据是共享的(1600小时),每个功能点只投入400小时的定制数据,那么总的投入成本只有3200小时。但是每个功能点享受的训练数据量是2000小时。ROI会比左边的纯定制高很多。标准数据集的使用在于,站在一棵树上是可取的,数据的合规性和安全性会得到更好的保障,这对于帮助车企更快的进行智能迭代优化过程会起到非常好的作用。第三,智能出行数据解决方案。目前,AIDMI拥有世界上最大的交互训练数据集,所有标记数据总计15万小时。贴标签是什么意思?数据都是多维度标注的。除了发音对应的单词,还会有性别、年龄范围、口音区域等多维度标签,帮助你从更多维度优化模型。它将包含对话和命令控制的读取数据。特别是,这些语言是单独列出的。中国有大量的方言资料。目前,方言是车企在落地过程中很头疼的一个问题。您可以考虑使用标准数据集来帮助您快速执行初始迭代过程。特别提到中英文混合数据。这种数据非常容易出现在汽车驾驶舱,在做电台和音乐交互时经常会涉及到中英文混合的场景,比如FM199.2,比如“FM”就是英文部分。这种现象在物联网的很多领域都会出现,一个好的解决方案就是通过标准的训练数据集,帮助大家快速补齐能力。汽车公司纷纷出海,一带一路、欧盟和其他地区都有汽车公司。特别是呈现外语的数据基础能力,热门的各大语种都有涵盖。针对目前汽车行业涉及的几个主要场景推荐的训练数据产品,详细列出,包括应用和相关技术,包括关键问题,如方言识别、口音识别、数字识别、唤醒词等。,以及相应的数据推荐。有详细的产品清单。有兴趣的可以稍后去展台交流。智能客服和营销更受汽车行业关注。现在一些汽车公司除了线上营销之外,还问我们线下营销的需求。在这一部分,我们对相应的数据产品进行了分类和推荐。线上主要利用电话渠道数据,线下通过面对面的谈话数据帮你定制优化。(3)也会有车企对发布会现场感兴趣。核心是对话数据的解决,所以我做了相应的推荐。对于数据服务企业来说,数据安全和合规是生命之本。在这方面,我们一直在持续投入。AIDMI是中国首家获得ISO27701认证的数据服务提供商。27701是世界上最新的个人隐私认证。它一直遵循外国GDPR和国内数据安全法,并遵循最高的国际和国内数据处理标准。你们都有自己的私有域数据。从安全的角度来说,数据最好拿在手上,最好不要离开自己的服务器。针对该场景,相应的数据处理系统具备私有化部署能力,展示了三个数据处理平台:(1)语音标注审计平台。主要针对交互、广播等声音处理,可以提供私有化部署和相应的服务。(2)文本标注审计平台。主要涉及句型的拓展。本章会做意图标注,用文字解决。(3)音视频多模态标注审计平台。今年又开发了新的多模态标注审计平台,可以同步处理音频和对应的视频,做出很多高维的内容选择。目前处理的最高维度接近1000倍的数据。部分数据,尤其是汽车的噪音数据和汽车行业的交互语音数据,被放入今年发布的数据开源社区MagicHub.io。如果有兴趣,可以在开源社区下载并尝试相应的数据。如果你有更多的兴趣,请加入……ult us。我今天的报告到此为止。谢谢大家!2021年6月17日至19日,由中国汽车工业协会主办的第十一届中国汽车论坛在嘉定举行。站在新五年的起点上,本届论坛以“新起点、新战略格局——推动汽车产业高质量发展”为主题,设置“一次闭门峰会+一次会议论坛+两次中外论坛+12场主题论坛”,全方位汇聚政府领导、全球汽车企业领袖、汽车行业精英,共商汽车产业强市大计,落实国家提出的“二氧化碳排放峰值、碳中和”战略目标要求,助力打造。其中,AIDSU创始人兼CEO、中科院声学研究所研究员张庆庆在6月19日上午举行的主题论坛“智能驾驶舱创新技术论坛”上发表了主题演讲。以下为现场演讲:

Discovery, Beijing

大家好!我是张庆庆,北京爱数智能科技有限公司的创始人兼CEO,今天之前你讲的所有报告都是以智能算法为主,包括产品在汽车行业的应用。也听说很多汽车客户和企业都在提这段时间的数据。今天的报告关注数据,谈论对话式AI数据,以促进智能驾驶舱中的语音交互。一、公司简介二、智能驾驶舱开发。第三,智能驾驶舱数据解决方案。一、公司简介。爱数智为希望进行行业智能化转型的车企提供相应的底层数据解决方案。围绕人机交互的场景,围绕场景中的三个核心点:语音识别、语音合成和自然语言理解,这三个部分需要的数据都有相应的解决方案。核心服务包括相应的标准训练数据产品,以及车厂智能化转型过程中关于智能驾驶舱、智能客服、短视频营销等方面的方案咨询,同时将围绕相应的落地场景提供定制化的数据采集和标注服务。最后,它为汽车工厂提供了一个可以私有化的数据处理系统。公司成立五年来,为头部车企、为汽车行业提供解决方案的算法公司、造车新势力提供相应的数据解决方案。这是我们公司的核心人员。本人在人机交互领域有17年的相应经验。我曾经是中科院声学研究所的博士,法国国家实验室的博士后。我也参与了很多车企解决方案在语音、语言、对话式AI方面的落地。第二,智能驾驶舱的发展。智能驾驶舱已经发展了很多年。最早主要是用来控制硬件,开空调或者上下调节车窗。现在我希望人和机器之间有更多类型的交互,包括对话式的自然交流。比如温度升高,可以说我感觉很热很冷。除了语音交互,现在正在进入多模态状态,包括视觉和图像,可以围绕多个维度分析用户行为,这是智能驾驶舱非常重要的发展方向。其中,语音交互本身就是信息的主要载体,也是驾驶舱非常重要的落地点。同时,因为在驾驶的过程中,最早的方式是使用语音交互来保证安全。在驾驶舱语音交互中,有很多可以使用语音的点。一些常见的导航、收音机和内容搜索会使用语音,包括与车内硬件设备交互时的语音。如果出现异常情况,比如紧急呼救,也需要涉及语音需求。核心算法主要有三个:语音识别、语音合成和自然语言理解。简单来说,语音识别就是我们说一句话,比如“帮我把温度调低”。机器需要识别我说这句话的声音,并转换成文字。对于机器来说,要听清楚我在说什么。听清楚了,我就明白用意是什么了,用意是调节温度。在这种情况下,就需要理解意思表示的认可和“理解”。接下来的环节,机器需要给我相应的反馈,通过语音合成广播声音的方式告诉我机器完成了相应的动作。“说得好”。这三点都在应用中,但也有明显的痛点和问题。比如从语音识别的角度来说,最大的一点就是人说话是有口音的。很多人说我的普通话不太标准,甚至有些人带着方言普通话说得不太好。在这种情况下,机器可能听不清楚正在说什么,所以识别率会很差,口音是很重要的一点。同时,因为驾驶舱的噪音,识别率会进一步降低。在语音合成中,我希望机器播出来的声音是自然的,甚至我可以从几千个人中选择。但我们现在看到的是,机器的合成音很机械……nd不自然,不像人说话,代入感也不好。自然语言理解是最大的难点,如何理解人们表达同一意图时使用句子的方式千差万别。比如当我想调节温度的时候,可能我说的根本不是调节温度。我说的是感觉热,这是理解意图的重要一点。对异常表情的理解是在驾驶舱过程中尽可能丰富语料。总的来说,这部分做得不够好,也可能导致机器完全看不懂。目前这三个部分在落地时都会有痛点。一般来说,大家本能的第一反应都是方案不够好或者算法不够好。其实会发现人工智能的过程核心是由三个基本部分组成的,分别是计算能力、算法和数据。其中,相对于算法,数据的影响才是根本所在。我们对比分析了孙发,基本上是不同的,但是用同样的数据,你的算法不会有很大的不同。但是如果你是同一个算法,数据清洗和选择不一样,结果完全不一样。所以系统的增益主要来自数据部分。数据并不是大家想的那样。从人说话的那一刻开始采集语音后,就可以发送到智能系统。其实不然。在这个过程中,需要经历结构化数据清洗的过程。数据有点像原油。汽油加原油的过程需要很多过程,最后才能得到真正能用的型号。数据是一样的。从左边的原始音频到右边的数据,再送到系统迭代,会经过很多专业的步骤,每一步的质量都会影响到最终模型的性能。对于数据来说,结构的质量决定了智能系统的性能。除了“质”,很重要的一点是“量”。蓝图的这条线是大家在智能化过程中主要使用的深度学习算法,红线是过去传统的浅层学习方法。当你看蓝线的时候,你会发现两点。首先,你会看到趋势。横坐标是发送给模型的训练数据量,纵坐标是识别性能。发送的数据越多,识别性能越好。在这个过程中,顶点就是目前属于互联网的头部公司每年在AI上投入的结构化数据量。以下几点是目前行业客户投入的数量级。基本上你会看到一个很大的量级差异。例如,互联网公司每年在结构化数据上投资大约100,000小时的增量数据。所以做人机交互的互联网公司识别性能会更好。数据量对模型性能的影响也非常关键。“质”和“量”都是要考虑的点。大家都会觉得数据只要加进去就能获得更好的性能。有必要投入大量资金才能获得相应的收益吗?其实并不一定每个人都要投入那么多才能得到相应的收益。在数据行业,提出了“数据匹配28原则”。在汽车行业,80%的数据是通用数据,可以通过标准化数据集来构建,这部分数据可以理解为完全的一次性投入,一次性投入后可以用于很多功能点的迭代优化。真正需要定制的数据只占总数的20%。从时间R&F的角度来看,实际投资总额并不高,获得的收益也不错。给你一个更生动的数据来呈现。左图显示汽车驾驶舱内有四个场景和功能点。如果不是为了迭代模型的性能完全按照二八原则定制每个功能点,现在有些车企还在用这种方式,相对来说还是比较安全的。但是这样每个功能点就要花费1000个小时,总成本是4000个小时。但是每个功能点只享受1000小时的训练数据,量是有限的。另一方面,右图中,一个是导航,一个是音乐控制,一个是硬件控制。然而,这将伴随着对话,这将涉及……口音和方言。这些数据可以作为底层数据共享。如果80%的数据是共享的(1600小时),每个功能点只投入400小时的定制数据,那么总的投入成本只有3200小时。但是每个功能点享受的训练数据量是2000小时。ROI会比左边的纯定制高很多。标准数据集的使用在于,站在一棵树上是可取的,数据的合规性和安全性会得到更好的保障,这对于帮助车企更快的进行智能迭代优化过程会起到非常好的作用。第三,智能出行数据解决方案。目前,AIDMI拥有世界上最大的交互训练数据集,所有标记数据总计15万小时。贴标签是什么意思?数据都是多维度标注的。除了发音对应的单词,还会有性别、年龄范围、口音区域等多维度标签,帮助你从更多维度优化模型。它将包含对话和命令控制的读取数据。特别是,这些语言是单独列出的。中国有大量的方言资料。目前,方言是车企在落地过程中很头疼的一个问题。您可以考虑使用标准数据集来帮助您快速执行初始迭代过程。特别提到中英文混合数据。这种数据非常容易出现在汽车驾驶舱,在做电台和音乐交互时经常会涉及到中英文混合的场景,比如FM199.2,比如“FM”就是英文部分。这种现象在物联网的很多领域都会出现,一个好的解决方案就是通过标准的训练数据集,帮助大家快速补齐能力。汽车公司纷纷出海,一带一路、欧盟和其他地区都有汽车公司。特别是呈现外语的数据基础能力,热门的各大语种都有涵盖。针对目前汽车行业涉及的几个主要场景推荐的训练数据产品,详细列出,包括应用和相关技术,包括关键问题,如方言识别、口音识别、数字识别、唤醒词等。,以及相应的数据推荐。有详细的产品清单。有兴趣的可以稍后去展台交流。智能客服和营销更受汽车行业关注。现在一些汽车公司除了线上营销之外,还问我们线下营销的需求。在这一部分,我们对相应的数据产品进行了分类和推荐。线上主要利用电话渠道数据,线下通过面对面的谈话数据帮你定制优化。(3)也会有车企对发布会现场感兴趣。核心是对话数据的解决,所以我做了相应的推荐。对于数据服务企业来说,数据安全和合规是生命之本。在这方面,我们一直在持续投入。AIDMI是中国首家获得ISO27701认证的数据服务提供商。27701是世界上最新的个人隐私认证。它一直遵循外国GDPR和国内数据安全法,并遵循最高的国际和国内数据处理标准。你们都有自己的私有域数据。从安全的角度来说,数据最好拿在手上,最好不要离开自己的服务器。针对该场景,相应的数据处理系统具备私有化部署能力,展示了三个数据处理平台:(1)语音标注审计平台。主要针对交互、广播等声音处理,可以提供私有化部署和相应的服务。(2)文本标注审计平台。主要涉及句型的拓展。本章会做意图标注,用文字解决。(3)音视频多模态标注审计平台。今年又开发了新的多模态标注审计平台,可以同步处理音频和对应的视频,做出很多高维的内容选择。目前处理的最高维度接近1000倍的数据。部分数据,尤其是汽车的噪音数据和汽车行业的交互语音数据,被放入今年发布的数据开源社区MagicHub.io。如果有兴趣,可以在开源社区下载并尝试相应的数据。如果你有更多的兴趣,请咨询我们。我今天的报告到此为止。谢谢大家!

标签:发现北京

汽车资讯热门资讯
终端需求不足?6月车市增长略显乏力

6月已过半,从目前来看,该月车市增长略显乏力。近日,中汽协根据行业内11家汽车重点企业上报的数据整理显示,2021年6月上旬,11家重点企业汽车生产完成434万辆,同比下降366。

1900/1/1 0:00:00
亚马逊从智加科技采购1000套自动卡车驾驶系统,后者估值已达33亿美元

雷锋网消息,据彭博社报道,亚马逊从自动驾驶卡车运输初创公司Plusai(中文名为智加科技)购买了1000套自动驾驶卡车系统。

1900/1/1 0:00:00
地平线张宏志:“智”空间,“芯”体验

2021年6月17日19日,由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。

1900/1/1 0:00:00
时代上汽动力电池产业化项目二期开工

近日,宁德时代与上汽集团合资成立的上汽时代和时代上汽先进动力电池产业化项目(二期)开工仪式在溧阳正式举办。

1900/1/1 0:00:00
潘晓红:智能座舱是智能网联汽车的技术集大成者

2021年6月17日19日,由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。

1900/1/1 0:00:00
科大讯飞邢猛:面向智能座舱的多模感知技术及交互设计思考

2021年6月17日19日,由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。

1900/1/1 0:00:00