当前位置:首页 > 企业新闻 >

快三平台-对话微软黄学东:语音语言技术是镶在AI皇冠上的明珠

编辑:首页 来源:首页 创发布时间:2020-11-21阅读87252次
  

快三平台_[图片来源:Microsoft Research Blog所有者:Microsoft Research Blog]点击:最后,你和你的电脑开始了有意义的对话,你什么时候觉得它能真正解释你?如果微软技术研究院、微软语言语音组组长黄鹤洞博士做了,你也可以做。而且,如果他过去的研究知道超过他所说的水平,这一天的到来可能会比你想要的更慢。

黄鹤洞教授在播客中讲述了微软作为首席语音技术科学家的工作内容,说明了语言语音技术最近里程碑的内部细节和语音识别控制、翻译和交流如何使机器从“感觉人工智能”到“理解人工智能”回到遥远的地方,语音识别、翻译和交流有多少,全文编译器如下。主持人:黄鹤洞,我更喜欢回到微软公司的播客节目。

黄鹤洞:谢谢。主持人:你是语言语音组的微软技术研究院,领导微软的口语工作。我们不会在几天后开始深入讨论。

但是首先,作为微软的首席语音科学家,请简要地告诉我我们做了什么,以及为什么做这些事情。让你每天睡觉的原动力是什么?黄鹤洞:是的,我们现在做的是确保我们将最差的语音语言技术应用到更广泛的领域。

我们之所以有团队做这件事,是因为这不仅是人类最自然的沟通方式,也是我们现在面临的最困难的人工智能挑战。这就是我们所做的。在云Azure Services上确实尝试突破,获得优异的服务,确保让微软的客户和微软外部的客户失望。

如果你想把所有的事情都订在框架上,主要有三个方面。首先,我们有能力驱动语音识别的准确性,驱动准备工作的自然性。将英语翻译成汉语、法语、德语时,可以确认翻译质量是否正确。

因此,很多科学家在背后确认这些准确性、自然性和潜在因素,他们是世界一流的科学家。这是第一个方面。第二个方面是,不仅是技术,Azure也接受服务。

从Office到Windows、Cortana,所有人都依赖同一个云服务。不仅如此,还有语音设备SDK等边缘设备。因此,我们想确保边缘设备和云中的语音技术都以现代方式展开。这是第二个方面:平台是现代的。

首页

第三个方面是向消费者表达爱意。因为我们享有全球普遍的顾客。

我们想让消费者开心,让我们的消费者体验到他们使用的语音翻译是一流的。这是我实际上主要做的三件事。提高AI的能力,使云和边缘设备的平台现代化,热爱客户。

(大卫亚设,北方执行)主持人:嗯。你有很多团队在这个小组工作,以解决我们称为“支柱”的问题。

黄鹤洞:是的,我们在世界各地都有团队。此外,这些球队的多样性令人难以置信。因为我们正在努力解决语言障碍。

因此,我们在中国有团队,在德国、以色列、印度和美国也有一定程度的团队。戴尔致力于在全球解决这些语言问题。主持人:为了今天我们的对话,我想再次提及你的话。

你说:“语音语言技术是镶嵌在AI王冠上的明珠。”说。

请给我们解释一下。黄鹤洞:是的,很好。

我们可以在人类进化的范畴里思考。某个时期出现了语言,它加速了人类的进化。如果你看到这个星球上的所有动物,就像你说的,很多动物跑得比人类慢,视力比人类好。

主持人:他们的牙齿也很锋利。黄鹤洞:特别是晚上。

主持人:他们很强壮。黄鹤洞:是的。他们比人类听得近,嗅觉比人类灵敏,但只有人类享受语言。我们需要一个顺利的组织,用科幻小说的术语叙述,需要自己的组织,写宪法。

如果你看到人类的这一方面,你不会说语音和语言将我们与其他动物区分开来。对于人工智能,语音语言技术应该像驱动人类进化一样驱动人工智能的进化。这就是镶嵌在人工智能王冠上的明珠。而且它还是柔软的,不能破坏。

主持人:是的。虽然对这个主题有哲学争论,但它提出了一个有趣的问题。如果你在机器语言中获得了相当大的顺利,这些机器会是什么呢?黄鹤洞:充分发挥想象力吧。

有时我们说电脑需要破解300种语言,需要流利的沟通和对话。我还没有遇到需要说300种语言的人。而且,机器不仅要进行流利的交流和对话,还要在理解、解释、自学、家庭和所有科目上获得博士学位。这种科学知识的提供,假设达到任何人的个人能力。

当这个时刻到来的时候,可以想象人工智能能有多聪明。(威廉莎士比亚、人工智能、人工智能、智能)主持人:这是你想象的吗?黄鹤洞:是的。

主持人:我们想那样做吗?黄鹤洞:是的。我真的需要这个世界沦落到一个更好的世界。几周前,我在日本有一台在移动设备上穿衣的微软翻译机,我需要和会说汉语或英语的日本人交流。(大卫亚设,Northern Exposure)微软翻译器需要说我能说的语言。

当我在日本的时候,它会帮助我看起来更有效率。主持人:我完全同意。一想到这台机器,我就有点害怕。

“我们不是第一个,也不是最后一个。我们只是下一个,黄学同而已。但是这种智能有两个层次。

第一个水平是感官智能。看得见,听得见,闻得见。高水平是理解智力。今天我们获得的人工智能突破大部分是从语音识别、语音合成、计算机视觉等感官层面实现的。

但是,在高级推理小说和科学知识提供这种理解能力方面,人工智能与人类水平相去甚远。而且最鼓舞人心的是翻译器。

它是感官智能和理解智能的物体。事实上,我们需要在感官智能的基础上取得成功,扩展到理解智能,这是一个非常漫长的过程。我不告诉我们什么时候应该到达那个里程碑。

但是那天就在附近。这只是时间问题。它可能还需要50年,但我指出这不会再发生了。

主持人:既然我们现在在谈论里程碑,我们将在其他博客上详细讨论。但是首先,我想总结一下,当Rick Rashid正式成立的组织和成立第一个语音团队时,你已经在微软研究所工作了没多久。(大卫亚设,Northern Exposure(美国电视剧),)根据MSR的传说,这个团队的目标是“将声音纳入主流”,要求你详细了解MSR中的语音历史。该研究如何从早期的“非主流”“冒险创造未来”到今天,完全出现在微软的所有产品中?黄鹤洞:在我再次加入微软公司之前,我是匹兹堡CMU的教师。

当时里克拉希德是那里的教授,我是初级教师。我的语音研究主要在CMU积极进行。

后来,微软和我发现我想成立一个语音研究小组。所以1993年的第一天,新的假期后,我从匹兹堡飞往西雅图,开始了这个没有改变的旅程。

这就是微软语音研究的开端。我们是一个开始为开发者提供语音技术的研究团队。主持人:嗯。

黄鹤洞:所以.主持人:所以还是特别深奥的纯理论研究黄鹤洞:是的,不是特别深奥的纯理论研究。我们从CMU获得了技术许可,我们就这样开始了。非常感谢CMU在这一领域的开创性研究。

我们是研究团队,但我们在Windows '95上发布了第一个语音API,SAPI。作为研究团队,我们感到非常骄傲。因为一般的研究只是特别深奥的纯理论研究。

我们不仅进行了特别深刻的纯理论研究,之后还挑战了无穷大,提高了理解的准确性,我们还与Windows合作,将该技术带给了Windows开发人员。SAPI是业界第一个基于Windows的语音API。主持人:哇!黄学东:这是一个很长的过程。

快三平台

之后,我带着我们的团队最终离开研究部门,重新加入了产品团队。我带着团队来到了产品团队,还有另一个与我同行的杰出微软语音研究团队。

这是我在微软27年的精彩经历。2004年,我们发布语音服务器后,我停止了语音研究,我开始做很多工作,开始研究产卵。Satya Nadella经营Bing的时候,我是一名建筑师。

然后,Harry管理研究和技术团队帮助分散GPU集群、项目Philly和深度自主学习工具包CNTK等一系列人工智能项目。大约三年前,我幸运地管理了一个融合语音和语言的团队。

基本上,我们需要整合所有语音和翻译的资源。这就是我的故事,我的经历,精彩的27年。

主持人:现在语音语言研究从哪里开始?黄鹤洞:正如我所说,我们在研究组和产品组之间往返了好几次。目前我们在云和人工智能组,这是一个产品组。

我们是这些云服务的一部分,我们得到了整个公司和整个行业的语音翻译服务。我们也在进行语音和对话研究,他们像研究组一样运营。

黄学东:他们都是该集团的研究员。正如里克所说,科研成果是各部门必须应对的事情。

在我们微软,已经在一定程度上各部门密切合作,我们只是一体。(威廉莎士比亚、温斯顿、微软、微软、微软、微软)主持人:在研究模式上,我们仍然展望未来。

黄鹤洞:不仅预见未来,而且有充分的根据。我们必须从服务、基础设施、服务成本和低处展望未来,定义人们需要的、思考的问题解决方法是什么。即使现在这个问题解决方法可能不存在,他们也可能还不告诉你什么。

主持人:让我明确地谈谈前面提到的研究里程碑。这应该不太有趣。刚才处理了对话语音识别、机器翻译、对话解说这三个领域。

让我们从对话型语音识别开始。2016年,你带领一个队,在抄写的对话语音上超过了与人类相当的历史水平。告诉我们,那是什么部分,是怎么产生的?黄鹤洞:2016年,我们被普遍用于相互开关会话mRNA任务,超过了与人类相似的水平。

这个任务在研究界和工业界可能已经使用了十多年。2017年,我们重新定义了这个里程碑,应该超过与人类相当的水平。在MRNA任务中,我们不是单纯地与一个人竞争,而是与一群人竞争。

我想说2017年是历史性的时刻。比较微软公司的语音堆栈和各队的人,显示mRNA执行完全相同的任务,高于这四个队的总和。当我用它挑战我们的研究小组时,没有人想到它有可能被打败。但是令人惊讶的是,近两年来,我们发现信念、资源和焦点在的时候奇迹再次发生。

(大卫亚设,北方执行部队)。 这是对团队、科学和技术堆栈的感人时刻。这是我个人经历中第一个要超越与人类相当的水平的里程碑。

主持人:我想研究一下这个领域。你刚才说的都很有趣。

两年来没有人坚信要建设这项工作,但你们最终顺利地完成了。(大卫亚设,Northern Exposure(美国电视),成功)另外,请分享语音mRNA如何构建人类水平的技术层面的更多内容。(大卫亚设,Northern Exposure(美国电视),语音名言)黄鹤东:所以,如果你查阅语音研究历史,你会发现后人反复使用的破格成果都是我们语音研究组开创的。(威廉莎士比亚、语音研究组、语音研究组、语音研究组、语音研究组、语音研究组)翻译在20世纪70年代初期的语音研究领域也被更多地用于传统AI,如基于规则的方法、专家系统等。

IBM Watson在研究中首次提出统计语音识别方法,利用隐藏的马尔可夫模型及统计语言模型构建语音识别,极大地展开了这一领域的发展。因此,这也成为了语音领域的亮点时刻。此后,IBM同一语言研究小组的研究人员将这一用于语音识别的想法应用于翻译翻译,切实提高翻译质量,重新改写为历史。

隐藏的马尔可夫模型后,语音识别领域开始使用深度自学方法,即神经语音识别。结果,再次翻译成吸收神经语音识别的想法,开始用于神经机器翻译的方法,并将整个翻译再次推进到领域。(威廉莎士比亚、哈姆雷特、语言)因此,你可以看到语音领域研究人员在其他领域开拓的技术的镜子。

本质上,语音领域的研究人员仍然引领着技术的突破性发展。例如,DARPA创立的系统基础测试使用了非常严格的评价标准,改变了科学和工程的评价方式。(威廉莎士比亚,温斯顿,) (主持人:是的。黄鹤洞:本质上,语音语言技术可以给语音以外的其他领域带来很多普遍使用的经验。

因此,我们仍然在训练研究小组来解决困难的问题。因此,像我们这样的研究团队构建了这样的历史里程碑也不足为奇。主持人:现在,我们来谈谈另一个里程碑。

WMT-2017的中英文新闻将自动翻译成工作,构建人类水平。回答,我在采访节目中和Arul Menezes闲聊了关于这一成果的一切。

但是我还能理解你怎么看,以及现在机器翻译是否能与传统人工翻译相媲美。而且,为什么这一成果是超越人类和文化之间壁垒的最重要突破?黄鹤洞:我们研究组构建第二个人类水平的开创性成果也相当有趣。正如我所说,开关板语音mrna是最好的里程碑。

但它显然仍然处于非常低的水平,即感觉AI水平。翻译是感官AI和理解AI之间的任务。当然,翻译是再生可能性更大的任务,没有人坚信我们需要取得这样的成果。(威廉莎士比亚、泰姆派斯特、文采)因此,我们制定了一个目标,思考5年内能否让机器从句子水平的基础翻译成任务。

所以我也想在这里分享这个故事。人类和你一样,我在翻译的时候,我们不会去看文章的整个段落,因此会有更广泛的上下文,我们的翻译工作也会做得更好。约翰肯尼迪,翻译名言)WMT只针对文章级别的新闻翻译,因此与普遍翻译相比,对人类的水平有一些允许。

主持人:嗯哼。黄鹤洞:所以我们积极开展的只是普遍的对外开放研究3354公共基准测试。尽管如此,我们指出,这可能需要五年时间。

快三平台

所以我们使用了一定的原则:根据交换台语音识别mRNA的成果积极开展研究。但实际上,这次,我们对这一阶段有些清醒。任务是把中文翻译成英文,所以我们和微软的北京研究组一起工作。

因此,横跨太平洋的多支微软公司亚洲研究院团队日夜进行合作研究。令人惊讶的是,这些研究人员制定了近一年的这个目标,让机器翻译构建人类水平。这也是机器构建的历史上最好的翻译水平。同时,通过我们科学家的评价,他们比专业翻译人员在同一个任务中表现得更出色。

(大卫亚设,Northern Exposure(美国电视),)在这一刻,我们知道建设有奇迹。我对这个研究小组和这次合作感到非常骄傲。主持人:我想谈谈另一个有趣的研究结果,即你称为COQA的解说数据挑战。

显然,我们正在谈论的是需要与我们进行解说对话的电脑。在语音识别技术上,与人类最相似或可玩性仅次于人类的任务,今后要积极开展的工作是什么?(威廉莎士比亚、温斯顿、语音、语音、语音、语音、语音、语音、语音)黄鹤东:COQA解说数据挑战赛是斯坦福大学研究人员开创的比赛,更像是理解AI。本质上隐含着与不能说话、对话、任务相关的机器读者任务。假设你在读者的某篇文章中,让读者挑战正确地问一系列相关问题。

约翰肯尼迪,学习)例如,如果你读一篇关于比尔盖茨的文章,第一个问题是“微软的创始人是谁?”是。第二个问题与第一个问题无关。

“这个人成立微软的时候多大?”“之后的问题是:‘这个人卸任的时候,他多大年纪?’有可能是。“因此,上下文的相关性优于非常简单的机器读者。

因为你需要问一系列与平等上下文相关的问题。因此,对于这一最近的突破,我应该集中精力向北京研究室的同事们传达我的赞赏。同时,我们知道,我们仍然在利用共享资源和基础设置,积极开展这项创新性的研究工作。

同时,我们完成了这场惊人的绘画解说挑战赛的灵活性和速度,都打动了我。其中主力研究人员目前在北京,微软公司将在这个非常不显眼的AI任务中首次发挥构建人类水平的最重要支撑作用。(威廉莎士比亚,Northern Exposure(美国电视),)没有人会相信,在这么短的时间内,要在这个传统的QA任务中构建人类水平。(威廉莎士比亚,哈姆雷特,信不信由你)因此,起初我们预计这个目标需要两年,但最终我们又一次超越了历史。

(大卫亚设,Northern Exposure(美国电视连续剧),成功)主持人:我们已经就你正在积极开展的研究工作和如何积极开展的权宜之计进行了交谈。(大卫亚设,Northern Exposure(美国电视剧),关于如何积极开展研究相关工作,是否有攻克这一QA工作所需的其他方法或技能?黄鹤洞:微软在AI领域已经积累了约30年的研究经验。不是吗?微软在北京的自然语言研究小组在过去20年里仍在研究QA任务,他们在文化遗产方面有很多先天优势,同时积累了很多经验。

(威廉莎士比亚,Northern Exposure(美国电视剧),)同时,我们基本上被用于深度自学和移动自学,完成了QA任务。因此,我们的顺利是根据整个研究领域的成果得出的。

主持人:嗯。黄鹤洞:例如,谷歌发布了特别篮子技术3354BERT。主持人:BERT是英文字母的缩写吗?黄学东:是文字缩写。

映射技术。我们的研究成果是以这项技术为基础扩张的,所以我们的顺利也有其功劳。

这也是我们获得机器翻译构建人类水平的开创性方法。主持人:嗯。

黄鹤洞:这只是整个研究领域的光盘。我刚才说的微软亚洲研究院团队和在美国的团队之间的合作本质上可以说是产业界之间合作的一个例子。(听音乐)主持人:你在节目中给我们描述的都很有趣。一切朝正确的方向发展后,一旦顺利,我们就要解决可能朝错误的方向发展的问题。

黄鹤洞:是的。主持人:你期待电脑用听、听、说、翻译、提问和最基本的方法与人类沟通。

那什么事让你感触很深呢?黄鹤洞:差不多有了。实际上,我的担心是,将来有一天人类不会过度依赖AI。但是AI总有一天不会显得完美,它不会有一系列独特的种族歧视。

所以我很担心这个人类无法感知的影响。主持人:我赞成。

黄鹤洞:所以如何应对这一担忧本质上是我们需要认识和紧急解决的普遍社会议题。(大卫亚设,Northern Exposure(美国电视),学习)和我们大家一样,一旦享受到我们所依赖的助手,我们几乎需要了解这个助手对我们的影响有多大。也就是说,他不会改变你的议程,甚至不会改变你的观点。

(大卫亚设,Northern Exposure(美国电视剧),AI总有一天不会扮演和助手一样的角色。我现在最担心的是如何解决问题AI的种族歧视问题。主持人:是的。

黄鹤洞:如果一切顺利发展,这个问题最终将成为我们要应对的最重要的议题。我们应该学会解决问题而且,现在我们还没有告诉你如何解决问题。因为这是我们还在的时候的那个阶段。

主持人:所以,在制作需要说话、听和聊天的工具时,引入设计思维(design thinking)。最重要的一点是,人类可以将人类的品质转嫁给不人道的东西。黄鹤洞:我不能相信。现在正在研究AI。

好消息是,我们现在到达的那一步,不是吗?因此,我们有时间联合应对这一挑战,相信AI不会吞噬人类,而是朝着服务人类的方向发展。这就是我现在下一个担心的。

主持人:是的。黄鹤洞:……这也是现在让我保持精神状态的问题。但是我短期的担心只是:AI太好了!至少现在太好了!主持人:知道了。黄鹤洞:正如比尔盖茨经常提到的那样,人们低估了我们短期内能做的事情,高估了这些事情给我们的未来带来的影响。

在这件事上,我们不能高估它将来的影响。主持人:是的。

黄鹤洞:未来的里程碑。主持人:我明白。下面是故事时间。黄鹤洞:嗯,不上当!主持人:能分享一下个人相关的故事吗?特别是对语音、语言技术领域的研究感兴趣的是什么?可以分享重新加入微软的过程吗?黄鹤洞:是的。

我毕业于北京清华大学,当时我的第一台电脑是苹果2。你也可以理解,中文语言很难用电脑输出,所以输出过程很复杂。

所以我确信构建语音识别是合适的。当时我的梦想是作为清华大学的研究生在AI领域进行研究。

同时,当时清华研究生院的AI。主持人:是的。

黄鹤洞:惊人的教授和科学教员聚集在一起,有着未来的看法,并为我们构建了开拓性的探索和实验环境。所以我在这里接着完成了我的博士学位。1982年进入清华大学后,我重新加入了博士项目,仍然专门从事语音识别研究。

首页

让人类与机器沟通看起来更简单的这个梦想没有从我的世界消失。(威廉莎士比亚、哈姆雷特、机器名言)到目前为止,我对语音识别的研究经历已经达到了30多个春秋。

在微软工作的短时间内停止了语音研究,但我专门做的研究仍然与语音有关。(大卫亚设,Northern Exposure(美国电视),所以我心里指出,这是我和语音研究之间非常感人的故事。

而且我个人在这个过程中经历了很多有趣的经历。如上所述,上清华大学的时候,用中文在电脑上贴字还很困难。所以清华博士毕业后,我去苏格兰的爱丁堡大学进修。

主持人:我明白。黄鹤洞:……在那里获得了博士学位。我第一次进入爱丁堡大学的时候,我个人感到非常痛苦的地方只有3354个。我告诉了我英国英语的存在。

因为中国的英语大部分是美式英语。但是英式英语不是我的母语,所以对我来说不是很“吃的香”。(大卫亚设,Northern Exposure(美国电视),英国名言)还有苏格兰教授讲课。

主持人:哦,天啊!黄学东:我知道这很有挑战性。但是非常感谢BBC启动字幕。主持人:很有趣。黄鹤东:所以我看了BBC,学了苏格兰英语。

而且我需要提及的是,微软的PPT可以用于自动表示字幕的技术。他个人的痛苦经历对微软PPT团队正在考虑开发该产品的各种功能非常有吸引力,对我也是一种很好的补偿。

(大卫亚设,北方执行部队)主持人:是的。 黄鹤东:我很高兴知道我研究的技术成果需要帮助到苏格兰大学学习更好的人。(大卫亚设,Northern Exposure(美国电视),学)主持人:而且,你以前说过PPT。

黄鹤洞:是的。主持人:他还提到了有听觉障碍的人。黄鹤洞:嗯。主持人:现在你展示了一个全新的东西。

黄鹤洞:更普遍。主持人:差不多啦!黄鹤洞:……语言障碍仍然不存在,所以不是每个人都能流利地用语言表达。我邀请了很多游客,基本上每年都邀请清华大学MBA的学生,他们也在自学英语,但听英语和进行英语交流的能力基本上是这里当地人无法比拟的。

因此,要想在PPT软件中获得字幕功能,必须帮助他们所有人。主持人:是的。

黄鹤洞:……更好地自学和解释英语。因此,即使不翻译,这个功能的应用在场景中也很常见。

这是一个非常简单的事实。有字幕可以加强沟通。主持人:很明显。

以前我们谈过其他语言和方言,但我们还没有探讨过语言的口音问题。我是说,即使在美国,即使你是美国本地人,你去美国的每个地方都会遇到很多无法解释的事情。这是因为不同地区的口音有很大的不同。(大卫亚设,Northern Exposure(美国电视),美国)黄鹤洞:这就是为什么我的苏格兰英语不能成为一个好故事!同时,我希望能再保留一点苏格兰口音。

主持人:能听懂苏格兰口音!在每一期博客的结尾,我都会说邀请嘉宾的最后一句话。因为你在人类语音技术领域专门从事研究,所以这句话很适合你。现在你可以有机会对正在努力与电脑和人类对话和交流的听众说你想说的话。(大卫亚设,北方执行)他们应该在哪里研究?黄鹤洞:语音和语言研究!它绝对是镶嵌在AI王冠上的明珠。

在我看来,AI领域没有比语音和语言研究更具挑战性的任务。特别是当你想把感官AI发展成理解AI的时候。约翰肯尼迪,感官名言)让机器通过推理小说、理解能力、读者和交流获得科学知识,是改善人类生活、提高人类生产力,使世界仍然存在语言、交流、解释障碍的最基本的研究领域。

主持人:谢谢您邀请我们今天的博客节目。我知道你分享给我们的东西很棒。黄鹤洞:很荣幸。

(public number:)记录:该编译器是在Microsoft Research Blog版权文章(Microsoft research blog copyright)中获得许可后发布的。下面,我们来听一下关于刊登的注意事项。

【快三平台】。

本文来源:快三平台-www.julaszakovits.com

0171-579175405

联系我们

Copyright © 2010-2014 榆林市快三平台科技股份有限公司 版权所有  陕ICP备26223196号-5