这个圣诞节我其中一个女儿发起了一个家庭游戏叫作“听音”,我们玩的非常的开心。它是“听力挑战”的一种新形式,目前也变得很流行了。一个人戴着耳机,不仅能够隔绝外界的声音,同时耳机里也随机发出一些声音,另一个人面对戴耳机的人随机朗读卡片上的短语,比如“鸽子喜欢拥抱”,然后在没有任何其他线索的情况下,戴耳机的玩家只能通过读者嘴唇的变化来解读“听到”的短语。
这就像是一台计算机,玩家尝试从各方面检测这个短语的线索——尽管都不是很明显。玩家用他们的视觉来“听”并且破译嘴唇的意思。这其实就是有趣的地方(当然!),因为通过视觉线索听到的信息与真正表达的意思相比是非常不同且随机的。这个游戏利用了人类在听觉和视觉方面调整的局限性。
计算机能够做的更好吗?现在的聊天机器人正在取得巨大的进展,这些应用采用音频技术、人工智能(AI)机器学习的结合,它们在对话中会产生类似人类的推理和反应。特别的是自然语言编程和神经网络的发展已经融合在一起创建动态的人机交互方式,这为公司和终端用户带来了非常重大的潜在好处。
技术正在趋于一致
尽管人工智能、机器学习和音频技术方面的发展已经有一段时间了,但是直到最近它们才融合在一起使得人机交互成为可能。
人工智能和自然语言编程
人工智能(AI)正在通过可操作的洞察力改变计算的价值,从自动化和可扩展的处理过程到具体的知识,通过解释一个程序和一系列过程,人工智能让不同的公司对于它们面对的市场有新的理解,产生新的价值并且快速部署决策。
在音频方面,AI能够以各种方式帮助人类,这是因为我们在人类语言和沟通中所使用的很多东西都可以被编程到机器中,通过自然语言处理(NLP)算法来计算出复杂的模式识别方案。目前设计师们正致力于让机器能够以双向的方式使用自然人类语言,
例如:
机器听取人类语言,机器能够理解人类语言
机器理解人类语言,机器以人类语言作出回应
实现双向通信编程的一个挑战是确保算法的格式化,能够理解周围的环境并且作出适当的响应,这被称为“框架问题”——人类的处理过程是确保计算机具有实现某种功能所需要的指令。为了能够作出适当响应,机器必须被编程能够理解明确的语言和正确的线索来理解表达背后的意图和态度。
AI领域常用的编程语言包括Python、Java、Lisp、Prolog和C++。Python是一种非常流行的人工智能应用程序编程的计算机语言,它采用模块化的体系结构,专注于不同领域的特定功能,它为语义结构定义了相对简单的规则,它的一些框架比如NLTK、genism和Quepy,都是NLP和文本处理的理想选择。
这些定义如下:
NLTK是一系列Pyhton开源模块的集合,支持自然语言工具箱。它提供了语言数据和词汇资源,以便开发者能够在常用的操作系统中开发NLP应用和进行文本分析
Genism是一个能够从文档中提取语义含义的模块,剔除了不必要的复杂度
Quepy则致力于将自然语言问题转换为从数据库中查询的问题
机器学习和神经网络
对于人类而言,学习是我们与生俱来的智力、生物成熟和经验的自然组成部分。学习可以理解为不断的自我提升,反馈可以用来不断的调整以获得更好的结果。通过人类大脑的研究——尤其是神经网络——研究人员已经将强大的机器学习概念化,并将其转化为人工智能。神经网络包括很多电子互连,它们能够影响许多神经元的集体反应,这意味着神经网络会影响更广泛的行为,而不仅仅是单个神经元。
与深度强化学习(或深度学习)相结合,通过反馈目标导向的表现可能是积极的或消极的,这些最近突破的创新性策略帮助解决了许多复杂的问题,包括理解和回应自然人类语言和对话。一些产品比如Seeed Studio的谷歌AIY语音工具包、ReSpeaker 2-Mics Pi Hat等,它们是开始自然语言识别研究最有趣且快速的方法。
聊天机器人的兴起
聊天机器人结合了音频技术、AI和机器学习,它们接收传感器的输入使用算法来确定输入的信息,然后根据这些信息作出相应的响应,同时它们也在根据不同的输入信息进行学习。聊天机器人是一种前瞻性的交流工具,目前被很多公司使用,包括亚马逊、苹果、Facebook和谷歌等,用来招待不同的客户。通过机器学习和预测分析,聊天机器人正在不断的提高。它们会感知、思考、决定以及行动。聊天机器人应用叠加了人工智能、机器学习和深度学习(见图1)。
图1:聊天机器人叠加了AI、机器学习和深度学习
公司采用聊天机器人来增加收入并且为客户提供高水平的服务和安排无疑是明智的。现在的客户对于技术都非常的熟悉,期望公司对他们的需求能够快速有效的作出响应。像Siri、Alexa和Cortana这样的聊天机器人现在对于我们大多数人来说都已经是家喻户晓的名字了。工程师们仍然在努力让它们模仿和超越人类的行为表现,通过动态的交互不断的提升聊天机器人的智力,让它们更加的人性化和吸引人。我们的目标是让计算机在如下领域具有类似人类的能力:
如下领域
文本转换成语音,语音转换成文本
语调分析和个性化识别
自然语言分类和语言翻译
虚拟代理和会话编程
深度学习AI,比如谷歌开发的DeepMind,使得计算机听起来不再像是计算机了。相反计算机可以合成声音进行现实的交谈,从而通过了图形测试——这意味着它们的反应对于我们而言是如此的真实,以至于我们无法分辨出它们是计算机。深度学习取得的这些结果是因为处理了大量的文本对话并且从这些对话中学习人类语言和沟通。因为AI可以通过计算处理如此多的文本对话信息,因此它会建立一个足够大且高效的经验框架,从这个框架中得出结论然后对人类的对话作出适当的回应。
与人工智能学习沟通会话相似,它也可以学习使用独特的人类声音和感情来回应。除了把声音信息存储到记忆中,人工神经网络还会处理成千上万个小时的人类声音,这个网络还会推断出一些具体的细节来模仿自然的人类语言。这使得聊天机器人可以借助人工智能来选择适合这个场合声音和交流方式。人工智能只需要几分钟的时间就能将语音数据复制到语音中而不用管语音模式是怎样的。
聊天机器人可以使用会话AI提供更个性化的服务,聊天机器人采用更加人性化的自然语言会话方式,接收和反馈高质量的信息,这预计会带来更多的销售机会和客户满意度。聊天机器人被设定为始终提供最高水平的客户服务。
聊天机器人是不在意交流媒介的:它们不会介意你是通过电话、电子邮件还是社交媒体应用程序与它们沟通。在每个实例中,它都被设定为会作出合适的回应。聊天机器人是一款基于数字的、面向客户的产品,它利用技术和数字世界的优势正在改变我们的业务环境,聊天机器人技术在某些业务方面也是合适的,包括销售、市场营销、客户服务和其他类似的场景。在某些场景聊天机器人已经开始使用数字技术与公司进行沟通,它们也是公司与客户之间进行沟通的一种非常好的选择。
聊天机器人面临的最重要的问题之一是帮助它们解决特定的用户需求。因为人类是非常复杂的,所以要求聊天机器人能够随时理解用户的请求,即使这个请求是不断变化的。这需要聊天机器人能够理解人类语言的细微差别,从而有效的避免差错。
通过与预测分析技术相结合,优秀的人工智能聊天机器人似乎可以通过预测对话的方向来解读与它们互动的人的思想。这意味着聊天机器人将会进化,它们将会更专注于制定建议和作出预测——使它们能够提升能力,会采取某些具体行动。实现更加智能的聊天机器人是一项持续不断的挑战,设计师们正在努力使它们在与人类互动和需求的意识上达成一致性的反应。
总结:对话的形成
人工智能、机器学习和音频技术的发展已经不断的融合在一起,通过聊天机器人实现了人类一样的人机交互应用。具备识别和解释语音和音调的能力,聊天机器人正在成为提供基本客户服务和类似交互的一种虚拟代理——对语音输入以及所暗示的信息具备一定的理解、响应以及学习的能力。
然而要做出适当的回应,机器必须被编程能够理解明确的语言信息和正确的暗示信息,从而了解表达背后的意图和态度。这是人机交互方面自然语言编程的进步,使两者间的双向通信取得了进展。神经网络也是一个关键的进步,它使得机器能够从以前的交互中不断学习。
我期待着未来某一天我的电脑能够帮助我写技术文章。希望从它嘴里说出的第一句话不是:“我认为那样是不成熟的、业余的、愚蠢的,我建议你该这样写……”,将来某一天只要它具备立刻能够读懂我嘴唇动作的能力,人们就不会像玩“听音”游戏那样嘲笑我了。
全部0条评论
快来发表一下你的评论吧 !