人和动物都可以通过看、听、说来自己感知和学习,本质上是多模态的自学。近年来,由于深度自学的发展,多模态机器学习已经成为人工智能的研究热点。
本文简要说明了多模态机器学习的内容和面临的挑战,部分内容摘自CVPR2016和ACL2016的教程多模态学习与学习[1]和教程多模态机器学习[2]。人在生活中的感官是多样的,包括视觉、听觉、触觉、味觉、嗅觉等等。感官能力的任何缺陷都可能导致智力或能力的异常。
基于此,多模态机器学习获得了机器的多模态数据处理能力。比如看图说,看电影。多模态自学的长期目标是让机器充分利用人的情感、文字、表情等感官环境,更智能地与环境进行交互。
目前,视觉和语义的多模态自主学习在学术上更加成熟。例如,分解图片的文本描述,或者针对图片的内容提出适当的文本问题。一般来说,可视信息由美国有线电视新闻网处理,而文本信息由RNN处理。多维数据迁移的方式有一个注意机制,比如图中哪个对象对应图中的名词。
而且,在许多传统的机器学习任务中,多模态自学习要优于单模态机器学习。比如辅助视觉信息的文本翻译效果比只翻译文本信息的效果好。
本文来源:优发登录-www.minisparepart.com