人工智能技术正在快速地发展,不断改变我们的生活和业务等的存在方式。在这些人工智能技术中,目前特别受到关注的AI有“生成式人工智能”和“多模态人工智能”。
生成式AI是一种拥有能自动生成并输出文本/图像/音乐等多种形式的数据的能力,并且能支援迄今为止由人类承担的创造性作业的人工智能。
多模态人工智能(Multimodal AI)是一种输入数据(模态)有多种形式的人工智能。例如,输入“文本”和“图像”等不同数据,并将这一些数据综合后进行预估,就是多模态人工智能的代表性例子。这里提到的“模态”,意思是指数据的模态(Modality),“多模态”指的是多种形式的模态(文本、图像、声音等)。
图一、多模态能处理包括输入和输出在内的不同数据形式的人工智能。例如,即使输入数据和输出数据分别为一个,输入是声音,输出是文本,这种数据形式不同的人工智能有时也被称为多模态人工智能。
既然有多模态人工智能,就必须解释一下对应的单模态AI是什么。相对于处理多种形式数据的多模态人工智能,处理传统人工智能中的单一数据的人工智能就是单模态人工智能。
单模态人工智能输入单一信息(例如仅文本、仅图像或仅声音)并分别处理,例如,使用网络上的文本学习和用户的文本输入的生成式人工智能服务就属于单模态人工智能。
此外,单模态人工智能的另一个例子是使用在网络末端的传感器等终端(边缘设备)进行AI推理的边缘人工智能处理影像或语音。
另外,人们也在无人驾驶等方面尝试边缘人工智能的多模态化,毫无疑问,边缘人工智能的多模态化今后将在多种领域不断取得进展。
与多模态AI相关的构想和研究据说始于上个世纪80年代。自2000年代以来,多模态人工智能的研究随着机器学习中的深度学习而持续不断的发展。2010年代,多模态AI应用程序问世,它让人工智能学习人类面部表情和文本,画面上的阿凡达会根据文本改变其表情。
2015年以后,可以有效捕获多种形式的数据之间关联性的人工智能模型出现,数据综逐步发展,因此,复杂处理和高阶识别也能轻松实现。而且,进入2020年代后,多模态AI在主要的生成式人工智能服务和人工智能平台中引进得越来越多。
例如,出现了综合图像和文本等数据并通过大语言模型(LLM:Large language Models)提供自然语言应答、按照每个用户提的问题输出图像和文本这两种形式的数据、输出说明图像的文本等使用方式。而且,还发布了配备多模态人工智能的可穿戴设备等,在日常硬件中也引进得越来越多。
人们预计不断取得进展的多模态人工智能今后将继续迅速向多种领域渗透,包括无人驾驶技术、安保、医疗、制造和工程、商业支持和管理、体育及娱乐等。
多模态人工智能能处理多种数据形式作为输入,因此是一种能用来多种目的的高度灵活的人工智能。下面介绍多模态人工智能的几个主要应用事例。
一个为人熟知的应用事例是为识别私人交易中介网站上的假冒产品——根据新销售产品上附带的文本(说明文和标签)和产品影像数据来进行判断的识别提供支持。此外,它还能够适用于在视频发布网站等处从图像和语音等多种数据识别假视频。
通过让多模态人工智能学习,让它能够对容易被伪造的知名产品的真假难辨复制品、模仿各国重要人物和名人的深度伪造视频进行高精度识别,多模态人工智能的识别能力有望进一步提高。
为了让5级无人驾驶(一种可以在任意地方无人驾驶且不需要方向盘操作的驾驶系统)在未来实现实用化,人们目前正在进行多种研究和验证工作。多模态AI在前沿无人驾驶技术探讨研究中的应用已受到全世界的关注。
从众多传感器获得的汽车内部和外部数据、通过无线通信获得的与位置、其他车辆和交通状况相关的数据、与乘客之间说话的语音数据等,多模态人工智能综合处理多种数据的能力可以说是控制无人驾驶不可或缺的技术。
通过利用多模态人工智能来综合分析电子病历和检查图像等数据,以实现早期发现疾病和优化治疗计划的研究正在医学领域不断推进。例如,可优先考虑让多模态人工智能输出对疾病的状态和经过进行的多角度判断、对癌症复发时期进行的预估、在诊断和决定治疗方法时提供辅助性建议。在本例中,据称它不仅有助于预估再次就诊的时间和选择适当的治疗方法,而且还能够最终靠提供适当的医疗来降低医疗成本,并通过消除属人化来减轻医务人员的负担。多模态AI在医疗领域也有望做出广范围的贡献。
使用传统人工智能的安保摄像头利用人工智能仅分析影像(图像)来支持状况判断。但是,在实际的人类监控业务中,除了视觉以外,还应该要依据声音、振动、气味以及与其他监控人员的交流等大量信息来对状况做判断。
人们认为综合处理图像和声音等多种形式数据的多模态AI对于噪音和骚乱等滋事行为、打斗、擅自或非法进入等复杂情况也能判断其处于什么状况。随着这些利用方法的研究和实用化的进展,通过人工智能对监控业务提供的支持程度有望大幅提高。
目前,工业机器人在制造现场的引进数量正在显着增加。这些传统工业机器人的动作是通过程序指定机械运动角度、速度、强度等,并组合图像辨别等识别技术来来控制的。另一方面,使用多模态人工智能的机器人控制的研究不断取得进展,通过综合和学习来自多种传感器的数据等,机器人的判断能力将变得比传统机器人更进一步提高,执行更精细的作业的可能性慢慢的变大。作为一项不但可以应用于制造领域,而且能应用于医疗、护理、农业机器人等领域的技术而受到关注。
在开发领域也能看到使用多模态人工智能的情况。例如,通过综合处理自己获得的实验数据、论文等当中报告的物质化学构造和组成、测量数据(显微镜图像、光谱等),可以高精度预估该物质的物理和化学特性,利用它可以在虚拟空间中高速进行混合条件和成分的优化等。该技术是材料信息学(MI:Materials informatics)的一种,有望帮助提高新材料探索等研究开发的效率,例如帮助大幅度减少时间和成本。
我们认为,除此之外,多模态AI在制造和工程中的应用今后也将继续快速地发展,例如通过综合来自配置在生产设备中的多种传感器的数据信息来实现高精度的异常检测,以及迄今为止一直很难实现的自动化——通过机器人实现质量检查和维护活动的自动化等。
近年来,主要人工智能平台上都推出了可处理文本、图像等多种形式数据的多模态人工智能服务。随着更多此类平台的出现并变得更精良,多模态人工智能有望在商业和创意等宽广的领域扩大应用。除了本文介绍的事例外,它还有望应用于体育、娱乐等多种领域。多模态人工智能及其进步能够说是目前很值得关注的趋势技术之一。
...