【导语】据外媒最新报道,美国密歇根大学(U-M)研发出一种名为开放即兴分类(OAK)的新技术,使人工智能(AI)系统能够根据不同情境对同一图像进行灵活多变的解读。这一创新挑战了传统AI固定的图像分类方式,为AI的图像理解能力带来了革命性的提升。

驾趣智库讯 据外媒报道,美国密歇根大学(U-M)研发了一种名为开放即兴分类(open ad-hoc categorization,OAK)的新方法,可帮助人工智能(AI)系统根据不同的分类情境,动态地对同一图像进行不同的解读,而非采用固定的视觉解读方式。

美国OAK分类法可帮助AI动态解读同一图像 或有助于机器人技术等应用

OAK方法解读图像(图片来源:密歇根大学)

密歇根大学计算机科学与工程系教授兼该研究的资深作者Stella Yu表示:“当人们谈及利用AI进行图像分类,通常假设每张图片都有唯一且客观的含义。然而,我们的研究表明,一张图片可以根据任务、情境或目标,从多个角度进行审视。就像人类不会视图像为静态信息,而是根据自身需求调整其含义,AI也可以灵活地解读图像,根据情境和目标进行相应的调整。”

以往的AI分类方法采用的是诸如“椅子”、“汽车”或“狗”等固定、僵化的分类,无法适应不同的用途或情境。OAK则可以根据期望的情境,对同一图片做出不同的评估。例如,一张人在喝水的图片,可以归类为“喝水”这一动作,“在商店”这一地点,或者“开心”这一情绪。

该研究团队通过扩(kuò)展(zhǎn)OpenAI的(de)CLIP(一(yī)种(zhǒng)基(jī)础(chǔ)的(de)视(shì)觉(jué)语(yǔ)言(yán)AI模(mó)型(xíng),能(néng)够(gòu)学(xué)习(xí)将(jiāng)图(tú)像(xiàng)与(yǔ)文字(zì)描(miáo)述(shù)关联(lián)起(qǐ)来(lái))来(lái)构(gòu)建(jiàn)其(qí)模(mó)型(xíng)。之(zhī)后(hòu),研(yán)究(jiū)团(tuán)队(duì)添(tiān)加(jiā)了(le)上(shàng)下(xià)文标(biāo)记(jì),此(cǐ)类(lèi)标记相当于为AI模型定制的一组指令,从有标签和无标签的数据中学习而来,与图像数据一起输入系统,以针对不同的情境塑造视觉特征处理。最终,该模型能够自然地聚焦于相关的图像区域,如识别动作时聚焦于手部区域,在描述地点时聚焦于背景,而无需明确告知其应关注何处。