在人工智能领域,有一个让研究者们头疼不已的问题:虽然AI在文字理解和逻辑推理方面已经表现得相当出色,甚至能在国际数学奥林匹克竞赛中获得金牌,但一旦涉及到需要"看图说话"的视觉推理任务,这些聪明的AI就开始犯糊涂了。就像一个在纸上谈兵方面 ...