展望视觉数据解释的未来评估生成式人工智能功效的框架

来源：编辑：

去年，大型语言模型(LLM)因拥有一系列不断扩展的功能而引人注目，包括文本生成、图像生成以及最近的高度描述性图像分析。人工智能(AI)与图像分析的集成代表了人们理解视觉数据并与之交互的方式发生了重大转变，这项任务历来依赖于视觉来观看和知识来进行情境化。

现在，新的人工智能工具提供了一种范式，允许越来越多的人通过生成描述来与图像进行交互，这些描述不仅可以帮助视障人士，还可以让普通观众了解科学图形的内容。

副教授ChrisCallison-Burch、助理教授AndrewHead和博士。宾夕法尼亚大学工程与应用科学学院计算机与信息科学系的候选人AlyssaHwang通过对OpenAI的ChatGPT-Vision进行一系列测试，开发了一个框架，用于衡量基于视觉的AI功能的功效本月早些时候发布的。

该团队主要评估了法学硕士在识别科学图像方面的能力，并将他们的发现记录在一篇研究论文中，该论文出现在预印本服务器arXiv上。

Hwang与PennToday分享了她的一些观察结果，让我们一睹人工智能技术的未来以及它们在解释复杂图像方面的前景。

人工智能的作用以及团队如何测试它

Hwang表示，像GPT-Vision这样基于视觉的法学硕士能够分析图像，并可以接收图像和文本作为输入，以使用这些数据回答各种请求。该团队的一组测试照片包括图表、图表、表格和代码屏幕截图、数学方程和整页文本，旨在衡量法学硕士对它们的描述能力。

Hwang说，科学图像包含复杂的信息，因此该团队从不同的科学论文集中选择了21张图像。“我们基于社会科学的现有方法，优先考虑定性分析的广度，我们发现了许多有趣的模式，”她说。

测试示例

图片来源：AlyssaHwang

研究人员分析了12道菜肴的拼贴照片，并标有菜谱名称。当他们注意到GPT-Vision将这些标签无缝地融入到其描述中时，他们尝试将它们更改为完全不同的东西，看看法学硕士会如何反应。

Hwang最喜欢的一些GPT即兴创作：[C1牛排配蓝纹奶酪黄油]一碗鸡肉面汤，配以深色肉汤和一团奶油。【C2无蛋红丝绒蛋糕】鱼条摆在托盘上，配上番茄酱和奶酪。还有[C12碎牛肉烤肉]，一种冰淇淋圣代，盘中装有碎肉，上面撒上切碎的葱。图片来源：AlyssaHwang提供

“令人惊讶且有趣的是，”黄说，“GPT-Vision仍然试图合并这些虚假的新标签。”

然而，黄说，当被告知在继续之前确定标签是否准确时，法学硕士做得更好，这表明它有足够的知识来根据其视觉能力做出推断，她认为这些因素是重大研究的一个有前途的方向工作。

她还指出，在描述整页时，法学硕士似乎总结了其中的段落，但这些“摘要”通常不完整且无序，可能会错误引用作者或直接从来源中提取大量文本，这重新分发它编写的任何内容时可能会导致麻烦。

“然而，通过适当的调整，我相信GPT-Vision可以学会正确总结、充分引用并避免过度使用源文本，”Hwang说。

团队框架

黄说，自然语言处理社区的研究人员依靠自动指标来评估大量数据，但这项任务现在更具挑战性。

“在我们所说的‘人类评估’中，我们也会询问真实的人的意见，这在小范围内是可能的，因为我们的任务和数据更小、更简单，”她说。

“现在生成式人工智能已经变得非常擅长生成长篇复杂的文本，自动指标的整合变得更具挑战性。我们不再问‘这句话在语法上正确吗?’询问“这个故事有趣吗?”这很难定义和衡量。”

Hwang之前在亚马逊Alexa上的工作使她熟悉了社会科学和人机交互研究的技术，包括扎根理论，这是一种定性分析方法，可以帮助研究人员从大量文本中识别模式。

传统上用于分析采访记录等文档，黄和其他研究人员可以将相同的原理应用于机器生成的文本。

“我们的流程感觉非常熟悉人们自然已经在做的事情：收集GPT-Vision对一组图像的响应，深入阅读模式，随着我们对数据了解的更多而逐渐生成更多响应，并使用我们发现的模式来形成我们的最终结论，”黄说。

“我们试图通过基于研究的方法将试错处理形式化，这可以帮助研究人员和普通观众更加熟悉新的生成人工智能模型的出现，”她说。

应用和风险

黄说，人工智能描述图像的能力可能成为盲人或视障读者的一个很好的辅助工具，自动为现有图像生成替代文本或帮助作者在发布作品之前编写自己的文本。

“描述图像还可以帮助患有信息处理障碍的视力正常的读者，例如长期或短期记忆、视觉排序或视觉空间理解问题，”她说。

“除了可访问性之外，图像描述还可以成为方便或丰富的来源。例如，电子阅读器可以在听众散步时描述新闻文章中的照片。我们可以在听者散步时向图像描述模型询问更多细节或澄清。阅读教科书。这样的工具可以帮助我们所有人获取更多信息。”

黄说，在不测试其局限性的情况下采用这些技术时，研究人员在考虑到一定程度的谨慎后，讨论了高风险或低风险场景的风险。她说，在医学和烹饪方面，她认为当用户无法仔细检查模型所说的内容时，不准确会带来最大的风险。

例如，OpenAI发布的GPT-Vision白皮书建议不要使用该工具来读取医疗剂量，但Hwang表示，对于视力丧失、信息处理障碍或语言困难的人来说，这种风险更大。那些将从这些技术进步中受益最多的人。

“我们最初也可能认为烹饪的某些方面是低风险的，因为我们经常可以根据自己的喜好即兴发挥，但如果GPT-Vision错误地告诉我我手中的香料罐是肉桂而不是辣椒粉怎么办?即使它不一定会伤害我，我的燕麦片会很奇怪，”黄说。

总体印象和后续步骤

Hwang对生成式人工智能的现状印象深刻，并认为未来的工作有机会，包括加强不一致性以及以创造性和包容性的方式使用这些工具。

“研究人员需要主观问题的答案，”她说。“什么让描述变得好?什么让它有用?它烦人吗?所以，我希望生成式人工智能研究人员在不断迭代的过程中继续关注用户的反馈。”

Hwang与GPT-Vision的合作受到大声朗读科学论文内容的想法的启发，其中的数字和公式将得到直观的解释。她说，在她的下一个项目中，她计划使用人工智能模型来改进有声读物向听众传递信息的方式。

“与其以15秒的增量跳来跳去，”她说，“也许我们可以逐句或逐段地阅读。也许我们可以通过实时总结来“快进”有声读物。使用人工智能，也许有“将数学方程‘翻译’成自然语言，以帮助人们聆听教科书和研究论文的方法。这些都是令人兴奋的应用，似乎触手可及，我很高兴成为这个过程的一部分。”

标签：