李飞飞团队前瞻性研究 多模态AI模型初显空间智能

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。

研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。

 

 

研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,Gemini-1.5Pro在绝对距离和房间大小估计等任务中表现突出,部分开源模型如LLaVA系列亦取得了竞争性结果。

研究还指出,使用认知地图辅助空间推理可显著提升模型在空间任务上的表现,其准确率提升达10个百分点。这表明明确生成认知地图有助于突破模型在空间理解上的瓶颈。

Video Player

李飞飞表示,空间智能是AI理解物理世界的关键能力,对实现通用人工智能(AGI)至关重要。她认为,空间智能将成为AI领域的下一个前沿技术方向,甚至有望在2025年取得重要突破。

今年9月,李飞飞创办的公司World Labs宣布正式启动,专注于开发具备空间智能的AI模型。这家公司已获得包括英伟达、a16z、Adobe等知名机构的投资,目前估值超过10亿美元。

这一研究及其应用,标志着AI技术从二维信息处理向三维空间感知的关键进步,未来有望广泛应用于导航、机器人交互、增强现实等领域,为人工智能的进一步发展开辟全新道路。

原创文章,作者:狐呼网,如若转载,请注明出处:https://www.ihuho.com/5258.html

(0)
上一篇 2024年12月23日 下午7:35
下一篇 2024年12月23日 下午7:36

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

公众号
公众号
新媒体群
新媒体群
联系邮箱

1284674160@qq.com

分享本页
返回顶部
新媒体之家(狐呼网)免费入驻互联网领域个人自媒体,企业自媒体,媒体网站等。入驻合作可以联系:m1284674160