黄色片 多模态LLM视觉推理才智堪忧,浙大领衔用GPT-4合成数据构建多模态基准

新智元报说念黄色片
裁剪:乔杨
【新智元导读】LLM的数学推理才智劣势赢得了许多询查的存眷,但最近浙大、中科院等机构的学者们建议,先进模子在视觉推理方面通常不及。为此他们建议了一种多模态的视觉推理基准,并缠绵了一种新颖的数据合成步调。
26uuu不管是讲话模子照旧视觉模子,似乎都很难完成更综合档次上的清晰和推理任务。
讲话模子仍是不错写诗写演义了,可是依旧算不合9.11和9.9比大小的问题。
通常的问题也出当今视觉模子中,它们能无缺清晰当然振奋或东说念主物相片,却无法处分各式图表任务,以至看表读技艺都是贫寒。
如若要将AI系统用在更多专科边界,这些才智劣势就显得极为凸起。
最近,浙江大学、中科院软件询查所、上海科技大学等机构就皆集建议了一种新的多模态基准,挑升考虑模子对综合图像的清晰才智和视觉推理才智。

论文地址:https://arxiv.org/pdf/2407.07053
数据集共包含11,193个带有经营问题的综合图像,涵盖了姿色板、阶梯图、图表、表格、进程图、关系图、视觉谜题和2D平面图等8大类别,此外还有很是的62,476条数据用于微调模子。
经过测试黄色片,东说念主类在该基准上不错达到至少82.1%的准确率,但Claude 3.5 Sonnet和GPT-4o等顶流模子的收成却远远过期于东说念主类,隔离唯有64.7%和59.9%。

热点资讯
- 偷拍 花团锦簇迎新年!抖音商城年货节珠宝潮奢品类日启幕
- 黄色片 共谋直播电商翌日发展之路 2023天下直播电商大会在杭州市余杭区终止
- 白丝 sex 快来领! “鸿蒙有礼”时尚权力新增腾讯视频、酷狗音乐会员季卡
- 黄色片 NFL|时隔7年 老鹰队再度夺冠|费城|布朗|nfl|超等碗
- 文轩 探花 “南大碎尸案”家属喊话演员张译,多方回复
- 萝莉 在线 最不心爱电视剧票选:宫廷"辫子戏"位列最烂前三
- 台灣 拳交 零下54度,看八个大叔吃饭休眠打麻将,治好了多量东说念主的精神内讧!|拉面|刺身|厨师|
- 亚洲色图 美腿丝袜 阿斯顿马丁发布DB12车型庆祝《007》电影60周年
- 黄色片 意马心猿的短暂什么手艺公测
- 黄色片 好意思国经常刮龙卷风,却存一火也不肯用混凝土建房?原因很扎心!|木柴|墙体|水泥|石膏板