本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍,以方便读友看论文时参考。

⚠️注意:本文信息仍在时常更新中

图文多模常见任务和评测数据

常见的多模态任务有:视觉问答VQA、视觉常识推理VCR(选择题并解释原因)、指代表达RE(给定图片和一个句子,判断句子正确还是错误)、图文检索VLR(根据文字检索图片)。生成图片类任务有:图像样式转移、文本驱动的图像生成等。
可参考的评测框架有 OpenCompass 和 llava团队提出的 lmms-eval
不同任务常用benchmark如下:

VLM 综合评测 benchmark:

OpenCompassOpenVLM 包括了大多数的综合榜单。包括但不限于:

  • MM-Vet:只有英文,包括6种能力纬度:Recognize、OCR、Knowledge、Generate、Spatial、Math。
  • MMBench:(有中英文赛道,选择题)大约 3000 个问题,涵盖了 20 个L3级别的能力维度。每个问题都是单选题格式。使用圆周评价策略,将选择和相应的答案进行循环移位,推理N次,只有都对才算对。MMBench is collected from multiple sources, including public datasets and Internet, and currently, contains 2974 multiple-choice questions, covering 20 ability dimensions. We structure the existing 20 ability dimensions into 3 ability dimension levels, from L-1 to L-3. we incorporate Perception and Reasoning as our top-level ability dimensions in our ability taxonomy, referred to as L-1 ability dimension. For L-2 abilities, we derive: 1. Coarse Perception, 2. Fine-grained Single-instance Perception, 3. Fine-grained Cross-instance Perception from L-1 Perception; and 1. Attribute Reasoning, 2. Relation Reasoning, 3. Logic Reasoning from L-1 Reasoning. To make our benchmark as fine-grained as possible to produce informative feedbacks for developing multi-modality models. We further derive L-3 ability dimensions from L-2 ones.
  • MME(2023.6,腾讯优图):测试Yes/No问题回答能力,the full scores of perception and cognition are 2000 and 800, respectively. 总分是2800。
    mme.jpg
  • MMStar(集成数据集,包含了seed、mmmu、AI2D、math-vista等)
  • SEED
  • MMMU,CMMMU:选择题+少量开放题,需要知识,需要大LLM

其中MM-Vet归纳了VLM需要具备的6种能力,并组合出16种任务,比例如下:

MMvet

幻觉

  • POPE(人大):YES/NO题,造了一些高频共现的目标,然后问图片中是否有某object,看模型幻觉
  • Object HalBench
    $$\text{CHAIR}_{I} = \frac{\lvert \{\text{hallucinated objects}\} \rvert}{\lvert \{\text{all mentioned objects}\} \rvert}, \text{CHAIR}_{S} = \frac{\lvert \{\text{captions with hallucinated objects}\} \rvert}{\lvert \{\text{all captions}\} \rvert}$$
  • MHuman Eval
    • Hallucination frequency
  • MMHal-Bench
    • Info: GPT-4 evaluated score
    • Hallucination frequency

Image Caption

  • COCO
  • MM-IT-Cap

Visual Question Answering(VQA)

03-evaluation-suite.jpg

  • VQAv2(自然场景,1~2个单词的QA):train 444k, validation 214k,testdev 107k, test 448k。数据集可视化,没有benchmark主页,参考性能为:Idefics2-8B(320tokens/image)81.2
  • VizWiz
  • GQA (自然场景图问答,有框标注)
  • Hateful Meme
  • PointQA(ChatSpot)
  • COCO Text(ChatSpot)
  • OKVQA(特别是用于测试 external knowledge)
  • TextVQA(涉及OCR能力):需要结合场景+文字的QA。对vision encoder的输入分辨率敏感。
    图片来源 OpenImages v3
    训练集:21,953 张图像,34,602 个问题,验证集: 3,166 张图像, 5,000 个问题
    测试集: 3,289 张图像, 5,734 个问题
  • STVQA
    数据来源 :Coco-Text, Visal Genome, VizWiz, ICDAR(13+15), ImageNet, IIIT-STR
    训练集:19,027张图像,26,308个问题
    测试集: 2,993 张图像, 4,163个问题
  • DocVQA
  • OCR-VQA
    207572 张图像(书的封面),超过100万个问答对 ( train : val : test = 8 : 1 : 1 )
    TextVQA
    DocVQA
  • OCR-Becnch:文字识别、场景文字理解、文档问答、关键信息抽取相关的开放问题。存在泄题,上800得刷他那些数据集。
  • ChartQA:test有1509张图
  • PlotQA:test有33657张图
  • DVQA

Visual Grounding/REC

  • Flickr30k(短语定位)
  • RefCOCO、
  • RefCOCO+、
  • RefCOCOg:
    是三个从MSCOCO中选取图像和参考对象的Visual Grounding数据集。目标属于80个目标类。

RefCOCO有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
RefCOCO+共有19,992幅图像,包含49,856个对象实例的141,564个引用表达式。
RefCOCOg有25,799幅图像,指称表达式95,010个,对象实例49,822个。

在RefCOCO和RefCOCO+上,遵循train / val / test A / test B的拆分,testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCOg遵循train / val / test 的拆分。

RefCOCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095; 框的数量分别为42,404 / 3,811 / 1,975 / 1,810
RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889; 框的数量分别为42,278 / 3,805 / 1,975 / 1,798
RefCOCOg的表达式分别为80,512 / 4,896 / 9,602; 框的数量分别为42,226 / 2,573 / 5,023

RefCOCO的查询包括方位或属性,如“中间的人”,“左边 红衣服”,“蓝车”;RefCOCO+的查询不包含方位,如“手里拿着球拍”;RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO+:RefCOCO、RefCOCO+、RefCOCOg的平均长度分别为3.61、3.53、8.43。

RES

  • PhraseCut
  • RefCOCO

Detection

  • COCO,train和val有标注
    COCO2014: train包括 82783张图,val包括 40504张图,test包括40775张图
    COCO2017: train包括 118287张图,val包括 5000张图,test包括 40670张图
  • Object365
  • OpenImage

视频多模常见任务和评测数据

QA有的是主观题有的是客观题,即开放式问答和选择题两种,开放式问答的评测需要GPT API或者部署开源大模型用来评测。选择题可以直接评测。
Kim 2024-08-07 132721.jpg

选择题型

  • VideoMME (2024.5):一堆高校提出。涵盖了 6 个主要视觉领域和 30 个子领域(见下左图),共900 段视频,2,700 个问题-答案对,除了视频帧之外,还整合了字幕和音频等多模态输入。评测分短(0~2min)、中(4~15min)、长(30~60min)三种时长的视频,每种还分有无字幕的结果。所有数据都是由人类新收集和注释的,而不是来自任何现有的视频数据集。测试时,短中视频 1fps,长视频长度少于 384 秒的,以 1fps 采样,对于超过 384 秒的视频,均匀提取 384 帧。
    WX20240808-105543@2x.png
  • MVBench (2023.11,上海AI lab):VideoChat2提出的,提供VideoChat2的sft数据。视频来自 STAR、CLEVRER、PAXION、TVQA等开源视频。20个任务如下图,每个任务200条问答,共4000条QA。
    2024-08-08T03:38:03.png
  • VideoVista (2024.6):包含了来自 14 个类别(例如,Howto、电影和娱乐)的 3400 个视频的 25000 个问题,视频时长从几秒到超过 10 分钟不等(但多数在3分钟内)。问题分了视频理解和视频推理两大类,涵盖了包括grounding、异常检测、交互理解、逻辑推理和因果推理在内的各种task,需要模型有目标检测能力。目前VLM比较薄弱的包括:temporal location, object tracking, and anomaly detection。

    14个视频类别:Howto & Style(H&S),新闻与政治(N&P),宠物与动物(P&A),汽车与车辆(A&E),游戏(Gam.),电影与动画(F&A),体育(Spo.),娱乐(ENT.),人物与博客(P&B),旅游与活动(T&E),喜剧(Com.),科学与技术(S&T),教育(Edu.),音乐(Mus.)

2024-08-07T03:39:04.png

  • LongVideoBench (2024.7):NTU & Salesforce blip团队。包含 3763 个从网络收集的不同长度的视频,以及它们的字幕,覆盖了多种主题。6678个问题-答案对。LongVideoBench突出长帧推理能力,问题不能很好地被单帧或少数稀疏帧处理。榜单中GPT和Gemini遥遥领先,开源的各种视频VLMs和图片VLMs差距都不大。

  • EgoSchema (2023.8): UC Berkeley提出。视频 clips 为3分钟,源自Ego4D,由第一人称视角的广角镜头拍摄。Benchmark 由5000多个人工构造的选择题 QA 组成,涵盖了250多个小时的真实视频数据,涵盖了非常广泛的自然人类活动和行为。问题里面的people都用C或c代替。题目很难,侧重于推理,人类正确率76%,7B 模型正确率低于35%。

开放式问题型

  • MLVU:MLVU: Multi-task Long Video Understanding Benchmark 长video理解。lmms-eval代码已集成。既有选择题,也有主观题,分布如下图。
    MLVU.png
  • ActivityNetQA (2019.6):由来自 ActivityNet 数据集的 5800 个视频中的 58000 个人工标注的问题-答案对组成,其中测试集8,000 QA pairs on 800 videos。关注长期空间-时间推理能力。属于开放式问答,但是问题答案都很简短,由一个单词或一个短语构成,也包含很多Yes/No问题,所以用规则式评测也可以。
  • VCGBench:只用了ActivityNet200 数据集中的视频,包含了 500 个视频和 3000 个问答对。
  • VCGBench-Diverse (2024.6):共包含 877 个视频、18 个广泛的视频类别和 4,354 个 QA 对。视频来自 HDVILA、MPII、YouCook2、UCF Crime 和 STUD Traffic 等。都是主观题,一句话形式,必须用LLM评测。
    vcgbench_diverse.jpg
  • MMBench-Video: 上海AI Lab提出,视频最长6分钟,平均165.4秒,包括 16 个主要类别的 609 个视频片段,共1,998 个QA。QA都是主观题,答案有长有短,平均8.4 words,需要用LLM评测。所有分数均基于 3 级评分方案:0 表示最差,3 表示最好。
    mmbenchv.png
  • [Visual Needle-In-A-Haystack (V-NIAH)]():LongVA提出

常见VLM训练数据

1.图文对数据

LAION2B:LAION5B数据集是从网页数据Common Crawl中筛选出来的图像-文本对数据集,它包含5.85B的图像-文本对,其中文本为英文的数据量为2.32B,这就是LAION2B数据集,它是LAION5B的英文子集。著名的stable diffusion generative model训练集就包括了LAION5B。

LAION-400M:下载原图和文本对的话,大概有10T左右。LAION-400M提供了400M数量的图文对,以及他们的CLIP embedding和kNN索引,因此可以对这个大数据集高效索引。索引网站:https://rom1504.github.io/clip-retrieval/

LAION-400M在收集数据时,做了一些过滤设定:

  1. 将文本短于5个字母或者图像小于5kb的图文对丢弃;
  2. 去重操作;
  3. 用CLIP计算图文相似性,抛弃掉相似性低于0.3的图文对;(很重要)
  4. 筛除一些不合法的图文对,比如adult/violence/insulting等等。(love and peace化)

LAION COCO: 对LAION2B中的600M 个图片,使用 BLIP L/14 and 2 CLIP versions (L/14 and RN50x64)打了COCO风格的captions标注。数据官网:LAION COCO

DataComp-1B:Apple公司训练他们的CLIP使用的数据。

TaiSu(太素): 中文视觉语言预训练数据集,数据量 166M。数据官网:TaiSu

COYO:由于伴随的文本取自Alt-text,COYO的文本通常很短。
LAION-GPT-4V:12.4k,LLaVA-1.6用了此数据。
ShareGPT4V: 100k个GPT4V生成的caption图文对,基于这数据训了个caption模型并开源,并给了1.2M个他们模型生成的高质量caption图文对。LLaVA-1.6用了此数据。

ShareGPT4V

2.OCR数据

王云鹤组整理,日常场景的那种OCR开源数据,来源是20个公开数据集,约5.6M真实的+17.9M仿真的:
https://github.com/large-ocr-model/large-ocr-model.github.io/blob/main/Data.md

SynthDoG datasets: Donut提出的数据集,用于增强ocr

SynthDoG

The links to the SynthDoG-generated datasets are here:
synthdog-en: English, 0.5M.
synthdog-zh: Chinese, 0.5M.
synthdog-ja: Japanese, 0.5M.
synthdog-ko: Korean, 0.5M.

Docmatix:由hf开源,一个比DocVQA大百倍的QA数据集,pdf图片来自PDFA。

英文文档:https://huggingface.co/collections/pixparse/pdf-document-ocr-datasets-660701430b0346f97c4bc628

目前开源最好用的版面分析工具:https://github.com/opendatalab/PDF-Extract-Kit

手写体OCR:
中文:CASIA-HWDB2
英语:IAM
挪威语:NorHand-v3

3.interleave数据

在论文VILA: On Pre-training for Visual Language Models中指出,pretrain阶段需要加interleave数据。最好是interleave和pair都用。
SFT阶段需要加text数据,可以把pretrain阶段 MMLU 的掉点救回来。

Dataset Type Text Src. #img/sample #tok./img
MMC4 Interleave HTML 4.0 122.5
COYO Img-text pair Alt-text 1 22.7

MMC4Github已开源。论文包含了 585M 张图片和 43B 个英文单词,这些图片和文字相互交织,已经过滤了NSFW图像、广告等。它是对流行的纯文本c4语料库的扩充,其中包含了图像交错。mmc4涵盖了日常话题,如烹饪、旅行、技术等。

M3W (Multi Modal Massive Web):没开源,Flamingo使用的数据,是作者们从网页挖一些带有文本和图像的数据、视频、以及用了别人的文本和图像pair的数据,用185M图像和182G的文本,构成M3W数据集。

m3w

SparklesDialogueGithub已开源,一些强行构造的interleave数据,比如:观察img1和img2,他们在xx方面的区别是什么?

OBELICS:从HTML documents构建,已开源。

MINT-1T:已开源。BLIP3提出,包括the HTML subset, the PDF subset, and the ArXiv subset,比例是7:5:1。

图片sft数据

Idefics2:开源了1.88 M SFT数据 The_cauldron,多轮对话格式,是50个开源数据的合集。Idefics2的sft数据就是这个以及一些纯文本的数据的混合。

4.视频数据

视频caption数据

2024-08-16T06:49:20.png
HowTo-100M(2019.6):HowTo100M 是一个大型叙述视频数据集,重点是教学视频,其中内容创建者教授复杂的任务,并明确解释屏幕上的视觉内容。 HowTo100M 共有以下功能:

  • 1.36 亿个视频剪辑,其字幕来自 120 万个 YouTube 视频(15 年的视频)
  • 烹饪、手工制作、个人护理、园艺或健身等领域的 23k 项活动

每个视频都配有一个旁白,可从 Youtube 自动下载字幕。

HowTo

WebVid-10M(2021.4)论文 视频caption数据,一共有10M的video clip,还有个2.5M的子集。

WebVid

HD-VILA-100M(2021.11):[CVPR 2022] 视频来源是youtube,用3.3M个视频切出了100M个视频片段,涵盖了YouTube上的15个最流行的视频类别,例如体育、音乐、汽车等。分辨率都为720p,平均时长为13.4秒。每个视频片段有一个对应的描述,但注意描述是根据ASR生成的,所以句子风格和我们理解的caption不太一样。每个句子平均包含32.5个词。

Panda-70M(2024.2):[CVPR 2024] 视频来源是youtube,70M个视频,每个视频由多个短caption和时间戳构成。

ShareGPT4Video(2024.6):有 40K 视频,有关键帧、时间戳、和每一小段的caption,caption是GPT4V造的,很长很丰富。一共是大约 400K video split captions。

MiraData(2024.7):过滤最终有 9K data,过滤时采用帧率2 fps。MiraData是一个具有长持续时间(持续时间从1到2分钟不等)和 GPT-4V 打标的结构化caption(从不同的角度提供了详细的描述,平均caption长度为349个字)的大规模视频数据集。它是专门为长视频生成任务而设计的。目前MiraData包括两个场景:游戏、城市/风景探索。视频来源为在不同的场景中手动选择YouTube频道,并包括来自HD-VILA-100 MVideovoPixabayPexels的视频。
它的数据构造流程挺好,提供了GPT4V prompt。788K 原数据在颜色过滤、美学质量、运动强度、NSFW四个过滤阶段后的数据量依次是:330K, 93K, 42K, and 9K video clips。
collection_and_annotation2.jpg

FineVideo(2024.9): 由HuggingFace开源。来自youtube 的43.7k 视频,包括122个类别,它包含有关场景、人物、情节转折以及音频和视觉效果如何协同工作的详细注释。官方提供了数据探索工具,点击链接可访问。

视频sft数据

ShareGPT4Video-255k: 240k QA+15k caption,是个大合集,包括了大多数的开源video sft数据。

Video-ChatGPT:10w 条开放式问答数据。VideoLLaVA、ShareGPT4Video 数据里都用了它,用法在 Github:VideoLLaVAGithub:ShareGPT4Video

MVBench/Videochat2 的视频指令调整数据。

标签: 多模态

已有 2 条评论

  1. 推荐下我们自己的 benchmark 和数据:

    推荐下我们自己的 benchmark 和数据:
    针对抽象图等任务场景专门生成的 benchmark, 例如图表,流程图,组织架构图,导航地图,仪器表盘图,网页布局,建筑布局等抽象图

    Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

添加新评论