前行的皮皮

让VLM知之为知之，不知为不知——以chart2json任务为例

作者: 孔西皮
时间: 2024-04-25
分类: AI科学
评论

论文：OneChart: Purify the Chart Structural Extraction via One Auxiliary Token
主页及demo：https://onechartt.github.io/

《论语》中说：“知之为知之，不知为不知，是知也”。从神经网络兴起以来，人们就没有停止过对这种黑盒模型应用在生产环境的担心。在AI 1.0中大部分模型还至少会输出一个置信度得分可供参考；然而对于AI2.0时代的VLMs来说，所有的结果以文本的形式吐出，这加重了人们对模型安全性的焦虑。让模型知道自己的能力边界，不要产生致命错误，这点十分必要，也是目前的难点。

- 阅读剩余部分 -

大模型Agent

作者: 孔西皮
时间: 2024-03-12
分类: AI科学
评论

PanelGPT💡: 💁🏼🎤 (👾💬) (🤖💭) (🤯🗯) 受到“三个臭皮匠，赛过诸葛亮”启发，设计one-shot的例子，让多个LLM同时给出答案，然后再用一个LLM打分，做决定。他们使用的prompt：3 experts are discussing the question with a panel discussion, trying to solve it step by step, and make sure the result is correct and avoid penalty:，这个prompt的效果要优于Let's think step by step:。

ToT：Tree of Thoughts，结合PanelGPT，设计了BFS或者DFS的one-shot方法。

VLM常见的数据集和Benchmark

作者: 孔西皮
时间: 2024-03-07
分类: AI科学
评论

本文对VLM领域多个任务的常见数据集和benchmark做了简要介绍，以方便读友看论文时参考。

⚠️注意：本文信息仍在时常更新中

- 阅读剩余部分 -

视觉语言预训练模型

作者: 孔西皮
时间: 2024-01-28
分类: AI科学
评论

1. CLIP 2021.2.26

论文：Learning Transferable Visual Models From Natural Language Supervision（OpenAI in ICML2021）

如下图所示，将图片和文本描述通过网络都得到768维的Embedding，其中文本编码器使用transformer，图片编码器使用了ResNet和ViT两种结构进行实验，ViT的有ViT-B/32, ViT-B/16, ViT-L/14。预训练使用了400M（4亿）个图像文本对，每个batch采样三万多个这样的配对，通过对比学习，配对的Embedding位置处为1，非配对处为0进行训练。在测试时支持zero-shot推理，通过计算图片Embedding和各个候选句子的相似度，相似度大于某个阈值或者topk的为输出结果。

在后续的改进中，Kaiming的FLIP证明，对图片进行50%的mask后只对非mask部分计算Embedding来训练CLIP，只在最后几轮用unmask训不会降低CLIP的性能，反而可以起到一定的正则化作用。他们也尝试了增加MAE loss，但没有带来性能提升。

初学多模态大模型：paperlist和笔记

作者: 孔西皮
时间: 2023-09-15
分类: AI科学
评论

本文重点介绍了一些 VLM 早期的代表性工作。其中，CLIP作为视觉语言模型（VLM）的基础和开山之作，创新性提出了ITC对比损失用于对齐图片级视觉和语言Embedding，但它只能完成判断，无法完成生成式任务。之后BLIP的出现补足了生成的能力，后来Flamingo、LLaVA和BLIP2进一步充分利用了LLM的生成能力，但它们三个都只能生成文字，并且对视觉部分缺乏监督。Emu进一步补足了图片生成的能力，并创新性提出了一种自回归图片tokens的目标。上述模型针对的图片输入都是全图输入，Shikra和chatSpot则提出了可以接受点和框询问特定位置的MLLM，这种能力被称为Referential对话的能力。Donut和Nogat则特别针对OCR任务提出。

⚠️注意：本文信息几乎截止至2023.8.31，部分内容已缺乏时效性，不具备足够的参考价值

- 阅读剩余部分 -

硬件

作者: 孔西皮
时间: 2023-09-11
分类: 信息技术
评论

电机选型

减速直流电机
这种电机的几个重要参数如下，

转速，单位为转每分钟。例如你需要先确定你想要的小车的行驶速度，然后测量轮胎的周长，最后换算出需要的转速，例如500转/min；
额定电压。用标称电压7.4v的锂电池的话电压范围是6v~8.4v，所以一般选6v的电机；
减速比。这个关系到力矩大小，减速比越大，力矩越大。力矩太小的电机用作小车轮胎的电机时会走不动。例如同样是500转/min的两个电机，电机A为15000转，转速比30:1，经测量它的空载电流为30mA，堵转电流为350mA。而电机B为25000转，减速比50:1，经测量它的空载电流为150mA，堵转电流为2A。用作小车轮胎应选电机B。

电机驱动电路
单片机引脚输出的电流最大为20mA左右，远远不能满足电机的电流需求，因此需要电机驱动电路。常用的驱动电路有H桥电路，它比较复杂和庞大，一般用于控制几十安的电机。对于较小电流电机，可以直接选择集成芯片，如RZ7899，一个芯片可以驱动一个电机，需要注意的参数为工作电压、输出最大电流。绘制原理图时，参考芯片手册中提供的应用电路进行绘制。单片机引脚连接芯片的中间可以放一个300欧的电阻，起到保护单片机和芯片的作用。芯片输入引脚接10k的下拉电阻到GND，让芯片不接单片机时不受外来信号的影响，即默认输入LL让电机处于浮空状态。电机正负极两端接一个104电容，避免火花。

单目标跟踪SOT常用评价指标

作者: 孔西皮
时间: 2023-07-12
分类: AI科学
评论

One-Pass Evaluation (OPE)

用ground-truth中目标的位置初始化第一帧，然后运行跟踪算法得到平均精度和成功率。这种方法被称为one-pass evaluation (OPE)。这是最常用的评估方法，指标包括曲线和数值指标。最早由OTB数据集提出。

1. success、precision曲线

这两种曲线可以说是几乎所有论文都在用的，

success plot of OPE
这主要考察的是重叠率，横坐标是iou阈值，纵坐标是成功的比例。
precision plot of OPE
这主要是衡量预测与gt的中心之间的距离，横坐标是像素，纵坐标是成功的比例。

2. 数值指标

Overlap Success Rate (OSR)，与success plot对应，越大越好，OSR代表预测框和gt的IoU大于阈值$\beta$的比例，大部分数据集$\beta=0.5$。
Distance Precision Rate (DPR)，与precision plot对应，越大越好，DPR代表预测框的中心和gt框中心的距离小于阈值$\alpha$的比例，大部分数据集$\alpha=5$，少数是20。
AUC: area under curve 成功率图的曲线下面积，成功率图指随着$beta$的变化，OSR的变化曲线图。越大越好。
OP50：$\beta=0.5$时的OSR。越大越好。
OP75：$\beta=0.75$时的OSR。越大越好。

- 阅读剩余部分 -

大一统目标跟踪

作者: 孔西皮
时间: 2023-06-28
分类: AI科学
评论

跟踪中的任务主要有：

多目标跟踪（Multi Object Tracking, MOT）
单目标跟踪（Single Object Tracking, SOT）
多目标跟踪分割(Multi Object Tracking and Segmentation, MOTS)
视频目标分割(Video Object Segmentation, VOS)

这里，我暂时先不关心分割的任务。以下是MOT和SOT的对比：

Tasks	Reference	Class	Tracks per video	Typical Inputs	Representative Methods
MOT	No	specific	Tens or hundreds	High-resolution Whole Image	Detection+Association
SOT	Initial box	agnostic	One	Small search region	One-Shot Detection

可以看到两个任务之间的gap还是比较大的，总结一下，阻碍SOT和MOT两个任务统一的主要有三座大山：

被跟踪目标的属性不同（参考帧给定的一个，任意类别的目标 VS 几十几百个特定类别的目标）；
SOT和MOT关注的对应关系不同（SOT关注目标和背景的区分，MOT关注目标和轨迹的对应）；
不同的输入（SOT输入为小的搜索范围，以节省计算量和消除潜在的干扰；MOT输入为高分辨率的全图，以尽可能检测到所有实例）。

大一统的目标跟踪这里是指，仅需要一套模型及参数，就可以在各个任务上取得优异的表现。我将介绍两个工作的这部分内容，看看它们是怎么翻过这些大山的。

- 阅读剩余部分 -

台式机+轻薄本：AI从业者的最佳设备配置指南

作者: 孔西皮
时间: 2023-05-09
分类: 信息技术
评论

作为一名AI从业者，你选购电脑是否有过这样的苦恼：轻薄本便携续航久，但GPU和散热弱；游戏本GPU比较强，但比较重、续航短；台式机高配置、硬盘空间大，但不能带出门；商业的GPU服务器租赁要不就是使用有要求，要不就是贵的离谱，还要担心商家提桶跑路 or 涨价 or 欠费停机数据被删。作为一个成熟但财力有限的开发者，想全都要，比较好的一种方式是买轻薄本+台式机。但拥有多台设备后，依然存在一些痛点问题，比如资料分散在两台电脑、出门在外依然难以查看实验结果。本文博主以自身经验为例，给出轻薄本+ubuntu台式机+frp ssh的配置指南，供大家选择性参考。

- 阅读剩余部分 -

GPT系列产品驯服指南

作者: 孔西皮
时间: 2023-04-17
分类: 信息技术
评论

随着ChatGPT的流行，不少人都有了用它来提高工作效率的需求。然而，不同的引导词（prompt）提示下，同一模型的输出结果可能大相径庭，好的prompt能释放模型的潜力，得到更有用的输出。本博文提供了一些使用的技巧和常用的prompt示例，本文持续更新……希望大家多多尝试，在评论区踊跃交流经验~

- 阅读剩余部分 -

让VLM知之为知之，不知为不知——以chart2json任务为例

大模型Agent

VLM常见的数据集和Benchmark

视觉语言预训练模型

1. CLIP 2021.2.26

初学多模态大模型：paperlist和笔记

硬件

单目标跟踪SOT常用评价指标

One-Pass Evaluation (OPE)

1. success、precision曲线

2. 数值指标

大一统目标跟踪

台式机+轻薄本：AI从业者的最佳设备配置指南

GPT系列产品驯服指南

最新文章

分类

标签

最近回复

友情链接

其它