会议摘要

报告将探讨大模型表征空间的特征,展示大模型表征空间对齐的例子,包括多模态表征的对齐、抽象表征的提取以及表征空间的相似性度量。在此基础上,将展示一个新的表征度量利用大模型表征对齐的性质来分析和理解多模态大模型中幻觉现象的来源,解剖大模型的各个模块的贡献。最后通过展示针对商业多模态模型中版权防御的越狱攻击,探讨通过操控表征空间实现安全可控生成的方法,总结在这一研究方向上的结果并展望未来发展。

会议内容——大模型机理分析

1.大模型表征空间正在对齐

eg:CLIP模型零样本能力、模型缝合、多模态大模型

2.背景介绍

模型的幻觉:模型生成看似可信但不忠实或无意义的内容
-忠实性幻觉:生成内容与用户输入矛盾 eg:视觉语言模型幻觉,图文不一致
-事实性幻觉:生成内容与现实世界知识相悖

幻觉的评估,图文之间的以执行(基于QA的评测指标,如POPE、MME等)

多模态模型幻觉来自于Visual encoder,LLM,Adaptor

研究方法:探查(外接分类器)(需要额外参数,效果与训练水平强相关)、无参数对其度量。

线性相关系数:0.75到0.78,而一般只有0.2到0.3,并不是模型越大越好

反思:
-表征对齐与模型度量
-模型表征的对齐可以作为幻觉的精细度量
-模型表征的对齐可以诊断模型

3.大模型表征对齐与商业

为了避免生成图片的版权纠纷,商业大模型会采用防御机制拒绝生成敏感图片

-可能采用的机制:对齐、关键词屏蔽、生成后检查
-方法:自动攻击提示词生成

反思:
-表征编辑、基于强化学习的表征编辑
-更深入的探索:新的表征对齐度量方法
-更实际的应用:在表征空间对表征渐进改进,平衡效果和新能;在多模态结果寻找更合理的算法。

3.会议相关资源

-大模型测试结果:百度网盘分享,提取码:7568
-表征对齐推导:百度网盘分享,提取码:7568
-无参数对齐度量推导:百度网盘分享,提取码:7568

4.会议总结

这是本人第一次使用b站平台收听会议。在这之中,我对模型的幻觉、表征空间等概念有了认识,并会在未来将这当中的部分思路应用在项目之中!