【AIGC半月报】AIGC大模型启元：2024.05（上）

2024-06-13 AIGC 0

AIGC大模型启元：2024.05（上）

- (1) Video Mamba Suite（Mamba视频领域应用）
- (2) KAN（全新神经网络架构）
- (3) Meshy 3（文本生成3D模型）
- (4) MemGPT（LLM记忆管理框架）
- (5) Vim（Vision Mamba(Mamba高性能视觉版)）
- (6) InternVL 1.5（上海AI Lab多模态大语言模型）
- (7) 通义千问2.5（阿里巴巴）
- (8) xLSTM（LSTM强势升级）
- (9) Cone（激活函数）
- (10) Agent Hospital（清华大学）
- (11) DeepSeek-V2（深度求索-第二代MoE模型）
- (12) Lumina-T2X（多模态DiT架构大一统）
- (13) GPT-4o（OpenAI多模态模型-o代表omini，全能）

(1) Video Mamba Suite（Mamba视频领域应用）

2024.05.01 来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 - 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。
　　研究团队精心打造了 video-mamba-suite（视频 Mamba 套件）。该套件旨在补充现有研究的不足，通过一系列深入的实验和分析，探索 Mamba 在视频理解中的多样化角色和潜在优势。

推荐文章： Mamba再次击败Transformer！在视频理解任务中杀疯了！
论文链接： https://arxiv.org/abs/2403.09626
代码链接： https://github.com/OpenGVLab/video-mamba-suite

(2) KAN（全新神经网络架构）

2024.05.02 一种全新的神经网络架构KAN，诞生了！与传统的MLP架构截然不同，且能用更少的参数在数学、物理问题上取得更高精度。
　　在函数拟合、偏微分方程求解，甚至处理凝聚态物理方面的任务都比MLP效果要好。
　　而在大模型问题的解决上，KAN天然就能规避掉灾难性遗忘问题，并且注入人类的习惯偏差或领域知识非常容易。
　　来自MIT、加州理工学院、东北大学等团队的研究一出，瞬间引爆一整个科技圈：Yes We KAN！

推荐文章： 全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作，轻松复现Nature封面AI数学研究version=4.1.22.6014&platform=win&nwr_flag=1#wechat_redirect)
项目链接： https://kindxiaoming.github.io/pykan/
论文链接： https://arxiv.org/abs/2404.19756

(3) Meshy 3（文本生成3D模型）

2024.05.01 文本生成3D模型Meshy 3重磅发布，目前可免费试用，UI、提示词都支持中文。
　　本次，Meshy 3生成的3D模型更加细腻逼真，支持360度全景观超分辨率贴图、纹理、位移、法线、曲率以及物理光照渲染效果。
　　也就是说，用户可以像雕塑那样去生成3D模型，并且可下载fbx、obj、glb、usdz等文件格式放在不同场景中使用。

推荐文章： 支持中文，免费试用！文本生成360度，物理光照3D模型
项目链接： /
论文链接： /
免费体验地址： https://app.meshy.ai/zh/discover

(4) MemGPT（LLM记忆管理框架）

2024.05.02 根据《MemGPT：将大语言模型作为操作系统》论文，其研发灵感来自于操作系统的分层内存系统，通过在快速和慢速内存之间移动数据来提供大内存资源的外观。MemGPT系统，智能地管理不同的内存层，以有效地在LLM的有限上下文窗口内提供扩展上下文，并利用中断来管理自身与用户之间的控制流。
　　MemGPT的研究者写道：“大型语言模型彻底改变了人工智能，但受到有限的上下文窗口的限制，阻碍了它们在扩展对话和文档分析等任务中的实用性。为了能够在有限的上下文窗口之外使用上下文，我们提出了虚拟上下文管理，这是一种从传统操作系统中的分层内存系统中汲取灵感的技术，该技术通过快速内存和慢速内存之间的数据移动提供大内存资源的外观。使用这种技术，我们引入了 MemGPT，这是一个智能管理不同内存层的系统，以便在 LLM 有限的上下文窗口内有效地提供扩展上下文，并利用中断来管理其自身和用户之间的控制流。我们在两个领域评估了受操作系统启发的设计，现代 LLM 的有限上下文窗口严重影响了其性能：文档分析，MemGPT 能够分析远远超出底层 LLM 上下文窗口的大型文档，以及多会话聊天，其中 MemGPT 能够分析远远超出底层 LLM 上下文窗口的大型文档。MemGPT 可以创建会话代理，通过与用户的长期交互来记忆、反映和动态发展。”

推荐文章： GitHub 8.9K Star，伯克利大学开源LLM记忆管理框架MemGPT
项目链接： https://github.com/cpacker/MemGPT
论文链接： https://arxiv.org/abs/2310.08560
免费体验地址： https://app.meshy.ai/zh/discover

(5) Vim（Vision Mamba(Mamba高性能视觉版)）

2024.05.03 来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。
　　在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上，与 DeiT 等成熟的视觉 Transformers 相比，Vim 实现了更高的性能，同时还显著提高了计算和内存效率。例如，在对分辨率为 1248×1248 的图像进行批量推理提取特征时，Vim 比 DeiT 快 2.8 倍，并节省 86.8% 的 GPU 内存。结果表明，Vim 能够克服对高分辨率图像执行 Transformer 式理解时的计算和内存限制，并且具有成为视觉基础模型的下一代骨干的巨大潜力。

推荐文章： 重磅！视觉Mamba正式收录顶会ICML 2024！
论文地址： https://arxiv.org/pdf/2401.09417.pdf
项目地址： https://github.com/hustvl/Vim

(6) InternVL 1.5（上海AI Lab多模态大语言模型）

2024.05.06 上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM)，旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。
　　与开源和闭源模型相比，InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。
　　论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集中。

推荐文章： 上海AI Lab开源首个可替代GPT-4V的多模态大模型
论文地址： https://arxiv.org/abs/2312.14238
代码地址：

https://github.com/OpenGVLab/InternVL
https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5

体验地址： https://internvl.opengvlab.com

(7) 通义千问2.5（阿里巴巴）

2024.05.09 2024年5月9日，阿里云官方在AI智领者峰会中官宣了通义千问2.5版本，并开源了1100亿参数模型Qwen1.5-110B。
　　阿里云表示，与通义千问2.1版本相比，通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%；与GPT-4相比，中文语境下，通义千问2.5文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超GPT-4。但实际使用体验还需验证。
　　随着通义千问2.5的发布，阿里官方晒出了一张LLM排行榜的截图，在上海AI实验室推出的权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo，GPT-4-Turbo-1106版本和Qwen-Max-0403并列第一名。是国产大模型首次在该基准取得该项成绩。

推荐文章： 全面赶超GPT-4？阿里云发布通义千问2.5，一文带你读懂通义千问
Model地址：

https://github.com/QwenLM/Qwen
https://ollama.com/library/qwen
https://huggingface.co/Qwen

(8) xLSTM（LSTM强势升级）

2024.05.08 LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。
　　论文的所属机构中还出现了一家叫做「NXAI」的公司，Sepp Hochreiter 表示：「借助 xLSTM，我们缩小了与现有最先进 LLM 的差距。借助 NXAI，我们已开始构建自己的欧洲 LLM。」
　　研究者增加了训练数据量，对来自 SlimPajama 的 300B 个 token 进行了训练，并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型（125M、350M、760M 和 1.3B），进行了深入的评估。首先，评估这些方法在推断较长语境时的表现；其次，通过验证易混度和下游任务的表现来测试这些方法；此外，在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法；最后，评估了不同方法的扩展行为，但使用的训练数据多了 20 倍。

推荐文章： 原作者带队，LSTM真杀回来了！
论文链接： https://arxiv.org/pdf/2405.04517

(9) Cone（激活函数）

2024.05.08 介绍了一类远优于几乎普遍使用的类似ReLU和Sigmoid激活函数的激活函数。提出了两种新的激活函数，称为锥形（Cone）和抛物锥形（Parabolic-Cone），它们与流行的激活函数截然不同，并且在CIFAR-10和Imagenette基准测试上的表现显著优于这些函数。锥形激活函数仅在有限区间内为正，在该区间两端点外严格为负，并在端点处变为零。
　　因此，对于具有锥形激活函数的神经元来说，产生正输出的输入集合是一个超条带，而不是通常情况下的半空间。由于超条带是两个平行超平面之间的区域，它允许神经元将输入特征空间更精细地划分为正类和负类，而不是无限宽的半空间。
　　特别是，具有锥形类激活函数的单个神经元可以学习XOR函数。本文展示了锥形和抛物锥形激活函数在基准测试中使用显著较少的神经元就能获得更高的准确度。本文提出的结果表明，许多非线性的现实世界数据集可能需要比半空间更少的超条带进行分离。锥形和抛物锥形激活函数的导数大于ReLU，并且显著加快了训练速度。

推荐文章： 超越 ReLU 和 Sigmoid | 新型激活函数锥形和抛物锥形的研究，训练速度再上一层！
论文链接： https://arxiv.org/pdf/2405.04459

(10) Agent Hospital（清华大学）

2024.05.08最近，来自清华团队的研究人员开发了一个名为「Agent Hospital」的模拟医院。
　　在这个虚拟世界中，所有的医生、护士、患者都是由LLM驱动的智能体，可以自主交互。它们模拟了整个诊病看病的过程，包括分诊、挂号、咨询、检查、诊断、治疗、随访等环节。而在这项研究中，作者的核心目标是，让AI医生学会在模拟环境中治疗疾病，并且能够实现自主进化。
　　研究人员设计了，14名医生和4名护士。医生智能体被设计来诊断疾病并制定详细的治疗计划，而护理智能体则专注于分诊，支持日常治疗干预。

详情介绍： 清华首个AI医院小镇来了！AI医生自进化击败人类专家，数天诊完1万名患者
论文地址： https://arxiv.org/pdf/2405.02957

(11) DeepSeek-V2（深度求索-第二代MoE模型）

2024.05.09最近，来自清华团队的研究人员开发了一个名为「Agent Hospital」的模拟医院。
　　在这个虚拟世界中，所有的医生、护士、患者都是由LLM驱动的智能体，可以自主交互。它们模拟了整个诊病看病的过程，包括分诊、挂号、咨询、检查、诊断、治疗、随访等环节。而在这项研究中，作者的核心目标是，让AI医生学会在模拟环境中治疗疾病，并且能够实现自主进化。
　　研究人员设计了，14名医生和4名护士。医生智能体被设计来诊断疾病并制定详细的治疗计划，而护理智能体则专注于分诊，支持日常治疗干预。

详情介绍： 深度求索DeepSeek-V2中文推理任务表现强劲，总分74.46，超越Llama3|SuperCLUE
模型地址：

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2
https://huggingface.co/deepseek-ai

开源地址： https://github.com/deepseek-ai/DeepSeek-V2

(12) Lumina-T2X（多模态DiT架构大一统）

2024.05.10上海 AI Lab、港中文和英伟达的研究者联合推出了 Lumina-T2X 系列模型，通过基于流（Flow-based）的大型扩散 Transformers（Flag-DiT）打造，旨在将噪声转换为图像、视频、多视图 3D 对象和基于文本描述的音频。
　　其中，Lumina-T2X 系列中最大的模型包括具有 70 亿参数的 Flag-DiT 和一个多模态大语言模型 SPHINX。SPHINX 是一个文本编码器，它具有 130 亿参数，能够处理 128K tokens。
　　基础的文本到图像模型 Lumina-T2I 利用流匹配框架，在精心整理的高分辨率真实图像文本对数据集上进行训练，只需要使用很少的计算资源就能取得真实感非常不错的结果。
　　Lumina-T2I 可以生成任意分辨率和宽高比的高质量图像，并进一步实现高级功能，包括分辨率外推、高分辨率编辑、构图生成和风格一致生成，所有这些都以免训练的方式无缝集成到框架中。

详情介绍： DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩
模型地址： https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main
开源地址： https://github.com/Alpha-VLLM/Lumina-T2X
论文地址： https://arxiv.org/pdf/2405.05945

(13) GPT-4o（OpenAI多模态模型-o代表omini，全能）

2024.05.14 OpenAI发布最新多模态大模型 GPT-4o（o代表omini，全能），支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出。文本、推理和编码智能方面性能达到了GPT-4 Turbo水平，同时在多语言、音频和视觉能力方面也达到新高。据介绍，GPT-4o的速度比GPT-4 Turbo快2倍，速率限制提高5倍，最高可达每分钟1000万token，而价格则便宜了一半。
　　官网显示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户，Plus用户的消息数量使用上限是免费版的5倍（使用上限后会切换回GPT-3.5版本）。而新版语音模式将在未来几周向Plus用户推出，同时也将会在API（应用接口）中向小范围推出对GPT-4o的新音频和视频功能的支持。
　　GPT-4o可以像人工智能助手一样，实现用户与ChatGPT的实时交互，不再是一问一答，也不需要其他按键操作。比如，用户可以说“Hi，ChatGPT”并提出问题，也可以在ChatGPT回答时打断它，它还可以识别用户声音中展现的情感，甚至实时根据用户的需求来使用不同情感风格的声音。
　　据介绍，GPT-4o的音频输入平均反应时间为0.32秒，与人类对话中的反应时间相似。
　　OpenAI表示，在GPT-4o之前，使用语音模式与ChatGPT对话的平均延迟时间为2.8秒（GPT-3.5）和5.4秒（GPT-4）。此前的语音模式由三个独立模型组成：一个简单模型将音频转为文本，GPT-4接收文本并输出文本，第三个简单模型将文本转回音频。这个过程也让主要的智能源GPT-4丢失了很多信息，比如不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。而GPT-4o通过在文本、视觉和音频方面训练了一个端到端新模型，所有输入和输出都由同一个神经网络处理。

详情介绍：
电影中的人工智能来了！OpenAI发布全能大模型：文图音任意组合输出，可实现人类级别响应
GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩