本周带来的 5 个 SOTA 模型分别用于图像分割、聊天对话、中文对话;5 个工具用于聊天对话、LLM高效参数微调、视频生成、扩散模型加速。
Meta等开源Segment Anything,可为图像和视频中任何对象生成掩码
Segment Anything
【资料图】
近日,Meta 发布图像分割基础模型 Segment Anything(SAM),根据输入提示(例如点或框)生成高质量的对象掩码,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像领域上即开即用,无需额外的训练。SAM 在 1100 万张图像和 11 亿个掩码的数据集上进行了训练,预训练模型权重已开源,还发布了大型图像分割数据集 SA-1B。
获取资源:
https://sota.jiqizhixin.com/project/Segment-Anything
Alpaca-cpp开源,突破8G显存限制,可在本地电脑CPU上流畅运行
Alpaca 是斯坦福团队基于 LLaMA 7B 在 52k 指令上微调得到的模型,能出色适应多种自然语言应用场景。Alpaca-cpp 是 Alpaca 的 C/C++实现,基于 llama-cpp项目构建对 Alpaca-Lora 的权重进行量化等预处理,并通过 llama-cpp 提供的功能去加载量化后的权重。Alpaca-cpp 突破8G显存限制,可在本地电脑(支持Mac/Windows/Linux)CPU上流畅运行Alpaca 7B。
获取资源:
https://sota.jiqizhixin.com/project/alpaca-cpp
浙大等提出HuggingGPT,给定任务分析所需模型,并调用HuggingFace模型执行
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
浙大等提出 HuggingGPT,给定一个 AI 任务能自动分析所需的 AI 模型,并直接调用 HuggingFace 上的相应模型执行并完成相应任务。HuggingGPT 由 LLM 和众多专家模型组成,将大语言模型 LLMs 作为中间控制器,来管理现有的所有 AI 模型,通过 “调动和组合每个人的力量”,来解决复杂的 AI 任务。当前 HuggingGPT 已开源,通过 OpenAI API 公开访问所采用 gpt-3.5-turbo 和 text-davinci-003 模型,便可以进行实测。
获取资源:
https://sota.jiqizhixin.com/project/hugginggpt
加州大学圣迭戈分校等开源Baize,用ChatGPT生成的语料库微调LLaMA得到
Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data
来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了 Baize。为了在资源匮乏的环境中微调大语言模型,该研究采用了有效利用计算资源的参数高效调优方法。该策略使最先进的语言模型保持了高性能和适应性。Baize 改进了开源大型语言模型 LLaMA,通过使用新生成的聊天语料库对 LLaMA 进行微调。该项目开源四种型号英语模型:7B、13B、30B(通用对话模型)、垂直领域医疗模型,供研究/非商业用途使用,并提供在线 demo 体验。
获取资源:
https://sota.jiqizhixin.com/project/baize
Hugging Face发布70亿语言模型StackLLaMA,通过人类反馈强化学习微调LLaMA-7B得到
ChatGPT、GPT-4 和 Claude 等大型语言模型,通过使用人类反馈强化学习 (RLHF) 的方法进行微调,以更好地符合人类期望行为。近日,Hugging Face 发布 70 亿参数的模型 StackLLaMA,通过人类反馈强化学习微调 LLaMA-7B 得到。当前该项目已发布模型权重文件和训练数据集,并提供高效训练策略、使用RLHF和人工注释来微调模型等一系列实践操作指南。
获取资源:
https://sota.jiqizhixin.com/project/stackllama
UC伯克利开源对话模型Koala,可在消费级GPU上运行
UC 伯克利的伯克利人工智能研究院(BAIR)发布了一个可以在消费级 GPU 上运行的对话模型 Koala,使用从网络收集的对话数据对 LLaMA 模型进行微调。Koala 在 EasyLM 中使用 JAX/Flax 实现,并在配备 8 个 A100 GPU 的单个 Nvidia DGX 服务器上训练。与 ChatGPT 进行实验比较,具有 130 亿参数的 Koala-13B 可有效响应各种用户查询,并在超过一半的情况下与 ChatGPT 性能相当。当前该项目支持下载、恢复Koala模型权重,在本地运行 Koala 聊天机器人。
获取资源:
https://sota.jiqizhixin.com/project/koala
中文对话式大语言模型Firefly(流萤)开源,经1.1M中文多任务指令微调数据集训练得到
Firefly(流萤) 是一个开源的中文对话式大语言模型,使用指令微调(Instruction Tuning)在中文数据集上进行调优。同时使用了词表裁剪、ZeRO、张量并行等技术,有效降低显存消耗和提高训练效率。在训练中使用了更小的模型参数量,以及更少的计算资源。该项目构造了许多与中华文化相关的数据,以提升模型这方面的表现,如对联、作诗、文言文翻译、散文、金庸小说等。当前该项目已开源数据集、模型权重文件以及训练代码。
获取资源:
https://sota.jiqizhixin.com/project/firefly
新加坡科技设计大学等提出LLM-Adapters,集成适配器到LLM实现高效参数微调
Token Merging for Fast Stable Diffusion
为了研究大型语言模型的基于适配器的参数高效微调方法(PEFT),该研究提出了 LLM-Adapters,这是一个易于使用的框架,它将各种适配器集成到大型语言模型中,并可以针对不同的任务执行这些基于适配器的大型语言模型的 PEFT 方法。该框架包括最先进的开放性大型语言模型,如 LaMA、BLOOM、OPT 和 GPT-J,以及广泛使用的适配器,如系列适配器、并行适配器和 LoRA。该框架被设计成对研究友好、高效、模块化和可扩展的,允许整合新的适配器,并对它们与新的和更大规模的 LLM 进行评估。
获取资源:
https://sota.jiqizhixin.com/project/llm-adapters
VideoControl开源,用于制作视频内容的开源视频生成和编辑工具箱
VideoControl 是用于文本到视频生成的工具包,该项目当前提供三种视频生成模型:通用文本到视频生成模型 Base T2V,可以根据输入的文本描述合成逼真的视频;LoRA 个性化文本到视频生成模型 VideoLoRA,基于预训练 LVDM,可通过在一组描述特定概念的视频剪辑或图像上采用 LoRA 来实现微调,易于训练并需要更少的计算资源;通过插入轻量级适配器实现更多条件控制的视频生成模型 VideoControl。
获取资源:
https://sota.jiqizhixin.com/project/videocrafter
佐治亚理工学院提出ToMeSD,利用生成图像中的自然冗余来加速扩散模型
Token Merging for Fast Stable Diffusion
开放词汇扩散模型的核心是使用 Transformers,这使得生成速度缓慢。该研究通过合并多余的标记,利用生成的图像中的自然冗余来加速扩散模型。使用稳定扩散的 ToMe 将现有稳定扩散模型中的标记数量减少 60%,同时仍能产生高质量的图像,而无需任何额外的训练,图像生成速度提高了 2 倍,内存消耗减少了 5.6 倍。当这种加速与高效的实现方式如 xFormers 堆叠在一起,在保证质量的情况下生成速度将提升 5 倍以上。
获取资源:
https://sota.jiqizhixin.com/project/tomesd
网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。