Tarsier

4个月前发布 5 00

Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。

收录时间:
2025-04-08

Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。 Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。 Tarsier:字节跳动推出的大规模视频语言模型家族 Tarsier的主要功能特色 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。 Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。 在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。 论文:https://arxiv.org/abs/2501.07888 Code: https://github.com/bytedance/tarsier Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b

数据统计

相关导航

Monica bots

Monica bots

Monica Bots是一款基于先进AI模型(如 GPT-4、Claude、Gemini 等)的多功能AI助手,能助力用户快速创建和部署智能助手(Bots)的平台,Monica Bots支持跨平台使用,包括浏览器插件(Chrome、Edge、Safari)、桌面端(Windows、macOS)和移动端(iOS、Android)。它集成了聊天、写作、翻译、数据分析、AI 绘图等多项功能,让即使没有技术背景的人也能轻松上手构建和管理自己的AI应用,满足各种场景需求。
LMArena AI

LMArena AI

LMArena AI 是一个专注于众包 AI 基准测试的开放平台,由加州大学伯克利分校 SkyLab 和 LMSYS 研究团队打造。用户可以在平台上免费与 AI 聊天并进行投票,比较和测试不同的 AI 聊天机器人。LMArena AI 提供盲测模式、匿名对战、投票系统和风格控制等功能,确保评估的公平性和客观性。平台还支持多模态功能,允许用户通过图像与 AI 互动。通过 LMArena AI,用户可以了解和体验不同 AI 模型的性能,帮助他们选择合适的工具或服务。
Video-LLaVA

Video-LLaVA

Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构,能够处理视频和问题,通过自注意力机制来捕捉二者之间的关联信息,并可以回答有关其内容的问题,它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练,使得它能够理解丰富的视频特征和问题语义,进而在视频问答任务上取得了先进的性能,该技术还可用于标记图像和视频。
53AI

53AI

53AI是一个开箱即用的企业大模型应用平台,致力于帮助企业快速部署和利用大型语言模型(LLMs),提供企业大模型落地应用、业务智能化改造、私有模型定制和大模型咨询服务。通过 53AI,企业可以轻松实现业务流程的智能化,提高运营效率和竞争力。它支持私有云部署,帮助企业实现大模型的知识库建设、模型训练和智能体开发,从而将AI技术应用于企业的各个业务流程和产品中。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...