
悟道大模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目,旨在以原始创新为基础实现预训练技术的突破,填补以中文为核心预训练大模型的空白,探索通向通用人工智能的实现路径。
悟道大模型包括语言、视觉、跨模态、跨语言等多个领域的大模型系列,如悟道·天鹰、悟道·视界、悟道·天鹰AquilaCode等。
悟道大模型不仅具备强大的语言理解和生成能力,还能进行逻辑推理、代码分析、图像生成等多种任务,支持多种类型的文本内容生成,如小说、歌词、诗歌、对联等。
悟道大模型还构建了开源大模型评测体系和生态,包括FlagEval(天秤)大模型语言评测体系及开放平台,以及FlagOpen(飞智)大模型技术开源体系,为大模型行业发展提供技术支持和服务。
悟道大模型的技术原理
悟道大模型是智源研究院开发的一系列人工智能模型,包括语言、视觉和多模态等领域。悟道大模型的技术原理主要基于 Transformer 模型,通过多层自注意力机制和前向神经网络,能够对输入的文本或图像进行编码,实现信息的提取、语义理解和生成回应。悟道大模型的训练过程包括两个阶段:预训练和微调。预训练是在海量的数据上训练一个通用的模型,微调是在特定的任务上对模型进行调整,提高模型的性能和适应性。悟道大模型还采用了一些创新的技术,如 MoE、Diffusion、OpenPrompt 等,来提升模型的规模、效率和能力。
悟道大模型的性能如何?
1、悟道·文汇是全球最大的万亿级人工智能大模型,它能够实现文生文、图生文以及图文生文等多项任务,超越了OpenAI GPT-3、DALL·E以及Google ALIGN等先进模型。
2、悟道·文澜是目前最大的中文通用图文预训练模型,它利用6.5亿对互联网图文数据进行自监督学习,能够在多个国际公开数据集上取得最佳性能。
3、悟道·视界是视觉大模型系列,它能够完成7种主流视觉任务,已经在深度估计、语义分割等核心视觉任务中性能“大幅超越同类”,相比同类模型具有11%~25%的性能提升,超过了图灵奖得主Geoffrey Hinton团队的Pix2Seqv2,艾伦AI研究所的视觉通用模型Unified-IO和谷歌的UViM。
4、悟道·八卦炉是超大规模深度学习训练系统,它能够支持万亿级参数模型的训练,性能超过1EFLOPS,并且能够训练174万亿个参数模型,这与人脑中的突触数量相当。
悟道大模型的发展历程
1、2020年10月,智源研究院发布了悟道1.0,我国首个超大规模智能模型系统,包括语言、视觉和多模态等领域的模型,总参数规模达到了2600亿,是当时国内最大的智能模型。
2、2021年6月,智源研究院联合多个外部实验室发布了悟道2.0,全球最大的万亿级人工智能大模型,包括语言模型GLM、文生图模型CogView等,总参数规模达到了1.75万亿,是OpenAI发布的GPT-3的10倍。
3、2023年6月,智源研究院发布并全面开源了悟道3.0系列模型,包括语言大模型悟道·天鹰(Aquila)、视觉大模型悟道·视界(EVA)以及一系列多模态模型,总参数规模达到了3.5万亿,是悟道2.0的2倍。悟道3.0系列模型是由智源研究院团队自研完成,采用了更高效的架构设计、更高质量的数据清洗、更创新的技术方法,实现了更优的模型性能和应用能力。
数据统计
相关导航

SDXL-Lightning是一款由字节跳动开发的开源免费的文生图开放模型,能根据文本快速生成相应的高分辨率图像。该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。

InspireMusic
InspireMusic 是由阿里巴巴通义实验室推出的开源音乐生成框架,集成了多项音频领域的前沿研究成果,为开发者和研究者提供全面的音乐创作、风格转换和音效合成解决方案。该框架依托多模态大模型技术,支持通过文本描述或音频输入进行智能化创作,并提供完善的模型调优工具链。

Darwin
Darwin是一个开源项目,专注于自然科学领域的大型语言模型构建,主要涵盖物理、化学和材料科学。通过对科学文献和数据集进行预训练和微调,Darwin 在科学问答和多任务学习任务中表现优异。它结合了结构化和非结构化的科学知识,提升了语言模型在科学研究中的效能。

Llama 2
Llama 2是Meta AI推出的新一代大型语言模型(LLM),参数规模从70亿到700亿不等。它是为对话场景而优化的,称为Llama 2-Chat,能够在多数基准上超越开源的对话模型,并且在人类评估的有用性和安全性上,可能是闭源模型的合适替代品。

DreamTalk
DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架,能够跨多种说话风格生成高质量的说话头部视频,由清华大学、阿里巴巴和华中科大共同开发。它的主要功能是通过人工智能技术让人物头像能够说话、唱歌,并保持嘴唇的同步以及模仿表情变化。这一框架能够生成高质量的动画,使人物脸部动作看起来非常真实,不仅嘴唇动作逼真,还能展现丰富的表情,使得动画更加生动。

TangoFlux
TANGOFLUX是一个高效的文本转音频(TTA)生成模型,拥有 515M 参数,能够在单个 A40 GPU 上仅需 3.7 秒生成长达 30 秒的 44.1kHz 立体声音频,TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。

Gen-3 Alpha
Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入(如文本描述、图像或视频片段)创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

GPT智库
GPT 智库是一款强大的人工智能大模型综合应用,提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能,为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。
暂无评论...