大型语言模型

共 3 篇网址

排序

发布更新浏览点赞

InternVL2_5-38B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化（MPO）构建。该系列模型在多模态任务中表现出色，能够处理图像、文本和视频数据，并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式，通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外，模型还引入了多图像和视频数据的支持，进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型，证明了其在多模态领域的领先地位。

0110

文案写作 # 图像处理 # 多模态 # 大型语言模型

Make-An-Audio 2

Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术，由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型语言模型(LLMs)解析文本，优化了语义对齐和时间一致性，提高了生成音频的质量。它还设计了基于前馈Transformer的扩散去噪器，以改善变长音频生成的性能，并增强时间信息的提取。此外，通过使用LLMs将大量音频标签数据转换为音频文本数据集，解决了时间数据稀缺的问题。

0120

音频处理 # 大型语言模型 # 扩散模型 # 文本到音频

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

0170

文案写作 # 多模态 # 大型语言模型 # 文本生成