LOADING

热门

Magi

5个月前发布 7 00

Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色，实现了全自动的剧本生成功能。

收录时间：

2024-11-29

AI大模型 # Magi # Magi模型 # 漫画转录成文字 # 漫画转文字技巧 # 漫画页转录成文字并生成剧本

Magi

Magi

Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。Magi 模型是牛津大学工程科学系的视觉几何组开发的，该模型通过识别漫画页面上的面板、文字块和角色，实现了全自动的剧本生成功能。其主要功能包括面板检测，识别漫画页面上的各个面板，以及文本块检测，识别面板中的文本块，通常包含对话或叙述性文本。此外，模型还能够检测页面上的角色形象，并根据其身份进行聚类，以区分不同的角色。

Magi 模型还可以将文本与说话者进行关联，确定哪些文本是由页面上的哪个角色说出的，保证剧本的准确性。同时，模型还会按照漫画的阅读顺序对文本块进行排序，确保剧本的叙述逻辑与原漫画一致，让读者通过阅读文本完整地体验漫画故事。

除了 Magi 模型本身，项目还包含一个名为 Mangadex-1.5M 的数据集，其中包含约150万漫画页面，涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持，解决漫画页面的自动理解和剧本生成问题，包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。

通过这一项目，研究人员希望推动漫画领域的自动化处理和理解技术的发展。

论文：https://arxiv.org/abs/2401.10224

Magi GitHub源码：https://github.com/ragavsachdeva/magi

项目入口：https://top.aibase.com/tool/magi

Magi：自动将漫画页转录成文字并生成剧本

数据统计

相关导航

Mini-Gemini

Mini-Gemini是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs），由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型（LLMs），从2B到34B。为了增强视觉token，该框架建议在不增加视觉token数量的情况下，利用额外的视觉编码器进行高分辨率细化。同时，Mini-Gemini还构建了一个高质量的数据集，以促进精确的图像理解和基于推理的生成，从而扩大当前VLM的操作范围。

琴乐大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频，能够直接生成立体声音频或多轨乐谱。

光语大模型

光语大模型是无限光年公司推出的一款结合大语言模型与符号推理的 AI 大模型，融合视觉与语言处理技术，拥有 10 亿视觉模型参数和 130 亿语言模型参数。该模型在金融、医疗等垂直领域表现出色，通过灰盒可信技术确保输出的稳定性和可靠性，有效解决幻觉问题，提升推理精度和可信度。

GPT-4o mini

GPT-4o Mini 是 OpenAI 最新推出的小型智能模型，专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出，响应速度极快，适用于实时应用场景。

HelloMeme

HelloMeme 是一个专注于生成高保真图像和视频内容的 AI 项目，特别是表情克隆技术。通过采用最新的 SD1.5 架构和空间编织注意力扩散模型，HelloMeme 可以轻松将一张图片的表情迁移到另一张图片或视频上，生成效果超越同类工具如 Liveportrait。HelloMeme 支持 ComfyUI 界面操作，非常适用于 AI 数字人、表情包制作和照片复活等领域，带来更自然细腻的表情效果。

FunAudioLLM

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型（LLMs）之间的自然语音交互的框架。其核心包括两个创新模型：SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测，支持超过 50 种语言，并具有极低的延迟。CosyVoice 则专注于自然语音生成，支持多语言、音色和情绪控制，能够进行零样本语音生成、跨语言语音克隆和指令遵循。

SeamlessM4T

SeamlessM4T是Meta推出的一款多语言和多任务模型，能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言，可以将语音转录为文本，再进行翻译，甚至可以将翻译后的文本转化为语音。

FireRedASR

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果，并且在歌词识别方面表现出色。

暂无评论

您必须登录才能参与评论！

none

暂无评论...