
FunAudioLLM
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。
DDColor是阿里达摩院研究的一种基于深度学习的图像上色模型,它可以自动将黑白或灰度图像着色,使图像更加生动逼真。它使用了双解码器技术,能够同时考虑色彩分布和像素级详细信息,实现高度真实的图像上色效果。它还利用多尺度视觉特征和颜色损失来提高着色的语义合理性和颜色丰富性。
DDColor的黑白上色测试效果: