10月24日,趣丸科技文书与香港中语大学(深圳)沟通研发的语音大模子“MaskGCT”崇敬开源,面向人人用户通达使用。离别于传统TTS模子,该模子聘请掩码生成模子与语音表征解耦编码的立异范式,在声息克隆、跨语种合成、语音死心等任务中展现出超卓性能。据先容,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能超过刻下最先进的同类模子,某些办法致使超过东说念主类水平。权臣特质如下:1、秒级超传神的声息克隆:提供3秒音频样本即可复刻东说念主类、动漫、“耳边细语”等恣意音色,且能好意思满复刻语调、作风和心理。2、更细巧可控的语音生成:可天真调养生谚语音的长度、语速和心境,因循通过裁剪文本裁剪语音,并保合手韵律、音色等方面的特等一致。3、高质地多语种语音数据集:检修于香港中语大学(深圳)和趣丸科技等机构沟通推出的10万小时数据集Emilia,是人人最大且最为各样的高质地多语种语音数据集之一,闪耀中英日韩法德6种话语的跨语种合成。据先容,MaskGCT(Masked Generative Codec Transformer)是一个大范围的零样本TTS模子,聘请非自追思掩码生成Transformer,无需文本与语音的对都监督和音素级合手续时分展望。其技艺龙套性在于聘请掩码生成模子与语音表征解耦编码的立异范式。实验标明,MaskGCT在语音质地、雷同度和可交融性方面优于刻下最先进的TTS模子,况兼在模子范围和检修数据量增多时弘扬更佳,同期粗略死心生谚语音的总时长。MaskGCT已在香港中语大学(深圳)与上海东说念主工智能实验室沟通开导的开源系统Amphion发布。该模子研发团队在语音范围领有深厚的策画蕴蓄和原创性恶果。这主要依托趣丸科技十年深耕音频技艺范围和亿级高质地语音用户的劳动教学,以及香港中语大学(深圳)海外一活水平的师资队伍/span>现在,MaskGCT在短剧出海、数字东说念主、智能助手、有声读物、赞助教师等范围领有丰富的诈欺场景。为了加速落地诈欺,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版块,并终了字幕配置与翻译、语音翻译、唇音同步等功能。该居品进一步纠正视频翻译制作经过,大幅缩短过往腾贵的东说念主工翻译本钱和冗长的制作周期,成为影视、游戏、短剧等本质出海的理思弃取平台。举报/响应