加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

Meta发布会读唇语的AI 自监督+多模态将有关代码开源至GitHub

发布时间:2022-01-16 01:47:56 所属栏目:资源 来源:互联网
导读:借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗? 最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。 效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。 而且与此前同
       借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗?
 
  最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。
 
  效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。
 
  而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。
 
  这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。
 
  Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。
  
  Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。
 
  多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。
 
  Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可以捕捉到音频和视频间的微妙联系。
  
  结果表明,AV-HuBERT 经过 30 个小时带有标签的 TED 演讲视频训练后,单词错误率(WER)为 32.5%,而此前方法能达到的最低错误率为 33.6%,并且此方法训练时间高达 31000 个小时。
 
  WER 是语音识别任务中的错误率指标,计算方法为将错误识别单词数除以总单词数,32.5% 意味着大约每 30 个单词出现一个错误。
 
  经过 433 个小时 TED 演讲训练后,错误率可进一步降低至 26.9%。
 
  另一方面,AV-HuBERT 与前人方法最大不同之处在于,它采用了自监督学习方法。
 
  此前 DeepMind、牛津大学提出的方法中,由于需要对数据集打标签,使得可学习的词汇范围受到限制。
 
  AV-HuBERT 在预训练中使用特征聚类和掩蔽预测两个步骤不断迭代训练,从而实现自己学习对标记的数据进行分类。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读