百度文库ai生成ppt保存在哪里,百度文库ai生成ppt
DouJia 2025-02-20 16:30 9 浏览
基于深度学习的有监督语音分离在学术界和工业界越来越受到关注百度文库ai生成ppt,也是深度学习在语音领域的应用中重要的一部分。作为雷锋网 AI 研习社近期组织的一系列语音领域应用的分享会之一,本次百度文库ai生成ppt我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍。
? 观看完整回顾大概需要31分钟
文仕学,过去学物理,后来学 EE,现在从事 Deep Learning 工作,未来投身 AI 和 CM 事业。他的研究兴趣在于语音信号处理和深度学习。在加入搜狗之前,曾在中国科学技术大学学习,在该领域的期刊和会议上发表了若干篇论文。现在在搜狗语音团队任副研究员。
AI研习社将本次分享的内容整理如下。
分享主题:基于深度学习的语音分离
文仕学首先介绍了 “语音分离”(Speech Separation)是怎么样的一种任务。这个问题来自于 “鸡尾酒会问题”,采集的音频信号中除了主说话人之外,还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。
根据干扰的不同,语音分离任务可以分为三类:
当干扰为噪声信号时,可以称为 “语音增强”(Speech Enhancement)
当干扰为其他说话人时,可以称为 “多说话人分离”(Speaker Separation)
当干扰为目标说话人自己声音的反射波时,可以称为 “解混响”(De-reverberation)
由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰,不做语音分离、直接进行识别的话,会影响到识别的准确率。因此在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性,这从而也成为现代语音识别系统中不可或缺的一环。
基于深度学习的语音分离,主要是用基于深度学习的方法,从训练数据中学习语音、说话人和噪音的特征,从而实现语音分离的目标。
这次分享的内容有以下这 5 个部分:分离使用的模型、训练目标的设置、训练数据的生成、单通道语音分离算法的介绍和讨论。
基于深度学习的语音分离方法使用的模型
第一类模型是多层感知机,DNN,可以先做 RBM 预训练,再做微调(fine-tune);不过文仕学介绍,他们团队通过实验发现,在大数据集上不需要预训练也可以收敛。
LSTM(长短时记忆网络)的方法中把语音作为一个随时间变化的序列进行建模,比较适合语音数据;CNN(卷积神经网络)通过共享权值,可以在减少训练参数的同时获得比全连接的 DNN 更好的性能。
近些年也有人用 GAN(对抗性生成式网络)做语音增强。模型中通常会把生成器设置为全部是卷积层,为了减少训练参数从而缩短训练时间;判别器负责向生成器提供生成数据的真伪信息,帮助生成器向着 “生成干净声音” 的方向微调。
训练目标的设置
训练目标包括两类,一类是基于 Mask 的方法,另一类是基于频谱映射的方法。
基于 Mask 的方法又可以分为几类
“理想二值掩蔽”(Ideal Binary Mask)中的分离任务就成为了一个二分类问题。这类方法根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,把对应的时频单元的能量设为 0(噪音占主导的情况下)或者保持原样(目标语音占主导的情况下)。
第二类基于 Mask 的方法是 IRM(Ideal Ratio Mask),它同样对每个时频单元进行计算,但不同于 IBM 的 “非零即一”,IRM 中会计算语音信号和噪音之间的能量比,得到介于 0 到 1 之间的一个数,然后据此改变时频单元的能量大小。IRM 是对 IBM 的演进,反映了各个时频单元上对噪声的抑制程度,可以进一步提高分离后语音的质量和可懂度。
TBM 与 IRM 类似,但不是对每个时频单元计算其中语音和噪声的信噪比,而是计算其中语音和一个固定噪声的信噪比
SMM 是 IRM 在幅度上的一种形式
PSM 中加入了干净语音和带噪语音中的相位差信息,有更高的自由度
虽然基于 Mask 的方法有这么多,但最常用的还是开头的 IBM 和 IRM 两种
如果使用频谱映射,分离问题就成为了一个回归问题。
频谱映射可以使用幅度谱、功率谱、梅尔谱以及 Gammatone 功率谱。Gammatone 是模拟人耳耳蜗滤波后的特征。为了压缩参数的动态范围以及考虑人耳的听觉效应,通常还会加上对数操作,比如对数功率谱。
基于频谱映射的方法,是让模型通过有监督学习,自己学习有干扰的频谱到无干扰的频谱(干净语音)之间的映射关系;模型可以是 DNN、CNN、LSTM 甚至 GAN。
这一页是使用相同的 DNN 模型、相同的输入特征、不同的训练目标得到的结果。
左边的 STOI 指语音的可懂度,得分在 0 到 1 之间,越高越好;右边的 PESQ 是语音的听觉质量、听感,范围为 - 0.5 到 4.5,也是越高越好。
基于 Mask 的方法 STOI 表现较好,原因是有共振峰的能量得到了较好的保留,而相邻共振峰之间波谷处的声音虽然失真较大,但人耳对这类失真并不敏感;两类方法在 PESQ 中表现相当。
训练数据的生成
针对语音分离中的语音增强任务,首先可以通过人为加噪的方法生成带噪语音和干净语音对,分别作为输入和输出(有标注数据),对有监督学习模型进行训练。加入的噪声可以是各种收集到的真实世界中的噪声。
不过收集噪声需要成本,而且人工能够收集到的噪音总是有限的,最好能够有一套完备、合理的方案,用仿真的方式生成任意需要的噪声。 在今年的 MLSP(信号处理机器学习)会议上,搜狗语音团队就发表了一项关于噪声基的工作,通过构造一个噪声基模型,在不使用任何真实噪音数据的情况下,生成带噪语音对语音增强模型进行训练,达到了与使用 50 种真实噪音的情况下相当的性能(下图)。
如果将这 50 种真实噪声和噪声基产生的数据混合在一起,性能可以比单独使用真实噪音的情况得到进一步提高。这也说明噪声基生成的噪声和真实噪声数据之间有着互补性,在实际应用中也可以解开一些真实噪声数据不足带来的限制。
单通道语音分离算法
如开头所说,语音分离任务可以分为三类,语音增强、多说话人分离和解混响。不同任务的处理方法也有所不同。
对于语音增强,基于 Mask 的方法首先进行耳蜗滤波,然后特征提取、时频单元分类、二值掩蔽、后处理,就可以得到增强后的语音了。
语音增强的另一类基于频谱映射的方法中,先特征提取,用深度神经网络学习带噪语音和干净语音的对数功率谱之间映射关系,再加上波形重建,就可以得到增强后的语音。
基于有监督学习的算法都存在推广性(generalization)的问题,语音增强这里也不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。
对于解混响,同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据,但不同于带噪语音生成时做时域的相加,带混响的语音是在时域上进行卷积;同样都把干净语音作为带标注数据。
在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间,深度神经网络需要学习的时间窗口长度是不一样的,因而改进方法中加入了告知混响时间的功能,根据帧移 R 和扩帧数目 N 提特征后解码,可以获得更好的解混响效果。
多说话人分离分为三种情况
目标说话人和干扰说话人都固定,Speaker dependent,有监督分离
目标说话人固定,训练阶段和测试阶段的干扰说话人可变,Target dependent,半监督分离
目标说话人和干扰说话人都可变,Speaker independent,无监督分离
对于有监督和半监督分离,可以使用基于频谱映射的方法,与前面使用基于频谱映射的方法做语音增强类似。
对于无监督分类,有无监督聚类、深度聚类以及最近的序列不变训练(PIT)方法。PIT 方法的核心是红框中标出的部分,在误差回传的时候,分别计算输出序列和标注序列间各种组合的均方误差,然后从这些均方误差中找到最小的那个作为回传误差,也就是根据自动找到的声源间的最佳匹配进行优化,避免出现序列模糊的问题。
讨论两个问题
最后,文仕学给大家留了两个思考题,欢迎大家在评论区给出自己的见解。
第一个问题是语音分离任务中,是按传统思路先变换到频域,然后在频域上进行处理,还是直接在时域上处理比较好?后者的好处是端到端训练,不用考虑频域方法做傅立叶反变换时相位的问题。
第二个问题是对于语音增强任务,应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪?
感谢文仕学此次的分享以及对文本的指正,也欢迎大家关注 AI 研习社未来的更多分享活动!
如何用 MOOC 组合掌握机器学习?
相关推荐
-
- 百度ai助手绘图(百度ai助手绘图怎么用)
-
在AI绘图领域,关键词的书写遵循“图片主体+细节词+修饰词”的模式图片主体可以是人物建筑自然景观等,细节描述可以是动作或其他特征,如“站立的少女”“少女在慢跑”...
-
2025-02-22 00:30 DouJia
-
- 百度文库免费提取工具,百度文库免费
-
1、第一步是进入阅读模式只需在百度文库的网址前添加“read”并回车百度文库免费,网页将自动跳转至阅读界面此时,百度文库免费你可以随意选中并复制文本内容,无需任...
-
2025-02-21 22:30 DouJia
-
- 百度ai工具箱下载,百度ai工具
-
1、将Ai打开之后在操作界面的左侧就是工具箱,我们绘图所使用的工具基本都在这里,2在工具箱内我们找主要的来介绍和使用吧,首先最重要的额就是钢笔工具,3使用钢笔工...
-
2025-02-21 20:30 DouJia
-
- 百度韩月娇,百度韩月娇工资多少
-
1、百度清洁工韩月娇现在很好,现在百度韩月娇的韩月娇参加舞剧白毛女,芭蕾舞剧红色娘子军草原儿子田野又是青纱帐白桦林中的哨所女教官的报告侠客行等事业蒸蒸日上,生活...
-
2025-02-21 18:30 DouJia
-
- 百度ai智能写作助手,百度ai智能写作
-
7月4日,百度于北京国家会议中心举办Create2018百度AI开发者大会。在大会主题演讲上,李彦宏宣布,百度和金龙客车合作的全球首款L4级量产自动驾驶巴...
-
2025-02-21 16:30 DouJia
-
- 豆包拿铁是什么猫的简单介绍
-
乳白曼基康矮脚猫豆包拿铁是一只网红猫咪豆包拿铁是什么猫,在抖音或者哔哩哔哩都是有视频豆包拿铁是什么猫的。应该属于加菲猫品种加菲猫一般指异国短毛猫豆包拿铁是什...
-
2025-02-21 14:30 DouJia
-
- 百度爱采购有效果吗?,百度爱采购介绍
-
百度爱采购怎么样?百度爱采购确实很不错百度爱采购百度爱采购介绍的推出,确实帮助了不少中小企业,简单来说,就是为一些B2B类的厂家拓展了一个新的销售渠道,以最低的...
-
2025-02-21 12:30 DouJia
-
- 百度文库怎么复制粘贴链接,百度文库怎么复制粘贴
-
要复制百度文库里的文字百度文库怎么复制粘贴,可以按照以下步骤操作1打开百度文库网页,找到含有需要文字的文档2使用鼠标选中要复制的文字部分3右键点击选中的文...
-
2025-02-21 10:30 DouJia
-
- 百度爱番番高级版有必要吗(百度爱番番是之前的什么产品)
-
爱番番基础版与高级版各有侧重百度爱番番高级版有必要吗,基础版侧重于基本线索管理,高级版则涵盖更广泛的营销与销售功能一个账号只能绑定一个版本,且基础版可升级至高级...
-
2025-02-21 08:30 DouJia
-
- 百度智能写作平台自动写作,百度ai写作生成器
-
运营商世界网丁浩/文 日前,百度举办了AI开发者大会,大会上李彦宏在数千人面前,演示了无人驾驶汽车。会后,舆论百度ai写作生成器的热点出现了“李彦宏乘无人...
-
2025-02-21 06:30 DouJia
-
- 百度ai图片助手使用教程(百度ai图片助手使用教程视频)
-
推荐小七AI助手一站式智能助手#小七AI助手是一个使用最前沿的AI模型为您服务的工具百度ai图片助手使用教程,它能够帮助您进行搜索写作对话和翻译等多样化操作不仅...
-
2025-02-21 04:31 DouJia
- 百度翻译官网在线翻译下载,百度翻译官网在线翻译
-
随着互联网的迅猛发展传统营销已经渐渐走向死亡,很多企业都把网络营销作为企业未来发展的重之之重,未来的企业谁能抓取互联网谁就能得到天下的格局渐渐形成。那到底怎么做网络营销哪!下面本人就结合多年经验跟...
-
- 百度热搜
- 新浪热搜
- 1 习近平的科技情怀
- 2 热 湖北省委原书记蒋超良被查
- 3 《哪吒2》大爆之后最令人担忧的事
- 4 创新服务“换”出消费新活力
- 5 热 DeepSeek回答彩礼该给多少
- 6 蒋超良被查 湖北省委表态
- 7 热 《哪吒2》票房破130亿
- 8 热 有骑手试水京东外卖 日入500元
- 9 奶奶每天玩手机到凌晨近视2300度
- 10 事业编招聘要求照护老人如厕引争议
- 最新抖音
-
抖音视频去水印:简单方法大揭秘,抖音保存的视频怎么去水印剪映
在短视频风靡全球的今天,抖音作为其中的佼佼者,吸引了无数内容创作者和观众。然而,当我们在抖音上看到有...
抖音视频去水印的简单技巧,抖音保存视频怎么去水印?
在数字时代,抖音已经成为最受欢迎的短视频平台之一,吸引了无数内容创作者和观众。然而,对于想要分享精彩...
探索抖音充值入口官网:娱乐消费新趋势,抖音充值入口官网登录
在这个短视频风靡全球的时代,抖音已经成为人们日常生活中不可或缺的一部分。作为一款集娱乐、社交、创意于...
抖音创作服务平台关键词设置(抖音创作者服务中心重点关注在哪)
在创建合集界面中抖音创作服务平台关键词设置,首先设定合集抖音创作服务平台关键词设置的标题抖音创作服务...
抖音官方app免费下载最新版,抖音官方app免费下载
1、四电脑可以下载抖音app吗因为抖音没有电脑版本抖音官方app免费下载,所以只能在电脑端下载一...
抖音充值抖币官网入口:轻松实现你的虚拟消费,抖音充值抖币官网入口安卓
随着短视频平台的兴起,抖音已经成为了全球范围内年轻人娱乐和表达自我的重要平台。在这个平台上,用户不仅...
抖音免费下载2021:探索短视频的无限魅力,2025抖音免费下载
随着互联网技术的飞速发展,短视频平台如雨后春笋般涌现,其中抖音无疑是最为耀眼的明星之一。自2016年...
抖音免费下载安装指南:2019年最新方法,抖音免费下载安装官方最新版
在2019年,抖音成为了全球范围内最受欢迎的短视频平台之一。它不仅在中国本土市场表现强劲,而且在国际...
- 最新快手
-
探索快手头像男卡通:潮流与个性的交汇点,
在数字时代,社交媒体平台成为人们表达自我、分享生活的舞台。快手,作为中国领先的短视频社交平台,不仅承...
快手头像男成熟稳重:展现魅力的数字化自我,快手头像女成熟
在这个数字时代,社交媒体已经成为我们展示自我、交流思想的重要平台。快手作为中国领先的短视频社交平台之...
快手怎么删除自己的作品2021(快手怎么删除自己的作品vivo手机)
1首先在打开的快手个人中心页面里快手怎么删除自己的作品2021,点击收藏并点击收藏的作品进入2接着在...
快手头像男生:个性与时尚的交汇点,男生头像帅气霸气
在数字时代,社交媒体平台上的个人头像不仅是身份的象征,更是个性和审美的表达。快手作为中国最受欢迎的短...
快手头像:展现男生成熟稳重的一面,
在快节奏的社交媒体时代,头像不仅是个人形象的代表,更是个性和品味的展现。对于男性用户而言,选择一个能...
探索快手头像背后的男生背影与夕照的故事,快手头像背影高清
在这个充满个性表达的时代,社交媒体头像已成为展示自我风格和情感的重要窗口。快手,作为中国广受欢迎的短...
快手创始人是谁人气最高,快手创始人是谁人
2023年4月快手创始人是谁人,北京创智探索科技有限公司成立快手创始人是谁人,注册资本100快手创始...
快手头像男生霸气:个性与时尚的完美融合,
在当今这个数字化时代,社交媒体平台如快手已成为人们展示个性和风采的重要窗口。特别是对于男生来说,一个...
- 热门关注