TLDR:他们使用摄像头和激光束在任何振动表面上重建声音,使他们能够隔离乐器、专注于特定扬声器、消除环境噪音以及更多令人惊叹的应用。
►阅读全文: ://www.louisbouchard.ai/cvpr-2022-best-paper/
►Sheinin、Mark 和 Chan、Dorian 和 O'Toole、Matthew 和 Narasimhan,
Srinivasa G.,2022,双快门光学振动传感,PROC。 IEEE
CVPR。
►项目页面: ://imaging.cs.cmu.edu/vibration/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/
0:00
今年我有机会在 cvpr
0:02
亲自参加并参加最精彩的表演
0:05
论文颁奖典礼与此
0:07
我必须在上面盖上很棒的纸
0:09
通道称为双快门光学
0:12
mark shanin dorian 的振动感应
0:15
chan mathew o'toole 和 srinivasa
0:18
narasimhan 在一句话中他们
0:21
使用摄像机重建声音
0:23
任何振动表面上的激光束
0:26
让他们隔离音乐
0:28
乐器专注于特定的扬声器
0:30
消除环境噪音等等
0:33
惊人的应用让我们深入了解如何
0:35
他们实现了这一目标并听到了一些疯狂的声音
0:37
结果,但首先请允许我一分钟
0:40
你是时候向你介绍一个
0:41
很棒的公司,这个赞助商
0:44
视频汇编 AI 汇编 AI 是一个
0:47
提供准确 API 的公司
0:49
语音到文本和音频智能
0:52
您可以使用他们的 api 自动
0:54
转录和理解音频和
0:56
只需几行代码即可获得视频数据
0:58
并自动转换异步
1:00
并将实时音频流转换为文本
1:03
极具挑战性的事情
1:05
并且通常需要稳健且
1:07
昂贵的模型当然不会停止
1:10
在这里组装 ai 也将处理您的
1:12
音频数据并具有信息丰富的功能
1:15
表示让您轻松
1:17
添加基于文本的功能,例如
1:19
摘要内容审核主题
1:21
检测和多合一,如果你
1:24
需要理解或转录音频
1:26
或视频数据尝试组装 ai 与
1:29
下面的第一个链接
1:33
让我们从听这个例子开始
1:35
该方法可以实现什么
1:38
[音乐]
1:53
你可以清楚地听到这两个
1:54
每个音轨中的单独吉他
1:57
这是使用未录制的声音制作的
2:00
但配备了激光和两个摄像头
2:02
带有滚动和全局快门传感器
2:05
分别似乎要解决这个问题
2:08
通过视觉完成任务使其变得更加容易
2:10
而不是试图分割音轨
2:12
录制后也意味着我们可以
2:15
通过眼镜记录任何东西
2:18
他们在这里使用的任何振动物体
2:21
他们对扬声器本身的方法
2:23
隔离左右扬声器
2:25
而麦克风会自动
2:27
录制并混合音轨
2:41
[音乐]
2:45
通常这种间谍技术
2:48
称为视觉测振需要
2:51
完美的照明条件和
2:52
看起来像一个高速摄像机
2:54
伪装狙击手捕捉高速
2:56
这里的振动高达 63 千赫兹
3:00
他们取得了类似的结果
3:02
仅适用于 60 和 130 赫兹的传感器
3:06
甚至更好,他们可以处理
3:08
一次有多个对象,这仍然是一个
3:11
非常具有挑战性的任务,需要很多
3:13
工程和伟大的想法,使它
3:16
碰巧他们不只是记录
3:18
仪器并将视频发送到
3:20
模型自动创建和
3:22
分离他们首先需要的音频
3:24
了解他们收到的激光和
3:26
正确处理它他们定位激光
3:29
表面上听然后这个
3:32
激光从表面反弹成
3:34
焦点平面这个焦点平面是我们
3:37
将获取我们的信息,而不是
3:39
仪器或物体本身,所以我们
3:42
将分析的微小振动
3:44
通过激光感兴趣的对象
3:46
响应创建一个表示
3:49
这个
3:50
这种二维激光响应
3:52
我们的相机切割的图案称为
3:54
然后全局处理散斑
3:58
并在本地使用我们的两台相机
4:01
本地相机或卷帘快门
4:03
相机将仅以 60 帧捕获帧
4:06
fps 所以它会拍多张照片
4:08
并在 y 轴上滚动它们以获得
4:11
真的很吵而且不准确 63 千赫兹
4:14
表示这是全球
4:16
快门相机是必要的,因为
4:18
斑点成像的随机性
4:21
由于物体的粗糙度
4:23
表面及其运动,它将
4:25
基本上是全局截图
4:27
我们使用的相同散斑图像
4:29
第一台相机并将这张新图像用作
4:32
仅用于隔离的参考框架
4:34
滚动产生的相关振动
4:37
快门捕捉
4:38
卷帘快门相机将采样
4:40
现场一排排高
4:42
频率,而全局快门
4:44
相机将对整个场景进行采样
4:47
一次作为参考框架和
4:49
我们在整个过程中重复这个过程
4:51
视频
4:52
瞧,这就是他们能够做到的
4:55
从录音提取中分离声音
4:57
只有一个仪器去除环境
5:00
噪声甚至重建语音
5:02
一袋薯片的振动
5:05
玛丽有一只小羊羔,这片叶子是
5:08
白如雪当然这只是一个
5:10
这篇伟大论文的简单概述和
5:12
我强烈邀请您阅读它
5:14
更多信息祝贺
5:16
获得荣誉奖的当局我
5:18
很高兴参加活动并看到
5:21
现场演示我非常兴奋
5:23
本文将在未来的出版物中
5:25
激励我也邀请你加倍
5:27
检查所有可能的薯片袋
5:29
留在窗户或其他地方附近
5:31
人们可能会听你说什么谢谢
5:34
您观看了整个视频并让
5:36
我知道你会如何应用这项技术
5:38
如果您发现任何潜在风险或
5:40
我很想讨论令人兴奋的用例
5:42
这些和你在一起,特别感谢
5:45
cvpr 邀请我参加活动
5:47
去新奥尔良真的很酷
5:49
我与所有研究人员和公司
5:52
下周再见
惊人的纸