TLDR: Eles reconstroem o som usando câmeras e um feixe de laser em qualquer superfície vibrante, permitindo isolar instrumentos musicais, focar em um alto-falante específico, remover ruídos do ambiente e muitas outras aplicações incríveis.
►Leia o artigo completo: /
►Sheinin, Mark e Chan, Dorian e O'Toole, Matthew e Narasimhan,
Srinivasa G., 2022, sensor de vibração óptica de obturador duplo, Proc. IEEE
CVPR.
►Página do projeto:
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):
0:00
esse ano tive a chance de estar na cvpr
0:02
pessoalmente e assistir ao incrível melhor
0:05
apresentação do prêmio de papel com este
0:07
papel fantástico que eu tive que cobrir no
0:09
canal chamado duplo obturador óptico
0:12
detecção de vibração por mark shanin dorian
0:15
chan mathew o'toole e srinivasa
0:18
narasimhan em uma frase eles
0:21
reconstruir o som usando câmeras em um
0:23
feixe de laser em qualquer superfície vibrante
0:26
permitindo-lhes isolar a música
0:28
instrumentos se concentram em um alto-falante específico
0:30
remover ruídos do ambiente e muito mais
0:33
aplicativos incríveis, vamos nos aprofundar em como
0:35
eles conseguem isso e ouvem alguns loucos
0:37
resultados, mas primeiro permita-me um minuto de
0:40
seu tempo para apresentá-lo a um
0:41
empresa fantástica o patrocinador deste
0:44
montagem de vídeo ai montagem ai é um
0:47
empresa que oferece APIs precisas para
0:49
fala para texto e inteligência de áudio
0:52
você pode usar suas APIs para automaticamente
0:54
transcrever e compreender áudio e
0:56
dados de vídeo em apenas algumas linhas de código
0:58
e converter automaticamente assíncrono
1:00
e transmissões de áudio ao vivo em texto
1:03
algo extremamente desafiador para fazer
1:05
e normalmente exigindo robustez e
1:07
modelos caros é claro que não para
1:10
aqui a montagem ai também vai processar o seu
1:12
dados de áudio e tem recurso informativo
1:15
representações que lhe permitem facilmente
1:17
adicionar recursos baseados em texto como
1:19
tópico de moderação de conteúdo de resumo
1:21
detecção e mais tudo em um se você
1:24
precisa entender ou transcrever áudio
1:26
ou dados de vídeo tente montar ai com o
1:29
primeiro link abaixo
1:33
vamos começar ouvindo este exemplo
1:35
do que o método pode alcançar
1:38
[Música]
1:53
você podia ouvir claramente os dois
1:54
guitarras individuais em cada faixa de áudio
1:57
isso foi feito usando um som não gravado
2:00
mas um laser e duas câmeras equipadas
2:02
com sensores de rolamento e obturador global
2:05
respectivamente, parece como lidar com isso
2:08
tarefa através da visão torna muito mais fácil
2:10
do que tentar dividir as faixas de áudio
2:12
após a gravação também significa que podemos
2:15
gravar qualquer coisa através de óculos e de
2:18
quaisquer objetos vibratórios aqui que eles usaram
2:21
seu método nos próprios palestrantes
2:23
para isolar os alto-falantes esquerdo e direito
2:25
Considerando que um microfone irá automaticamente
2:27
gravar ambos e misturar as faixas de áudio
2:41
[Música]
2:45
normalmente esse tipo de tecnologia de espionagem
2:48
chamada vibrometria visual requer
2:51
condições de iluminação perfeitas e
2:52
câmeras de alta velocidade que se parecem com um
2:54
franco-atirador camuflado para capturar alta velocidade
2:56
vibrações de até 63 quilohertz aqui
3:00
eles alcançam resultados semelhantes com
3:02
sensores construídos para apenas 60 e 130 hertz
3:06
e melhor ainda, eles podem processar
3:08
vários objetos ao mesmo tempo ainda este é um
3:11
tarefa muito desafiadora que exige muito
3:13
engenharia e grandes ideias para torná-lo
3:16
acontecer eles não simplesmente registram o
3:18
instrumentos e enviar o vídeo para um
3:20
modelo que automaticamente cria e
3:22
separa o áudio que eles primeiro precisam
3:24
entender o laser que recebem e
3:26
processá-lo corretamente eles orientam um laser
3:29
na superfície para ouvir então isso
3:32
laser salta da superfície em um
3:34
plano de foco este plano de foco é onde nós
3:37
retirará nossas informações não do
3:39
instrumentos ou objetos em si, então nós
3:42
irá analisar as minúsculas vibrações do
3:44
objetos de interesse através do laser
3:46
resposta criando uma representação como
3:49
isto
3:50
esta resposta laser bidimensional
3:52
padrão cortado por nossas câmeras chamado
3:54
speckle é então processado globalmente
3:58
e localmente usando nossas duas câmeras nosso
4:01
câmera local ou o obturador de rolamento
4:03
câmera irá capturar quadros em apenas 60
4:06
fps para que ele tire várias fotos
4:08
e role-os no eixo y para obter um
4:11
muito barulhento e impreciso 63 kilohertz
4:14
representação é aqui que o global
4:16
câmera do obturador é necessário por causa de
4:18
a aleatoriedade na imagem salpicada
4:21
devido à rugosidade do objeto
4:23
superfície e seus movimentos ela irá
4:25
basicamente tirar uma captura de tela global de
4:27
a mesma imagem speckle que usamos com o nosso
4:29
primeira câmera e usou essa nova imagem como
4:32
um quadro de referência para isolar apenas
4:34
vibrações relevantes do rolamento
4:37
capturas do obturador
4:38
a câmera do obturador irá amostrar
4:40
a cena linha por linha com um alto
4:42
frequência enquanto o obturador global
4:44
câmera irá amostrar toda a cena em
4:47
uma vez para servir como quadro de referência e
4:49
repetimos este processo para todo o
4:51
vídeo
4:52
e voila é assim que eles são capazes de
4:55
dividir o som de um extrato de gravação
4:57
apenas um único instrumento remove ambiente
5:00
ruído ou mesmo reconstruir a fala de
5:02
as vibrações de um saco de batatas fritas
5:05
maria tinha um cordeirinho esta folha era
5:08
branco como a neve, claro, isso é apenas um
5:10
visão geral simples deste grande papel e
5:12
convido-o vivamente a lê-lo para
5:14
mais informações parabéns ao
5:16
autoridades pela menção honrosa i
5:18
teve o prazer de participar do evento e ver o
5:21
apresentação ao vivo estou super animado para
5:23
as futuras publicações deste artigo
5:25
motivar também te convido a dobrar
5:27
verifique todos os sacos de batatas fritas que você pode
5:29
deixe perto de uma janela ou de outra forma algum
5:31
as pessoas podem ouvir o que você diz obrigado
5:34
você por assistir o vídeo inteiro e deixar
5:36
me saber como você aplicaria esta tecnologia
5:38
e se você vir quaisquer riscos potenciais ou
5:40
casos de uso interessantes que eu adoraria discutir
5:42
estes com você e um agradecimento especial a
5:45
cvpr por me convidar para o evento que foi
5:47
muito legal estar lá em new orleans
5:49
com todos os pesquisadores e empresas que
5:52
Vejo você na próxima semana com outro
papel incrível