paint-brush
Menção Honrosa CVPR 2022 Melhor Papel: Sensor de Vibração Óptica de Obturador Duplo por@whatsai
351 leituras
351 leituras

Menção Honrosa CVPR 2022 Melhor Papel: Sensor de Vibração Óptica de Obturador Duplo

por Louis Bouchard5m2022/07/13
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Um novo aplicativo de IA explicado semanalmente para seus e-mails! Participe para saber mais e ouvir alguns resultados malucos. Eles reconstroem o som usando câmeras e um feixe de laser em qualquer superfície vibrante, permitindo isolar instrumentos musicais, focar em um alto-falante específico, remover ruídos do ambiente e muitas outras aplicações incríveis. A empresa por trás do projeto é chamada de detecção de vibração óptica de obturador duplo por Mark Shanin Dorian e Chan Dorian e Dorian O'Toole, Matthew e Narasimhan.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Menção Honrosa CVPR 2022 Melhor Papel: Sensor de Vibração Óptica de Obturador Duplo
Louis Bouchard HackerNoon profile picture

TLDR: Eles reconstroem o som usando câmeras e um feixe de laser em qualquer superfície vibrante, permitindo isolar instrumentos musicais, focar em um alto-falante específico, remover ruídos do ambiente e muitas outras aplicações incríveis.

Assista ao vídeo para saber mais e ouvir alguns resultados malucos!

Referências

►Leia o artigo completo: /
►Sheinin, Mark e Chan, Dorian e O'Toole, Matthew e Narasimhan,
Srinivasa G., 2022, sensor de vibração óptica de obturador duplo, Proc. IEEE
CVPR.
►Página do projeto:
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!):

Transcrição de vídeo

0:00

esse ano tive a chance de estar na cvpr

0:02

pessoalmente e assistir ao incrível melhor

0:05

apresentação do prêmio de papel com este

0:07

papel fantástico que eu tive que cobrir no

0:09

canal chamado duplo obturador óptico

0:12

detecção de vibração por mark shanin dorian

0:15

chan mathew o'toole e srinivasa

0:18

narasimhan em uma frase eles

0:21

reconstruir o som usando câmeras em um

0:23

feixe de laser em qualquer superfície vibrante

0:26

permitindo-lhes isolar a música

0:28

instrumentos se concentram em um alto-falante específico

0:30

remover ruídos do ambiente e muito mais

0:33

aplicativos incríveis, vamos nos aprofundar em como

0:35

eles conseguem isso e ouvem alguns loucos

0:37

resultados, mas primeiro permita-me um minuto de

0:40

seu tempo para apresentá-lo a um

0:41

empresa fantástica o patrocinador deste

0:44

montagem de vídeo ai montagem ai é um

0:47

empresa que oferece APIs precisas para

0:49

fala para texto e inteligência de áudio

0:52

você pode usar suas APIs para automaticamente

0:54

transcrever e compreender áudio e

0:56

dados de vídeo em apenas algumas linhas de código

0:58

e converter automaticamente assíncrono

1:00

e transmissões de áudio ao vivo em texto

1:03

algo extremamente desafiador para fazer

1:05

e normalmente exigindo robustez e

1:07

modelos caros é claro que não para

1:10

aqui a montagem ai também vai processar o seu

1:12

dados de áudio e tem recurso informativo

1:15

representações que lhe permitem facilmente

1:17

adicionar recursos baseados em texto como

1:19

tópico de moderação de conteúdo de resumo

1:21

detecção e mais tudo em um se você

1:24

precisa entender ou transcrever áudio

1:26

ou dados de vídeo tente montar ai com o

1:29

primeiro link abaixo

1:33

vamos começar ouvindo este exemplo

1:35

do que o método pode alcançar

1:38

[Música]

1:53

você podia ouvir claramente os dois

1:54

guitarras individuais em cada faixa de áudio

1:57

isso foi feito usando um som não gravado

2:00

mas um laser e duas câmeras equipadas

2:02

com sensores de rolamento e obturador global

2:05

respectivamente, parece como lidar com isso

2:08

tarefa através da visão torna muito mais fácil

2:10

do que tentar dividir as faixas de áudio

2:12

após a gravação também significa que podemos

2:15

gravar qualquer coisa através de óculos e de

2:18

quaisquer objetos vibratórios aqui que eles usaram

2:21

seu método nos próprios palestrantes

2:23

para isolar os alto-falantes esquerdo e direito

2:25

Considerando que um microfone irá automaticamente

2:27

gravar ambos e misturar as faixas de áudio

2:41

[Música]

2:45

normalmente esse tipo de tecnologia de espionagem

2:48

chamada vibrometria visual requer

2:51

condições de iluminação perfeitas e

2:52

câmeras de alta velocidade que se parecem com um

2:54

franco-atirador camuflado para capturar alta velocidade

2:56

vibrações de até 63 quilohertz aqui

3:00

eles alcançam resultados semelhantes com

3:02

sensores construídos para apenas 60 e 130 hertz

3:06

e melhor ainda, eles podem processar

3:08

vários objetos ao mesmo tempo ainda este é um

3:11

tarefa muito desafiadora que exige muito

3:13

engenharia e grandes ideias para torná-lo

3:16

acontecer eles não simplesmente registram o

3:18

instrumentos e enviar o vídeo para um

3:20

modelo que automaticamente cria e

3:22

separa o áudio que eles primeiro precisam

3:24

entender o laser que recebem e

3:26

processá-lo corretamente eles orientam um laser

3:29

na superfície para ouvir então isso

3:32

laser salta da superfície em um

3:34

plano de foco este plano de foco é onde nós

3:37

retirará nossas informações não do

3:39

instrumentos ou objetos em si, então nós

3:42

irá analisar as minúsculas vibrações do

3:44

objetos de interesse através do laser

3:46

resposta criando uma representação como

3:49

isto

3:50

esta resposta laser bidimensional

3:52

padrão cortado por nossas câmeras chamado

3:54

speckle é então processado globalmente

3:58

e localmente usando nossas duas câmeras nosso

4:01

câmera local ou o obturador de rolamento

4:03

câmera irá capturar quadros em apenas 60

4:06

fps para que ele tire várias fotos

4:08

e role-os no eixo y para obter um

4:11

muito barulhento e impreciso 63 kilohertz

4:14

representação é aqui que o global

4:16

câmera do obturador é necessário por causa de

4:18

a aleatoriedade na imagem salpicada

4:21

devido à rugosidade do objeto

4:23

superfície e seus movimentos ela irá

4:25

basicamente tirar uma captura de tela global de

4:27

a mesma imagem speckle que usamos com o nosso

4:29

primeira câmera e usou essa nova imagem como

4:32

um quadro de referência para isolar apenas

4:34

vibrações relevantes do rolamento

4:37

capturas do obturador

4:38

a câmera do obturador irá amostrar

4:40

a cena linha por linha com um alto

4:42

frequência enquanto o obturador global

4:44

câmera irá amostrar toda a cena em

4:47

uma vez para servir como quadro de referência e

4:49

repetimos este processo para todo o

4:51

vídeo

4:52

e voila é assim que eles são capazes de

4:55

dividir o som de um extrato de gravação

4:57

apenas um único instrumento remove ambiente

5:00

ruído ou mesmo reconstruir a fala de

5:02

as vibrações de um saco de batatas fritas

5:05

maria tinha um cordeirinho esta folha era

5:08

branco como a neve, claro, isso é apenas um

5:10

visão geral simples deste grande papel e

5:12

convido-o vivamente a lê-lo para

5:14

mais informações parabéns ao

5:16

autoridades pela menção honrosa i

5:18

teve o prazer de participar do evento e ver o

5:21

apresentação ao vivo estou super animado para

5:23

as futuras publicações deste artigo

5:25

motivar também te convido a dobrar

5:27

verifique todos os sacos de batatas fritas que você pode

5:29

deixe perto de uma janela ou de outra forma algum

5:31

as pessoas podem ouvir o que você diz obrigado

5:34

você por assistir o vídeo inteiro e deixar

5:36

me saber como você aplicaria esta tecnologia

5:38

e se você vir quaisquer riscos potenciais ou

5:40

casos de uso interessantes que eu adoraria discutir

5:42

estes com você e um agradecimento especial a

5:45

cvpr por me convidar para o evento que foi

5:47

muito legal estar lá em new orleans

5:49

com todos os pesquisadores e empresas que

5:52

Vejo você na próxima semana com outro

papel incrível




바카라사이트 바카라사이트 온라인바카라