RepNet Conteggio ripetizioni in VideoLunedi 22 giu

TheMummichogblog è un partecipante al Amazon Services LLC Associates programma, un programma di affiliazione pubblicitario progettato per fornire un mezzo per siti per guadagnare tariffe pubblicitarie con la pubblicità e il link al amazon.com. Amazon, il logo di Amazon, AmazonSupply, e il logo AmazonSupply sono marchi di Amazon.com, Inc. o delle sue affiliate.

RepNet: Conteggio ripetizioni in Video
Lunedi, 22 giugno, il 2020
Pubblicato da Debidatta Dwibedi, Ricercatore, Robotica a Google

Ripetendo i processi che vanno dai cicli naturali, come le fasi della luna o di battito cardiaco e la respirazione, per i processi ripetitivi artificiali, come quelli che si trovano su linee di produzione o in modelli di traffico, sono all’ordine del giorno nella nostra vita quotidiana. Al di là solo la loro prevalenza, i processi che si ripetono sono di interesse per i ricercatori per la varietà di spunti si può prendere in giro fuori di essi. Può essere che ci sia una causa di fondo dietro qualcosa che accade più volte, o ci possono essere cambiamenti graduali in una scena che possono essere utili per la comprensione. A volte, ripetendo i processi ci forniscono inequivocabili “unità di azione”, segmenti semanticamente significative che compongono un’azione. Ad esempio, se una persona è tritare una cipolla, l’unità di azione è l’azione di manipolazione che si ripete per produrre fette aggiuntivi. Queste unità possono essere indicativo di una maggiore attività complessa e ci possono consentire di analizzare più tali azioni automaticamente in una scala temporale più fine senza avere una persona annotate queste unità. Per le ragioni di cui sopra, i sistemi percettivi che mirano a osservare e comprendere il nostro mondo per un periodo prolungato di tempo potranno beneficiare di un sistema che comprende ripetizioni generali.

In “Counting Out Time: Classe Agnostic Video Ripetizione conteggio in the Wild”, presentiamo RepNet, un unico modello in grado di capire una vasta gamma di ripetere processi, che vanno da persone che esercitano o utilizzando gli strumenti, per gli animali in esecuzione e uccelli che agitano le loro ali, pendoli oscillare, e un’ampia varietà di altri. In contrasto con il nostro precedente lavoro, che ha utilizzato vincoli ciclo-coerenza tra varie video della stessa azione di comprenderle ad un livello grana fine, in questo lavoro presentiamo un sistema in grado di riconoscere ripetizioni di un singolo video. Insieme a questo modello, stiamo liberando un set di dati di riferimento conteggio classe-agnostic nei video e un quaderno Colab per eseguire RepNet.

RepNet
RepNet è un modello che prende in input un video che contiene l’azione periodica di una varietà di classi (compresi quelli invisibili durante l’allenamento) e restituisce il periodo di ripetizioni ivi contenute. In passato il problema del conteggio delle ripetizioni è stato affrontato confrontando direttamente intensità dei pixel nel frame, ma i video del mondo reale hanno movimento della fotocamera, l’occlusione da oggetti nel campo, differenza drastica scala e di cambiamenti di forma, il che richiede l’apprendimento delle caratteristiche invarianti a tale rumore. Per fare questo ci alleniamo un modello di apprendimento automatico in modo end-to-end per stimare direttamente il periodo delle ripetizioni. Il modello si compone di tre parti: un encoder telaio, una rappresentazione intermedia, chiamata matrice autosimilarità temporale (che descriveremo qui di seguito), ed un predittore periodo.

In primo luogo, il codificatore telaio utilizza l’architettura RESNET come modello per frame per generare incastri di ogni fotogramma del video L’architettura RESNET stata scelta in quanto ha avuto successo per una serie di operazioni di immagini e video. Passando ogni fotogramma di un video attraverso un encoder basata RESNET produce una sequenza di immersioni.

A questo punto si calcola una matrice temporale autosimilarità (TSM) confrontando l’incorporamento di ciascun frame con ogni altro fotogramma nel video, restituendo una matrice che è facile per moduli successivi di analizzare per ripetizioni conteggio. Questo processo superfici auto-similarità nel flusso di fotogrammi video che consentono la stima periodo, come dimostrato nel video qui sotto.

Dimostrazione di come il TSM elabora le immagini del ciclo giorno-notte della Terra.
Per ogni frame, abbiamo poi usare trasformatori per prevedere il periodo di ripetizione e la periodicità (cioè, se un fotogramma è parte del processo periodico) direttamente dalla sequenza di somiglianze nel TSM. Una volta che abbiamo il periodo, abbiamo ottenere il conteggio per frame dividendo il numero di fotogrammi catturati in un segmento periodica della lunghezza di periodo. Abbiamo riassumere questo per prevedere il numero di ripetizioni nel video.

Panoramica del modello RepNet.
Temporale auto-similarità Matrix
L’esempio del TSM dal ciclo giorno-notte, mostrato sopra, è derivato da uno scenario idealizzato con ripetizioni periodo fisso. TSM da video reali spesso rivelano affascinanti strutture in tutto il mondo, come dimostrato nei tre esempi riportati di seguito. jack salto sono vicino all’azione periodica ideale con un periodo fisso, mentre al contrario, il periodo di una palla che rimbalza diminuisce mentre la sfera perde energia attraverso rimbalzi utilizzate. Il video di qualcuno betonaggio di calcestruzzo dimostra l’azione ripetitiva che è preceduto e seguito da un periodo senza movimento. Questi tre comportamenti sono chiaramente distinti nel TSM appreso, che richiede che l’attenzione modello pay a fini cambiamenti nella scena.

Jumping Jacks (periodo costante; video da Cinetica), Bouncing sfera (discendente periodo; Cinetica), calcestruzzo miscelazione (segmenti aperiodici presentano in video; PERTUBE set di dati).
Un vantaggio di utilizzare TSM come strato intermedio in RepNet è che il successivo trattamento dai trasformatori avviene nello spazio autosimilarità e non nello spazio di funzioni. Questo incoraggia generalizzazione alle classi invisibili. Ad esempio, i TSM prodotta da azioni come diversi come jumping jacks o nuoto sono simili fino a quando l’azione è stata ripetuta a un ritmo simile. Questo ci permette di alleniamo su alcune classi e tuttavia ci aspettiamo generalizzazione alle classi invisibili.

Dati
Un modo per formare il modello di cui sopra potrebbe essere quella di raccogliere una grande insieme di dati di video che cattura le attività ripetitive e li etichetta con il numero di ripetizioni. La sfida in questo è duplice. In primo luogo, si richiede di esaminare un gran numero di video per identificare quelli con azioni ripetute. In seguito, ogni video deve essere annotato con il numero di volte che è stato ripetuto un’azione. Mentre per alcuni compiti commentatori possono saltare fotogrammi (ad esempio, per classificare un video che mostra come jumping jacks), hanno ancora bisogno di vedere l’intero video, al fine di contare quanti sono stati eseguiti molti jumping jacks.

Amazon e il logo di Amazon sono marchi di Amazon.com, Inc., o delle sue affiliate.

http://xzh.i3geek.com