Categories
Uncategorized

RepNet Conteggio ripetizioni in VideoLunedi 22 giu

TheMummichogblog è un partecipante al Amazon Services LLC Associates programma, un programma di affiliazione pubblicitario progettato per fornire un mezzo per siti per guadagnare tariffe pubblicitarie con la pubblicità e il link al amazon.com. Amazon, il logo di Amazon, AmazonSupply, e il logo AmazonSupply sono marchi di Amazon.com, Inc. o delle sue affiliate.

RepNet: Conteggio ripetizioni in Video
Lunedi, 22 giugno, il 2020
Pubblicato da Debidatta Dwibedi, Ricercatore, Robotica a Google

Ripetendo i processi che vanno dai cicli naturali, come le fasi della luna o di battito cardiaco e la respirazione, per i processi ripetitivi artificiali, come quelli che si trovano su linee di produzione o in modelli di traffico, sono all’ordine del giorno nella nostra vita quotidiana. Al di là solo la loro prevalenza, i processi che si ripetono sono di interesse per i ricercatori per la varietà di spunti si può prendere in giro fuori di essi. Può essere che ci sia una causa di fondo dietro qualcosa che accade più volte, o ci possono essere cambiamenti graduali in una scena che possono essere utili per la comprensione. A volte, ripetendo i processi ci forniscono inequivocabili “unità di azione”, segmenti semanticamente significative che compongono un’azione. Ad esempio, se una persona è tritare una cipolla, l’unità di azione è l’azione di manipolazione che si ripete per produrre fette aggiuntivi. Queste unità possono essere indicativo di una maggiore attività complessa e ci possono consentire di analizzare più tali azioni automaticamente in una scala temporale più fine senza avere una persona annotate queste unità. Per le ragioni di cui sopra, i sistemi percettivi che mirano a osservare e comprendere il nostro mondo per un periodo prolungato di tempo potranno beneficiare di un sistema che comprende ripetizioni generali.

--------------------------------------------------------------------------------------------------



Nessuno cerchi l'utile proprio, ma quello altrui.


Subscribe By E-mail:

Enter your email address:

Delivered by FeedBurner



----------------------------------------------------------------------------------------------

In “Counting Out Time: Classe Agnostic Video Ripetizione conteggio in the Wild”, presentiamo RepNet, un unico modello in grado di capire una vasta gamma di ripetere processi, che vanno da persone che esercitano o utilizzando gli strumenti, per gli animali in esecuzione e uccelli che agitano le loro ali, pendoli oscillare, e un’ampia varietà di altri. In contrasto con il nostro precedente lavoro, che ha utilizzato vincoli ciclo-coerenza tra varie video della stessa azione di comprenderle ad un livello grana fine, in questo lavoro presentiamo un sistema in grado di riconoscere ripetizioni di un singolo video. Insieme a questo modello, stiamo liberando un set di dati di riferimento conteggio classe-agnostic nei video e un quaderno Colab per eseguire RepNet.

RepNet
RepNet è un modello che prende in input un video che contiene l’azione periodica di una varietà di classi (compresi quelli invisibili durante l’allenamento) e restituisce il periodo di ripetizioni ivi contenute. In passato il problema del conteggio delle ripetizioni è stato affrontato confrontando direttamente intensità dei pixel nel frame, ma i video del mondo reale hanno movimento della fotocamera, l’occlusione da oggetti nel campo, differenza drastica scala e di cambiamenti di forma, il che richiede l’apprendimento delle caratteristiche invarianti a tale rumore. Per fare questo ci alleniamo un modello di apprendimento automatico in modo end-to-end per stimare direttamente il periodo delle ripetizioni. Il modello si compone di tre parti: un encoder telaio, una rappresentazione intermedia, chiamata matrice autosimilarità temporale (che descriveremo qui di seguito), ed un predittore periodo.

In primo luogo, il codificatore telaio utilizza l’architettura RESNET come modello per frame per generare incastri di ogni fotogramma del video L’architettura RESNET stata scelta in quanto ha avuto successo per una serie di operazioni di immagini e video. Passando ogni fotogramma di un video attraverso un encoder basata RESNET produce una sequenza di immersioni.

A questo punto si calcola una matrice temporale autosimilarità (TSM) confrontando l’incorporamento di ciascun frame con ogni altro fotogramma nel video, restituendo una matrice che è facile per moduli successivi di analizzare per ripetizioni conteggio. Questo processo superfici auto-similarità nel flusso di fotogrammi video che consentono la stima periodo, come dimostrato nel video qui sotto.

Dimostrazione di come il TSM elabora le immagini del ciclo giorno-notte della Terra.
Per ogni frame, abbiamo poi usare trasformatori per prevedere il periodo di ripetizione e la periodicità (cioè, se un fotogramma è parte del processo periodico) direttamente dalla sequenza di somiglianze nel TSM. Una volta che abbiamo il periodo, abbiamo ottenere il conteggio per frame dividendo il numero di fotogrammi catturati in un segmento periodica della lunghezza di periodo. Abbiamo riassumere questo per prevedere il numero di ripetizioni nel video.

Panoramica del modello RepNet.
Temporale auto-similarità Matrix
L’esempio del TSM dal ciclo giorno-notte, mostrato sopra, è derivato da uno scenario idealizzato con ripetizioni periodo fisso. TSM da video reali spesso rivelano affascinanti strutture in tutto il mondo, come dimostrato nei tre esempi riportati di seguito. jack salto sono vicino all’azione periodica ideale con un periodo fisso, mentre al contrario, il periodo di una palla che rimbalza diminuisce mentre la sfera perde energia attraverso rimbalzi utilizzate. Il video di qualcuno betonaggio di calcestruzzo dimostra l’azione ripetitiva che è preceduto e seguito da un periodo senza movimento. Questi tre comportamenti sono chiaramente distinti nel TSM appreso, che richiede che l’attenzione modello pay a fini cambiamenti nella scena.

Jumping Jacks (periodo costante; video da Cinetica), Bouncing sfera (discendente periodo; Cinetica), calcestruzzo miscelazione (segmenti aperiodici presentano in video; PERTUBE set di dati).
Un vantaggio di utilizzare TSM come strato intermedio in RepNet è che il successivo trattamento dai trasformatori avviene nello spazio autosimilarità e non nello spazio di funzioni. Questo incoraggia generalizzazione alle classi invisibili. Ad esempio, i TSM prodotta da azioni come diversi come jumping jacks o nuoto sono simili fino a quando l’azione è stata ripetuta a un ritmo simile. Questo ci permette di alleniamo su alcune classi e tuttavia ci aspettiamo generalizzazione alle classi invisibili.

Dati
Un modo per formare il modello di cui sopra potrebbe essere quella di raccogliere una grande insieme di dati di video che cattura le attività ripetitive e li etichetta con il numero di ripetizioni. La sfida in questo è duplice. In primo luogo, si richiede di esaminare un gran numero di video per identificare quelli con azioni ripetute. In seguito, ogni video deve essere annotato con il numero di volte che è stato ripetuto un’azione. Mentre per alcuni compiti commentatori possono saltare fotogrammi (ad esempio, per classificare un video che mostra come jumping jacks), hanno ancora bisogno di vedere l’intero video, al fine di contare quanti sono stati eseguiti molti jumping jacks.

Superiamo sfida introducendo un procedimento per la generazione di dati sintetico che produce video con ripetizioni utilizzando video che potrebbero contenere azioni ripetute affatto. Ciò viene realizzato scegliendo a caso un segmento del video per ripetere un numero arbitrario di volte, bookended dal contesto video originale.

La nostra pipeline di generazione di dati di sintesi che produce video con ripetizioni da qualsiasi video.
Mentre questo processo genera un video che assomiglia a un video dall’aspetto naturale con i processi che si ripetono, è ancora troppo semplice per i metodi di apprendimento profonde, che possono imparare a barare con la ricerca di artefatti, invece di imparare a riconoscere le ripetizioni. Per affrontare questo, eseguiamo estremo aumento dei dati, che noi chiamiamo movimento della telecamera aumento. In questo metodo, modificare il video per simulare una telecamera che si muove uniformemente intorno usando 2D movimento affine come i progressi video.

A sinistra: Un esempio di un video sintetico ripetendo generato da un video casuale. Destra: Un esempio di un video con aumento movimento della telecamera, che è più difficile per il modello, ma si ottiene una generalizzazione a reali video ripetitive (entrambi da Kinetics).
Valutazione
Anche se siamo in grado di formare un modello sul video ripetendo sintetici, i modelli risultanti devono essere in grado di generalizzare al video vero e proprio di ripetere processi. Al fine di valutare le prestazioni dei modelli addestrati sui video reali, raccogliamo un set di dati di circa 9000 video dal set di dati Cinetica. Questi video abbracciano molte classi d’azione e di cattura scene diverse, derivanti dalla diversità dei dati visti su Youtube. Annotata questi video con il conteggio delle azioni si ripete nel video. Per incoraggiare ulteriori ricerche in questo campo, stiamo liberando le annotazioni di conteggio di questo insieme di dati, che noi chiamiamo Countix.

applicazioni
Un modello di conteggio di classe-agnostic ha molte applicazioni utili. RepNet serve come un unico modello che può contare le ripetizioni di molti domini diversi:

RepNet può contare attività ripetuto da una serie di domini, come cipolle affettatrici (a sinistra; video da Kinetics set di dati), ciclo diurno della Terra (al centro; i dati Himawari satellite), o anche un ghepardo in movimento (a destra; video da imgur.com) .
RepNet potrebbe essere utilizzato per stimare i tassi di battito cardiaco da video ecocardiogramma anche se non ha visto questi video nella formazione:

Previsto frequenze cardiache: 45 bpm (di sinistra) e 75 bpm (a destra). frequenze cardiache vere 46-50 bpm e 78-79 bpm, rispettivamente. di RepNet predizione della frequenza cardiaca in diversi dispositivi è incoraggiante vicino al tasso misurato dal dispositivo. (Fonte per sinistra e destra)
RepNet può anche essere utilizzato per monitorare le attività ripetitive per eventuali variazioni di velocità. Di seguito mostriamo come i Tali cambiamenti di velocità possono essere utilizzati anche in altre impostazioni per la qualità o il controllo di processo.

In questo video, vediamo RepNet contando accelerazione oscillazioni cellulari osservati al microscopio laser, anche se non ha mai visto un video durante la formazione, (da un articolo Natura).

A sinistra: Persona esecuzione di un esercizio “alpinista”. A destra: La proiezione 1D degli incastri RepNet utilizzando analisi delle componenti principali, catturare il momento che la persona che cambia la loro velocità durante l’esercizio. (Video da Cinetica)
pubblicazione
Stiamo liberando le annotazioni Countix per la comunità di lavoro sul problema del conteggio delle ripetizioni. Stiamo anche rilasciando un notebook Colab per l’esecuzione di RepNet. Usando questo è possibile eseguire RepNet sui tuoi video o anche di utilizzare la webcam per rilevare attività periodiche in video e contare automaticamente ripetizioni in video.

Ringraziamenti
Questo è un lavoro congiunto con Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, e Andrew Zisserman. Un ringraziamento speciale a Tom Piccolo per la progettazione la spiegazione visiva di TSM. Gli autori ringraziano Anelia Angelova, Relja Arandjelovic, acidula Chaudhuri, Aishwarya Gomatam, Meghana Thotakuri, e Vincent Vanhoucke per il loro aiuto con questo progetto.

ai.googleblog.com/2020/06/repnet-counting-repetitions-in-videos.html

Amazon e il logo di Amazon sono marchi di Amazon.com, Inc., o delle sue affiliate.