Roma – Combinare un nuovo tipo di videocamere e l’intelligenza artificiale per creare dei sensori per auto in grado di avvertire la presenza di pedoni e ostacoli con maggiore velocità e precisione ed evitare così una collisione. E’ questo l’obiettivo di uno studio pubblicato su “Nature” a firma di Daniel Gehrig e Davide Scaramuzza del Dipartimento di Informatica dell’Università di Zurigo (UZH). La maggior parte delle fotocamere attuali sono basate su fotogrammi, ovvero scattano istantanee a intervalli regolari. Quelle attualmente utilizzate per l’assistenza alla guida sulle auto in genere catturano da 30 a 50 fotogrammi al secondo e una rete neurale artificiale può essere addestrata a riconoscere gli oggetti nelle loro immagini: pedoni, biciclette e altre auto. “Ma se succede qualcosa durante i 20 o 30 millisecondi tra due istantanee, la fotocamera potrebbe vederlo troppo tardi. La soluzione sarebbe aumentare il frame rate, ma ciò si tradurrebbe in più dati da elaborare in tempo reale e maggiore potenza di calcolo”, afferma Daniel Gehrig, primo autore dell’articolo. Le telecamere per eventi sono un’innovazione recente basata su un principio diverso. Invece di un frame rate costante, hanno pixel intelligenti che registrano informazioni ogni volta che rilevano movimenti veloci.
“In questo modo, non hanno punti ciechi tra i fotogrammi, il che consente loro di rilevare gli ostacoli più rapidamente. Sono chiamate anche telecamere neuromorfiche perché imitano il modo in cui gli occhi umani percepiscono le immagini”, spiega Davide Scaramuzza, responsabile del Gruppo Robotica e Percezione. Ma hanno i loro difetti: possono perdere oggetti che si muovono lentamente e le loro immagini non vengono facilmente convertite nel tipo di dati utilizzati per addestrare gli algoritmo di intelligenza artificiale. Gehrig e Scaramuzza hanno ideato un sistema ibrido che combina, a loro dire, il meglio di entrambi i mondi: include una fotocamera standard che raccoglie 20 immagini al secondo, un frame rate relativamente basso rispetto a quelli attualmente in uso. Le sue immagini vengono elaborate da un sistema di intelligenza artificiale, chiamato rete neurale convoluzionale, addestrato a riconoscere automobili o pedoni. I dati provenienti dalla telecamera degli eventi sono accoppiati a un diverso tipo di sistema di intelligenza artificiale, chiamato rete neurale a grafico asincrono, che è particolarmente adatto per analizzare dati 3D che cambiano nel tempo. I rilevamenti della telecamera eventi vengono utilizzati per anticipare i rilevamenti da parte della telecamera standard e anche per migliorarne le prestazioni. “Il risultato è un rilevatore visivo in grado di rilevare oggetti con la stessa rapidità con cui farebbe una fotocamera standard che scatta 5.000 immagini al secondo, ma richiede la stessa larghezza di banda di una fotocamera standard da 50 fotogrammi al secondo”, afferma Daniel Gehrig. Il team ha testato il proprio sistema confrontandolo con le migliori telecamere e algoritmi visivi attualmente sul mercato automobilistico, scoprendo che consente rilevamenti cento volte più rapidi riducendo al tempo stesso la quantità di dati che devono essere trasmessi tra la telecamera e il computer di bordo, nonché i costi computazionali necessari per elaborare le immagini senza comprometterne la precisione. Fondamentalmente, il sistema è in grado di rilevare efficacemente auto e pedoni che entrano nel campo visivo tra due fotogrammi successivi della telecamera standard, fornendo ulteriore sicurezza sia al conducente che ai pedoni, il che può fare un’enorme differenza, soprattutto alle alte velocità. Secondo gli scienziati, il metodo potrebbe essere reso ancora più potente in futuro integrando telecamere con sensori LiDAR, come quelli utilizzati sulle auto a guida autonoma. (30science.com)