Deep Learning wird dazu beitragen, dass Videos das Internet nicht verstopfen





Videos füllen das Internet. Etwa 75 % des gesamten Datenverkehrs sind Videoinhalte, und dieses Volumen wird sich voraussichtlich bis 2021 verdreifachen.

Wenn wir nicht wollen, dass die unersättliche Nachfrage nach Katzenvideos und Streaming-Diensten die Pipelines für immer verstopft, müssen wir uns auf die Videokomprimierung verlassen. Dabei wird eine Videodatei neu kodiert, sodass sie kleiner als das Original ist. Aber gegenwärtige Komprimierungstechniken sind nach den Maßstäben der modernen Technologie uralt. Die Grundlagen bestehender Videokomprimierungsalgorithmen haben sich in den letzten 20 Jahren nicht wesentlich geändert, sagen Oren Rippel und Co. von WaveOne, einem Deep-Learning-Unternehmen, das versucht, die Videokomprimierung ins 21. Jahrhundert zu ziehen.

Diese Jungs haben Deep Learning verwendet, um einen neuen Komprimierungsalgorithmus zu entwickeln, der bestehende Video-Codecs deutlich übertrifft. Unseres Wissens ist dies die erste auf maschinellem Lernen basierende Methode, die dies tut, sagen sie.



Die Grundidee hinter der Videokomprimierung besteht darin, redundante Daten aus einem Code zu entfernen und durch eine kürzere Beschreibung zu ersetzen, mit der das Video später noch wiedergegeben werden kann. Die meiste Videokomprimierung erfolgt in zwei Schritten.

Die erste, Bewegungskomprimierung, sucht nach sich bewegenden Objekten und versucht vorherzusagen, wo sie sich im nächsten Frame befinden werden. Anstatt die diesem sich bewegenden Objekt zugeordneten Pixel in jedem Frame aufzuzeichnen, codiert der Algorithmus dann nur die Objektform zusammen mit der Bewegungsrichtung. Tatsächlich betrachten einige Algorithmen zukünftige Frames, um Bewegungen noch genauer zu bestimmen, obwohl dies offensichtlich nicht für Live-Übertragungen funktionieren kann. Das Ergebnis ist, dass komprimiertes Video das Objekt einfach über den Bildschirm übersetzt.

Der zweite Komprimierungsschritt entfernt andere Redundanzen zwischen einem Rahmen und dem nächsten. Anstatt also die Farbe jedes Pixels in einem blauen Himmel aufzuzeichnen, könnte ein Komprimierungsalgorithmus den Bereich dieser Farbe identifizieren und angeben, dass er sich in den nächsten paar Frames nicht ändert. Diese Pixel bleiben also in derselben Farbe, bis sie aufgefordert werden, sich zu ändern. Dies wird als Restkompression bezeichnet.



Der neue Ansatz, den Rippel und Co. entwickelt haben, nutzt maschinelles Lernen, um diese beiden Komprimierungstechniken zu verbessern. Nehmen Sie die Bewegungskomprimierung, bei der die maschinellen Lerntechniken des Teams neue bewegungsbasierte Redundanzen gefunden haben, die herkömmliche Codecs nie ausnutzen konnten.

Beispielsweise führt eine Kopfdrehung einer Person von einer Frontalansicht zu einer Seitenansicht immer zu einem ähnlichen Ergebnis. Herkömmliche Codecs werden nicht in der Lage sein, ein Profilgesicht aus einer Frontalansicht vorherzusagen, sagen Rippel und Co. Im Gegensatz dazu lernt der neue Codec solche räumlich-zeitlichen Muster und verwendet sie, um zukünftige Frames vorherzusagen.

Ein weiteres Problem besteht darin, die verfügbare Bandbreite zwischen Bewegungs- und Restkompression zu verteilen. In einigen Szenen ist die Bewegungskomprimierung wichtiger; in anderen liefert die Restkompression die größten Gewinne. Der optimale Kompromiss zwischen ihnen unterscheidet sich von Rahmen zu Rahmen.



Herkömmliche Komprimierungsalgorithmen finden dies schwierig, da sie beide Prozesse separat komprimieren. Das bedeutet, dass es keine einfache Möglichkeit gibt, sie einzutauschen.

Rippel und Co umgehen dies, indem sie beide Signale gleichzeitig komprimieren und anhand der Frame-Komplexität entscheiden, wie die Bandbreite am effizientesten zwischen ihnen verteilt werden soll.

Diese und andere Verbesserungen haben es den Forschern ermöglicht, einen Komprimierungsalgorithmus zu entwickeln, der traditionelle Codecs deutlich übertrifft. Beim Komprimieren von High-Definition-Videos (1080p) erzeugen gewöhnliche Komprimierungsalgorithmen wie H.265 und VP9 Dateien, die 20 % größer sind als die vom neuen Algorithmus erzeugten.



Und die Gewinne sind sogar noch größer für Videos in Standardauflösung, wie HEVC/H.265 und AVC/H.264. Diese erzeugen typischerweise Dateien, die bis zu 60 % größer sind als der neue Ansatz des Teams.

Das ist ein beeindruckender Gewinn, der die Größe und die Downloadzeiten von Online-Videos erheblich reduzieren könnte.

Der neue Ansatz ist jedoch nicht ohne Mängel. Am wichtigsten ist vielleicht die Recheneffizienz – die Zeit, die zum Kodieren und Dekodieren der Videos benötigt wird. Auf einem Nvidia Tesla V100-Rig und bei Videos im VGA-Format läuft der neue Decoder mit einer Durchschnittsgeschwindigkeit von etwa 10 Bildern pro Sekunde, während der Encoder mit etwa 2 Bildern pro Sekunde arbeitet. Das hat eine begrenzte Anwendung für eine Live-Übertragung.

Natürlich erwarten die Forscher signifikante Verbesserungen, wenn sie über die Proof-of-Principle-Phase hinausgehen. Die derzeitige Geschwindigkeit reiche für einen Echtzeiteinsatz nicht aus, solle aber in zukünftigen Arbeiten deutlich verbessert werden, heißt es.

Das bedeutet, dass zukünftige Cybersurfer dank dieser Art von maschinellem Lernen in der Lage sein sollten, ihre Game of Thrones- oder Katzenvideos in Rekordzeit herunterzuladen und ihre hochauflösenden Fußballspiele effizienter denn je zu streamen.

Ref: arxiv.org/abs/1811.06981 : Gelernte Videokomprimierung

verbergen