Forscher entwickeln KI-Modell, das Sprache aus Audio und Video lernt – ohne vorgegebene Texte!
Die 5 wichtigsten Aussagen:
- DenseAV, ein von MIT-Forschern entwickeltes Modell, lernt Sprache durch das Zuordnen von Audio- und Videoinhalten.
- Das Modell kann Wörter mit visuellen Objekten verknüpfen, ohne menschliches Eingreifen oder Kenntnisse von geschriebener Sprache.
- DenseAV kann feine Details erkennen und akkurate Verbindungen zwischen Audio- und Videoinhalten herstellen.
- Das Modell wurde erfolgreich auf AudioSet trainiert und übertrifft andere Modelle in der Identifizierung von Objekten und Geräuschen.
- Die Forscher planen, das System weiterzuentwickeln, um von großen Mengen an Video- oder Audio-Daten zu lernen und die Leistung zu verbessern.
Ganzen Artikel lesen: https://news.mit.edu/2024/denseav-algorithm-discovers-language-just-watching-videos-0611
KI-Update in Kurzform:
Forscher am MIT haben mit dem Modell „DenseAV“ einen Durchbruch erzielt, um Sprache mithilfe von Audio- und Videoverbindungen zu verstehen. Inspiriert von Kindern, die Sprache durch Beobachtung erlernen, trainierte das Team das Modell auf Millionen von Videos, um Bedeutungen von Wörtern und Geräuschen zu erkennen. Durch die Verwendung von Kontrastlernen konnte DenseAV feine Details wie die Verbindung zwischen Wörtern und Bildern entdecken.
Das Modell übertraf andere Methoden bei der Identifizierung von Objekten aus Klängen und Bildern und ermöglichte präzise Lokalisierungen. Die Forscher planen, das System für die Analyse von großen Datenmengen zu skalieren und die Leistung weiter zu verbessern. DichteAV, eine innovative Methode zur Sprachverarbeitung, bietet vielversprechende Möglichkeiten für die Zukunft der KI-Entwicklung und könnte bahnbrechende Erkenntnisse in verschiedenen Bereichen liefern.