Ein Forschungsteam der Penn State University hat die Smartphone-App NaviSense entwickelt. Sie kombiniert Anregungen von Menschen mit Sehbehinderung mit künstlicher Intelligenz (KI). Die App unterstützt Sehbehinderte dabei, Objekte in Echtzeit zu orten. NaviSense identifiziert das gesuchte Objekt per Sprachansage und führt den Nutzer mithilfe der integrierten Audio- und Vibrationsfunktionen des Smartphones durch die Umgebung. Im Vergleich zu bestehenden visuellen Assistenzsystemen bietet NaviSense eine deutlich verbesserte Benutzererfahrung.

Das Team präsentierte NaviSense auf der ACM SIGACCESS ASSETS '25 Konferenz vom 26. bis 29. Oktober in Denver und gewann den Publikumspreis für das beste Poster. Ausführliche Informationen zu NaviSense wurden in den Proceedings der 27. ACM SIGACCESS International Conference on Computer Science and Accessibility veröffentlicht. Laut Teamleiter Vijay Rishinan Narayanan basieren viele bestehende visuelle Assistenzprogramme auf persönlicher Unterstützung oder vorab geladenen Objektmodellen, was Ineffizienzen und Datenschutzbedenken mit sich bringt. NaviSense integriert ein Large Language Model (LLM) und ein Visual Language Model (VLM) und kann so aus seiner Umgebung lernen und Objekte in Echtzeit erkennen, ohne dass Modelle vorab geladen werden müssen – ein bedeutender Meilenstein für die Technologie.
Ajay Narayanan Sridhar, leitender studentischer Forscher im NaviSense-Projekt, erklärte, dass das Team vor der Entwicklung Interviews mit sehbehinderten Menschen geführt hat, um die Funktionalität an deren Bedürfnisse anzupassen. Das Tool kann Objekte per Sprachbefehl suchen und filtern und bietet dialogbasierte Funktionen zur Verfeinerung der Suche. Darüber hinaus erfasst NaviSense die Handbewegungen des Nutzers in Echtzeit und gibt Feedback zur Position des Objekts relativ zur Hand – eine Funktion, die von anderen Tools auf dem Markt nicht erreicht wird. Testergebnisse zeigen, dass NaviSense die Suchzeit für Objekte deutlich reduziert, die Erkennungsgenauigkeit verbessert und im Vergleich zu anderen Tools ein überlegenes Nutzererlebnis bietet.
Naraanan Sridhar merkte an, dass die aktuelle Version von NaviSense zwar effektiv und benutzerfreundlich sei, aber dennoch Verbesserungspotenzial bestehe. Das Team arbeite daran, den Stromverbrauch der Anwendung zu optimieren und die Effizienz des LLM und VLM zu verbessern, um die kommerzielle Anwendung voranzutreiben.
Weitere Informationen: Ajay Narayanan Sridhar et al., „NaviSense: Eine multimodale mobile Assistive-Anwendung zur Objektsuche für Sehbehinderte“, Proceedings der 27. Internationalen Konferenz für Informatik und Barrierefreiheit (2025).














