Multimodalność: Modele, które widzą, słyszą i mówią stanowią fundament nowej generacji systemów uczących się, które definitywnie odchodzą od jednowymiarowego przetwarzania danych. Przez lata prace programistyczne skupiały się na izolowaniu konkretnych zmysłów maszynowych: tekst był domeną jednych algorytmów, obraz innych, a dźwięk jeszcze kolejnych. Obecnie granice te uległy zatarciu, tworząc spójne mechanizmy zdolne do korelacji bodźców pochodzących z różnych źródeł w czasie rzeczywistym. To nie jest jedynie ewolucja techniczna, ale fundamentalna zmiana paradygmatu w projektowaniu interfejsów.
Zdolność do jednoczesnego dekodowania pikseli, fal dźwiękowych oraz semantyki języka pozwala komputerom na budowanie reprezentacji rzeczywistości zbliżonej do ludzkiego postrzegania.