L’anno in cui Internet imparò ad ascoltarci

Protagonisti al CES 2018, i voice assistant e gli smart speaker potrebbero cambiare per sempre il modo in cui la maggior parte delle persone si connette alla Rete: ecco come potrebbe avvenire il passaggio dal web degli smartphone azionati con il tocco delle nostre mani, al web degli oggetti connessi risvegliati dal suono della nostra voce.

Alla fine, come spesso succede, l’immagine che la maggior parte degli spettatori del CES 2018 ricorderà più a lungo sarà quella del simpatico Cloi, il robot tuttofare che risponde ai comandi vocali del suo padrone, rimasto improvvisamente muto sul palco nel bel mezzo della presentazione ufficiale. Nell’anno in cui i voice assistant di Amazon e Google sono stati, a detta di molti, i veri protagonisti del Consumer Electronic Show di Las Vegas, ciò che ha richiamato l’attenzione di tutto il mondo è stato invece lo scivolone di uno dei loro “parenti poveri”. Peccato per i detrattori, tuttavia, la tecnologia a riconoscimento vocale sembra essere solo all’inizio della sua era di espansione in tutto il mondo.

Merito di Amazon, che ha trovato per Alexa il suo involucro ideale, quell’Amazon Echo Dot messo oggi in vendita a 50 dollari, un quarto del prezzo con cui era stato lanciato nel 2015. E di Google Assistant, che con Google Home si prepara a sfidare Bezos sul suo terreno di caccia privilegiato, la smart home e la digitalizzazione degli oggetti da cui dipende la nostra comodità quotidiana. Mentre Apple, dopo essere stata lungimirante nel 2011 con il lancio di Siri per iPhone 4, e malgrado l’ingresso recente sul mercato degli smart speaker del suo HomePod, venduto a prezzi non propriamente stracciati, non sembra in grado di recuperare il terreno guadagnato dagli altri due concorrenti a livello globale. Tanto più che non deve essere facile, per un’azienda che ha costruito gran parte delle sue fortune sulla produzione e la vendita di dispositivi tecnologici dotati di un’interfaccia grafica, ammettere che il futuro della tecnologia potrebbe celarsi all’interno di strumenti privi di uno schermo illuminato e mimetizzati nell’ambiente circostante, come degli oggetti d’arredamento qualunque.

Dal web delle mani al web della voce

La posta in palio non è solo la possibilità di comandare con la voce piuttosto che con un pulsante l’accensione e lo spegnimento delle luci di sala, la messa in moto della macchina, né di farsi fare un caffè appena alzati dal letto tramite una “smart moka”. La smart home è solo il primo e più affascinante ambito di applicazione di una nuova serie di app e tecnologie progettate per riconoscere il suono della nostra voce e obbedire ai nostri richiami vocali. I voice assistant, in questo senso, incorporati all’interno di uno smart speaker dal design moderno, si candidano a diventare i nuovi intermediari del nostro rapporto con la Rete, aspirando a prendere il posto degli stessi motori di ricerca, social network, e delle infrastrutture tecnologiche, finanziarie, e di comunicazione ad oggi più evolute e pervasive.

Dopo la casa, sarà già il turno dell’auto, dell’ufficio, fino ad arrivare probabilmente agli spazi pubblici e ai luoghi di incontro e di intrattenimento (“Alexa, per me un cappuccino e due brioche, grazie”). Nel giro di pochi anni, potremmo abituarci all’idea che il web possa essere esplorato in maniera più immediata e soddisfacente grazie al suono della nostra voce, che non con la pressione delle nostre mani sullo schermo di uno smartphone. E proprio i cellulari sembrano essere coloro che più di altri soffriranno della crescita dei voice assistant, o assistenti vocali: l’utilizzo di smart speaker, infatti, secondo Accenture dovrebbe portare a una significativa diminuzione del tempo trascorso davanti agli schermi dei telefonini, o perlomeno assolvere a una parte delle funzioni oggi concentrate all’interno di un unico dispositivo mobile.

La digitalizzazione di quel che resta dell’umanità

Il passaggio da una Rete basata sulla parola scritta alla Rete in grado di ascoltarci e parlare con noi non è né semplice, né privo di ostacoli. Tuttavia, è evidente come la possibilità di compiere ricerche sul web tramite il solo utilizzo della voce, e di accedere alle informazioni ivi contenute senza aver bisogno di tenere in mano uno schermo e di decifrare le parole scritte (o di avere sufficiente copertura di rete per vedere un video), potrebbe allargare notevolmente il numero di utenti connessi a Internet sulla Terra. Secondo comScore, già entro il 2020 il 50% delle ricerche online verrà effettuato con la ricerca vocale.

Dai bambini, agli anziani, ai ciechi, agli oltre 700 milioni di analfabeti stimati nel mondo, i voice assistant potrebbero abbassare notevolmente le soglie di accesso al web, anche nei confronti di chi non sa né leggere, né scrivere, né è in grado di utilizzare uno smartphone o un computer. Se oggi “cercare qualcosa su Internet” è un’operazione che richiede un discreto numero di conoscenze di base, come saper scrivere, leggere, selezionare le informazioni e interpretarle, un domani potrebbe essere sufficiente “chiedere qualcosa a Internet”, per il tramite degli assistenti vocali accessibili dal salotto di casa, o dal posto di guida della macchina o della bicicletta.

A ognuno la sua “filter bubble”

Nel momento in cui la ricerca di informazioni online avviene tramite uno scambio di parole dette ad alta voce tra chi compie la ricerca e l’assistente vocale che la riceve, è evidente come possa venir meno la stessa necessità di un motore di ricerca in grado di fare da filtro e presentare una lista di possibili risposte tra cui scegliere.

Al contrario, è possibile che in futuro a ogni domanda da noi posta corrisponderà una e una sola risposta immediata e preconfenzionata, probabilmente scelta dall’assistente vocale sulla base del nostro livello di competenze e conoscenze dell’argomento in questione. Alexa potrebbe infatti già oggi offrire risposte diverse a seconda che venga sollecitata a cercare informazioni su un particolare argomento da un bambino di dieci anni, da un anziano o da un adulto laureato. A confronto, liberarsi della “filter bubble” dei social media potrebbe presto apparire come un gioco da ragazzi, rispetto alla presenza asfissiante e onnipervasiva degli assistenti vocali nella vita di tutti i giorni.

Dove finisce l’uomo, e dove inizia la macchina?

Nell’era in cui la biometria rende già oggi possibile utilizzare il nostro corpo come se fosse una password per accedere ai nostri smartphone tramite l’impronta dell’indice, non è poi difficile immaginare che la nostra voce possa diventare la chiave di accesso alla maggior parte dei servizi oggi contenuti nello smartphone stesso, e un domani dispersi in una miriade di oggetti connessi intorno a noi. Vivremo in un mondo in cui sarà ritenuto normale parlare da soli, rivolgendoci a una macchina, e verrà visto con sospetto chi rimarrà a lungo in silenzio? Di sicuro, basterà accostare l’orecchio alla parete per conoscere qualcosa di più della vita privata del nostro vicino di casa.

Secondo il report Predicts 2018: Personal Devices di Gartner, entro il 2022 i nostri device potrebbero essere in grado di riconoscere le nostre emozioni meglio dei nostri stessi famigliari, a partire dall’analisi della voce e dal riconoscimento delle nostre espressioni facciali. Parleremo più volentieri con Alexa, rispetto a nostra madre? Racconteremo le nostre giornate a Google Assistant, nella speranza che trovi la musica perfetta con cui farci rilassare e magari proiettare sullo schermo più vicino un bel film con cui tirarci su il morale? Forse, più che temere l’umanizzazione dei robot, dovremmo iniziare a domandarci se noi stessi non rischiamo di imitare il comportamento delle macchine che hanno preso il posto degli esseri umani nella nostra vita quotidiana.