De Corporis Voce

In quello che una volta era il CRM (Customer Relationship Management), poi evolutosi nella CX (Customer Experience), uno dei temi cardine è sempre stato quello dei canali di comunicazione, delle modalità, cioè, con le quali un cliente (uso questo termine nel senso più ampio possibile) potesse mettersi in contatto con l’ente o l’azienda - e viceversa - per avere le risposte cercate o per vedere soddisfatti i propri bisogni.

L’esigenza di non porre virtualmente limiti a questi canali di comunicazione ha portato, nel tempo, a una loro progressiva integrazione, passando dalla semplice possibilità di prevederne l’esistenza e la gestione, fino a un perfetto Blend (questo termine è spesso utilizzato in letteratura nella forma più estesa di Channel Blending o, in alcuni casi, di Organic Channels), basato sulla più che giusta assunzione che noi, quando comunichiamo o, nello specifico, gestiamo una richiesta che si articola nel tempo, usiamo indistintamente un canale o l’altro, a seconda del momento e di ciò che lo caratterizza, e lo facciamo in modo non pianificato né pianificabile e, in alcuni casi, anche potenzialmente in parallelo, ad esempio parlando al telefono con un operatore mentre siamo sul loro sito web a fare qualcosa per la quale ci serve aiuto.

Quello che ritengo interessante, e fonte probabilmente di ulteriori sfide, è che, accanto a questa eterogeneità dei canali di comunicazione, già di per sé di difficile gestione, se ne pone un’altra, quella relativa ai nostri canali di comunicazione - verbale, paraverbale e non verbale - ben noti e studiati, che idealmente dovrebbero essere gestiti con la stessa accuratezza con la quale sono gestiti gli altri.

Al di là dell’oramai celebre regola di Albert Mehrabian, che assegna diversa importanza ed espressività a tali canali (nota [A]), quello che è importante notare è che questa seconda dimensione della comunicazione sia ortogonale alla prima, nel senso di potersi verificare, con le opportune caratterizzazioni, praticamente per ciascuno dei canali gestiti negli ambiti detti sopra e, se è immediato pensare a esse durante una comunicazione de visu (ad esempio, quando uno si reca in un ufficio o sportello per parlare di persona con qualcuno), forse lo è meno per canali dove, a una prima lettura, ciò sembrerebbe difficile, se non privo di senso, cosa però smentita da diversi esperimenti, che hanno confermato, ad esempio, come la postura (componente non verbale) influenzi le componenti verbali e paraverbali di ciò che viene detto durante una conversazione telefonica (1), oppure come la componente paraverbale abbia un suo equivalente durante un messaggio scritto (ad esempio, l’uso delle maiuscole/minuscole, delle emoticons, delle abbreviazioni).

In sostanza, quindi, abbiamo uno spazio comunicativo, una multicanalità, a due dimensioni: la prima (tecnologica) sono i canali gestiti dai sistemi che governano questo tipo di interazione; la seconda (semantica) è quella che noi poniamo in atto su ciascuno di questi canali. È evidente come, per una comunicazione efficace, sia allora importante una gestione di entrambe le dimensioni e, se la prima è necessaria per garantire al cliente la massima libertà di connessione, ovunque lui si trovi, la seconda lo è per comprendere ciò che viene veramente detto, al di là delle parole usate per dirlo.

La seconda dimensione, quella relativa a come noi comunichiamo, è ben più importante della prima, visto che è quella che veicola il contenuto della comunicazione e non il mezzo attraverso il quale ciò avviene, mezzo che è comunque parzialmente indicativo dello stato emotivo del parlante, visto che è esperienza di tutti che certe cose, con certi toni, a volte preferiamo dirle a voce, a volte per iscritto; a volte con canali che impongono una risposta immediata (una telefonata), a volte no (una mail). In altre parole, anche nella prima dimensione ci sono indizi di ciò che accade nella seconda.

Questa seconda dimensione, peraltro, è a sua volta decomponibile in due sottodimensioni, dato che, come confermano gli studi più che trentennali di Paul Ekman, mentre la mimica facciale è sintomatica dell’insorgenza delle emozioni, fugaci o durature che siano, i movimenti del corpo rappresentano (non solo) il modo in cui reagiamo a esse. Ad esempio, l’insorgenza, di un’emozione di disprezzo, una delle sette emozioni universali, segnalata dal nostro volto (Action Units FACS U12A+U14A), potrà poi essere seguita da una postura di chiusura e fuga, come le braccia incrociate, il contatto oculare distolto e il corpo orientato in una direzione diversa rispetto a quella in cui si trova la fonte dell’emozione.

Dovremmo quindi chiederci se il prossimo passo per sistemi di questo tipo non sia tanto aumentarne i canali gestiti, quanto piuttosto raffinare il modo in cui questi lo sono, indagando su come la tecnologia possa aiutarci ad analizzare tutte le componenti della comunicazione umana, con l’obiettivo di automatizzare la lettura delle componenti paraverbale e non verbale, al fine di dare a chi ascolta la massima informazione possibile su ciò che il cliente ci stia effettivamente chiedendo o comunicando.

Questa esigenza è a mio avviso pienamente giustificata dalla definizione stessa di Customer Experience, una definizione che, con le differenze del caso, ci dice sostanzialmente che questa è “l’esperienza complessiva che i clienti vivono durante tutta la loro relazione con l’azienda” e non si può parlare di esperienza senza parlare di emozioni.

Fortunatamente, accanto a studi generali sulla comunicazione uomo-macchina (1) (2), cominciano a svilupparsi anche quelli specificatamente mirati a dare un supporto automatico al riconoscimento degli elementi paraverbali (pochi) e non verbali (decisamente di più), attraverso sistemi di analisi automatica del parlato e dei video, in modo da poter catturare ciò che deve essere catturato, alla ricerca del significato profondo di ciò che viene detto (riferimenti da 4 a 11).

Il massimo beneficio in tal senso lo si ha, naturalmente, nelle comunicazioni de visu, soprattutto quelle virtuali, dove questi sistemi possono analizzare in tempo reale la mimica facciale alla ricerca delle emozioni provate o represse (non sembra ragionevole analizzare anche i movimenti del corpo, dato che queste comunicazioni avvengono in genere inquadrando solo il volto), integrando il parlato con elementi che ne consentano la corretta lettura.

Ma anche qualora la componente visuale fosse assente, ad esempio durante una conversazione telefonica o nel caso di un messaggio vocale, sarebbe comunque possibile analizzare la componente paraverbale (tono, ritmo, volume, velocità, …), in modo da giungere a un analogo arricchimento delle informazioni, a chiaro beneficio di chi, poi, dovrà dar seguito a ciò che il cliente ha detto o chiesto, certi di poter leggere, con una certa sicurezza e, come si usa spesso dire, anche tra le righe.

In conclusione, la tecnologia progredisce spedita e, nello specifico, sembra ragionevole ritenere che alcuni suoi ambiti specifici, primo fra tutti quello del Machine Learning, possano portare - e in parte lo hanno già fatto - alla predisposizione di modelli predittivi sempre più sofisticati, in grado di cogliere ciò che viene veicolato dalla mimica facciale, dai movimenti del corpo e dagli elementi paraverbali, modelli che potranno quindi essere integrati in tutte quelle soluzioni che, a diverso titolo, debbano gestire l’interazione con il cliente.

Andrea Zinno - De Corporis Voce

Note

[A] - La regola, proposta da Albert Mehrabian nel 1967 e che assegna alle componenti non verbali, paraverbali e verbali, rispettivamente, il 55%, il 38% e il 7% per quanto riguarda il loro ruolo nella comprensione e interpretazione di ciò che viene detto, è molto spesso utilizzata in termini troppo generali, al di fuori degli stessi ambiti nei quali questa è stata proposta che, nello specifico, sono quelli nei quali l’ascoltatore è nella situazione di “farsi un’opinione” del parlante.
Riferimenti bibliografici

Kasia Wezowski, Patryk Wezowski - "Without Saying a Word: Master the Science of Body Language and Maximize Your Success" - 2018
Frederic Landragin - “Man-Machine Dialogue: Design and Challenges” - 2013
Nikolaos Mavridis - “A review of verbal and non-verbal human-robot interactive communication” - 2015
Kaustubh Kulkarni et al. - “Automatic Recognition of Facial Displays of Unfelt Emotions” - 2017
Landowska, Brodny and Wrobel - “Limitations of Emotion Recognition from Facial Expressions in e-Learning Context” - 2017
Mehta, Faridul Haque Siddiqui, Javaid - “Facial Emotion Recognition: A Survey and Real-World User Experiences in Mixed Reality” - 2018
Byoung Chul Ko - “A Brief Review of Facial Emotion Recognition Based on Visual Information” - 2018
Social Media Week - “4 Emotion Detection API’s You Need to Try Out” - 2017
Bill Doerrfeld - “20+ Emotion Recognition APIs That Will Leave You Impressed, and Concerned” - 2015
Carnegie Mellon University - “Computer Reads Body Language” - 2017
Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang - “Attention Based Fully Convolutional Network for Speech Emotion Recognition” - 2018
Paul Ekman - “Emotions Revealed” - 2007

Per una comunicazione multicanale a due dimensioni