Comment franchir la barrière psychologique…
Depuis aussi longtemps que l’Homme a inventé les machines quelles qu’en soit le type, un des gros problèmes à résoudre à toujours été celui d’arriver à s’en servir au mieux: c’est ce qu’on appel l’interface Homme-Machine.
L’informatique ne déroge pas à la règle, loin de là. Mais avouons que depuis plus d’une décennie il n’y a pas eu de grand chambardement. La première souris d’ordinateur date de 1963 ! Plus de 40 ans après le principe est toujours le même, on a bien ajouté des boutons et autres molettes, et la détection du mouvement passe aujourd’hui par des systèmes optiques et non plus mécanique. Mais dans le fond on garde une interface basée sur les mêmes principes, à savoir: contrôler le mouvement bidimensionnel d’un curseur à l’écran en déplaçant un objet sur une surface plane.
De même on en est toujours à l’usage du clavier et de ses 101/102 touches (minimum) pour le reste.
Bien sûr on note quantité incroyable de périphériques dédiés à des usages plus particuliers comme les manettes de jeux etc. , mais le fait qu’ils soient justement limités à un usage précis en limite l’intérêt en tant qu’interface Homme-Machine proprement dite: essayer donc de contrôler votre logiciel de traitement de texte avec un joystick ou un volant.
Les alternatives
Un des alternatives à l’ensemble clavier-souris se trouve être l’écran tactile, ou une simple zone tactile. Mais force est de constater que la plupart du temps cette technique vise à simuler l’usage du clavier ou de la souris en leur absence: comme par exemple les claviers virtuels affichés à l’écran.
Mais il est une « technologie » qui en fait fantasmer plus d’un: la reconnaissance vocale.
D’aussi longtemps que l’interface Homme-Machine est au cœur du problème de l’exploitation des inventions humaines, le fait de pouvoir commander tout cela par notre simple parole (sans avoir à utiliser de boutons ou de manettes en tout genre) est dans toutes les têtes.
Il suffit de voir les œuvres d’anticipation en tout genre où les personnages commandent tout de leur simple parole, d’une manière plus ou moins aboutie (simples commandes ou véritable dialogue avec la machine).
Jusqu’à présent cela reste pour beaucoup de la Science-fiction, ou cantonné à des applications spécifiques moyennant un long « apprentissage ». Mais la puissance de nos machines et les améliorations des techniques font que l’ont se rapproche petit-à-petit de quelque chose d’exploitable. Bien sûr nous sommes encore loin d’avoir un dialogue avec nos machines, mais il n’est plus utopique de vouloir lancer quelques commandes à la voix, tout comme il est possible de dicter un rapport à son traitement de texte.
La technique arrive, mais sommes nous prêt?
Il est dorénavant techniquement envisageable d’effectuer certaines commandes à la voix. Bien sûr cela passe souvent par un minimum d’apprentissage pour la machine et/ou par une articulation soignée de part l’utilisateur, mais les faits sont là: composer un numéro de téléphone sur son portable, lancer un calcul d’itinéraire GPS dans sa voiture, etc. , cela fait déjà partie du quotidien de certains d’entre nous.
Maintenant que l’on s’approche de quelque chose de techniquement envisageable, je me pose tout de même une question: sommes-nous vraiment prêt à cela?
Alors vous je ne sais pas, mais en ce qui me concerne parler à une machine ce n’est pas mon passe-temps favori, surtout si cette dernière ne répond pas. Les quelques fois où j’ai testé ce genre d’interface (avec mon téléphone portable, ou sur mon PC) je ne pouvais m’empêcher de me sentir un brin ridicule à essayer de parler à une machine pour essayer de lui faire faire quelques chose que l’action de 2-3 boutons feront tout aussi bien.
J’ai beaucoup de mal à m’imaginer rentrer chez moi et dire tout d’un coup « dans le vide »: « Lumière« , ou dans un autre style: « Magnétoscope, Enregistre TF1 » (Je dis TF1 mais ça serait plutôt Planète en réalité).
Sans parler du fait que la reconnaissance à proprement dite est souvent limité à une intonation, et pour peu que le bruit de fond soit trop fort la machine ne comprend rien ou alors de travers, donc on doit encore souvent se répéter pour arriver à nos fins.
Mais passons les limites techniques et imaginons que cela soit fonctionnel, c’est à dire que la machine soit immédiatement capable de reconnaitre une commande quelque soit la voix, le ton, le bruit de fond, etc. (cela finira bien par arriver un jour). Pensez-vous être capable de parler « dans le vide » ?
N’est-ce pas un peu contre nature que de parler à un élément inerte (contrairement à un animal ou même une plante pour ceux que ça enchante) ?
Cela est même différent du simple fait de parler seul (toute proportion gardée), ou comme on le dit parfois « penser à voix haute », dans ce cas ce qui est dit l’est à destination de quelqu’un, sauf que ce quelqu’un n’est autre que soi-même, si vous me suivez toujours. D’ailleurs Descartes disait: « Le monologue c’est le dialogue du philosophe ».
Il est donc cette barrière psychologique qui est celle de devoir énoncer des mots voir des ordres sans autre réponse qu’une vulgaire action d’une machine. Je trouve cela relativement troublant, du fait qu’il n’y a aucun échange possible (pas même avec soi-même).
Alors voilà, on se retrouve à éructer des mots en l’air pour allumer la TV, lire ses emails, éteindre la lumière, ou je ne sais quoi d’autre, bonjour la cacophonie au final ! On aura l’air beau au bureau, ou dans la rue à tous parler à nos appareils mobiles.
Alors: Oui ou Non? Faut-il encore attendre …
Cela pour arriver au fait que l’essor de la reconnaissance vocale en tant qu’interface Homme-Machine ne pourra se faire que lorsqu’un autre léger détail sera résolu: la réponse de la machine doit se mettre au niveau de la commande. C’est à dire que l’on est en droit d’attendre de la machine qu’elle nous réponde au même titre que nous lui « parlons », et non pas qu’elle se contente d’exécuter l’action préprogrammée correspondante à la commande.
Pour moi, c’est uniquement à cette condition que j’envisagerai sérieusement la reconnaissance vocale pour un usage quotidien et régulier. Ainsi j’en attends que la machine soit doté d’un minimum de capacités sémantiques, que ce soit pour pouvoir lui donner les commandes au moyens de vrais phrases et non juste avec des mots isolé, mais aussi pour qu’elle soit capable de formuler une réponse en rapport avec ce que je lui aurai dit ou demandé.
Mais nous en sommes encore loin, d’une part les techniques de synthèse vocale ont encore au moins autant de progrès à faire que celles de reconnaissance vocale, mais c’est bel et bien sur la sémantique que la plus gros du travail est à faire.
Mais bon, gageons que tout cela ne soit qu’une question de temps, et nos futures machines n’auront surement aucun mal à effectuer ce type de traitement pourtant particulièrement exigeant en matières de capacités de calculs et de traitement.











Renaud says:
vraiment sympa tout ces articles, felicitation !
si je ne me trompe pas (de personne) effectivement je croi t’avoir deja vu devant ta machine a tenter de lui parler. Et ce n’est pas ridicule est de la science comme dirai certain.
24th septembre 2006 at 10 h 09 min
Le_Poilu says:
On se connait ? Je ne me souviens pas m’etre « donné » en public de la sorte pourtant
24th septembre 2006 at 11 h 21 min
Anonym says:
Drôle de réaction que de ne vouloir "parler" à la machine que quand elle sera capable de répondre je trouve.
il me semble que tu confonds capacité de dialogue et capacité d’exécution des ordres, quel est la réponse que tu souhaiterais que ton PC te fasse quand tu lui dira ‘allume la lumière’ ou ‘préchauffe le four’ ? Logiquement à part un ‘Oui’ voire un ‘Oui Maître’ pour les plus prétentieux je vois pas trop ce qu’on peut attendre comme réponse; éventuellement une demande de confirmation du genre ‘j’ai compris l’ordre ‘Allumer la lumière’, est-ce correct ?’ mais cela est déjà réalisable aujourd’hui.
On parle bien de techno de reconnaissance vocale ici, pas de techno d’IA capable de tenir une conversation humaine non ?
ce n’est pas une critique mais une interrogation de ma part, ne mélange tu pas 2 concepts finalement très différents ?
24th septembre 2006 at 13 h 03 min
Le_Poilu says:
Drôle de réaction que de ne vouloir « parler » à la machine que quand elle sera capable de répondre je trouve. Tu trouves peut-être cela drôle comme tu dis mais en y réfléchissant bien c’est une réaction tout à fait naturelle et qui concerne tout autant les êtres humains: Qui ne trouve pas « énervant » de parler à son congénère, voir lui demander simplement quelque chose mais de ne pas avoir la moindre réaction de sa part (en-dehors de fait qu’il effectue ou non ce qu’on lui demande) ? On attend tous un minimum de retour de l’autre. Qui plus est quand tu demandes à quelqu’un d’allumer la lumière: il y a de fortes chances que tu ne le fasses pas 2 fois de la même manière. Il y aura toujours une variante dans le ton, la façon de demander, les mots utilisés etc. Or à l’heure actuelle les techniques de reconnaissances vocale se limitent à quelques mots donnés sur un ton précis: il n’y a aucune reconnaissance sémantique. Tu dois te contenter d’un « Ordinateur: allume la lumière », alors que cela pourrait être « j’ai besoin d’y voir plus clair ici il faudrait allumer la lumière » (par exemple). De même concernant le « retour » attendu, avec une autre personne il sera rarement identique d’un moment sur l’autre, suivant les personnes etc., alors que l’ordinateur se contentera d’un « oui » très synthétique et purement automatique, probablement en aucun cas en rapport avec la façon de le demander (alors qu’il pourrait dire: « S’il ne fait pas assez clair je peux ouvrir les volets plutôt que d’allumer la lumière »). Tout cela contribuant à créer une relation contre-nature entre lui et toi. Il ne s’agit pas ici de grosse IA capable de palabrer 2h avec toi, non. Juste d’être apte à s’adapter un minimum à la façon dont on « demande » les choses, de manière à les rendre moins « synthétiques » et moins contre-nature: même avec son chien on ne parle pas comme ça, alors pourtant que ce dernier ne comprend en général que des intonations et non le sens des mots.
24th septembre 2006 at 14 h 45 min
Anonym says:
ok, à a lecture de ta réponse j’en conclus donc que ce que tu recherche c’est un système de conversation intelligente et pas juste des fonctions de commande vocale.
sinon pour contre argumenter un peu : a l’armée par exemple on donne les ordres d’une façon, toujours la même "’Aaaaaade à vous" et on réponds aux ordres toujours de la même façon, "Chef, oui chef !" et si on fait comme cela c’est bien parceque c’est la meilleure façon de transmettre et d’exécuter des ordres… et pourtant cela se passe entre personnes humaines.
un truc que je remarque c’est que tu évoques le contre-nature de la situation (1 humain parle à 1 PC) et pourtant tu souhaite aller encore plus loin dans le contre nature puisque tu semble vouloir camoufler le plus possible le fait que le PC est un PC et pas un humain, n’est ce pas plus malsain de parler à une machine comme si elle était un être humain que de simplement lui donner des ordres à exécuter ?
perso un PC qui comprendrai "Lancer Word" – "Mode dictée" – "blablablablabla" – "Enregistrer document" me satisferai déjà pas mal (à vrai dire c’est déjà possible) et je ne verrai pas la nécessité de passer par "Mr le PC veux tu bien me lancer l’éditeur de texte Microsoft s’il te plait mon amour"
enfin chacun son trucn c’était juste mes 2 centimes
24th septembre 2006 at 17 h 23 min
Le_Poilu says:
Note que l’exemple de l’armée c’est un peu particlulier quand même, j’espere pour toi que tu ne parles pas tous les jours comme ça avec tes amis ou collegues de travail
un truc que je remarque c’est que tu évoques le contre-nature de la situation (1 humain parle à 1 PC) et pourtant tu souhaite aller encore plus loin dans le contre nature puisque tu semble vouloir camoufler le plus possible le fait que le PC est un PC et pas un humain, n’est ce pas plus malsain de parler à une machine comme si elle était un être humain que de simplement lui donner des ordres à exécuter ? Ce que j’estime contre-nature n’est pas tant le fait de parler à une machine, mais le fait de parler dans le vide, de donner des ordres à … un mur (en quelque sorte). Et c’est effectivement en humanisant un peu la réponse ou le retour que l’ont gommera cet aspect contre-nature. C’est exactement pareil quand on a un animal de compagnie : on attribu des reactions humaines à l’animal (ce qu’on appel l’anthropomorphisme) pour se justifier du « discours » que l’on tient avec lui, alors même qu’il est parfaitement incapable de nous répondre humainement parlant et qu’il ne comprend pas le 10me de ce qu’on lui dit. Ceux qui ont une personnalité relativement détachée de tout cela et n’arrivant pas à justement faire travailler cet anthropomorphisme trouvent en général pronfondemment ridicul quelqu’un qui parle à son chien.
24th septembre 2006 at 18 h 39 min
nightbringer says:
Je ne pense pas que le probleme vienne de la.
(ou alors "un peu plus haut… un eu plus bas… ah la c’est bien… on imagine la femme du geek qui vient de rentrer
)
on ne pourra jamais, mais jamais remplacer le clavier souris dans certaines conditions par une reconnaissace vocale…
Dans photoshop, pour détourer il faudrait décrire le chemin pixel par pixel
Pour les jeux: avance. stop. gauche. un pti peu plus a droite. tire….
On est loin de la réactivité d’un joueur avec une souris et un clavier :paf:
A plus forte raison, pour tout ce qui est sélectionner ou cliquer sur un lien, la reconnaissance vocale aurait du mal je pense.
Apres ca doit etre formidable pour dictr un doc word par exemple, mais ce ne sera jamais une solution pour tout usage d’un PC :/
24th septembre 2006 at 21 h 53 min
Le_Poilu says:
24th septembre 2006 at 23 h 24 min
chicour-59 says:
a j’ai retrouver ton blog ^^
pc’est vrai ce que tu dit, ma mere m’avait regarder bizezard quand j’avais testez la reconaissance de vista LOL
24th septembre 2006 at 5 h 53 min
Lord W says:
Je ne trouve pas cela si bizarre de donner des ordres à une machine, même sans recevoir de réponse. En disant "Lumières", tu t’attends à ce que la lumière se fasse dans la pièce, et rien d’autre. Il est vrai qu’une douce voix répondant "Voici maître" serait fort agréable, mais tant que l’action ordonnée s’exécute, ça ne me pose aucun problème.
Il faudrait toutefois que :
1) La reconnaissance vocale fasse de grand progrès pour d’abord comprendre des ordres simples peu importe l’intonation et le bruit de fond (en plus de la domotique en elle-même, destinée à recevoir les ordres) ;
2) Qu’elle en fasse encore plus pour détacher d’une phrase plus ou moins complexe un ordre, sans allumer la lumière de la chambre dès que je raconte à un ami quelque chose qui contiendrait le mot "lumière" et "chambre" dans une phrase…
3) Que le système de reconnaissance vocale ait toujours une alternative "manuelle", comme un interrupteur lumineux pour ceux qui n’ont pas envie de gueuler à 04:00 quand leur chère et tendre dort à poing fermé…
4) Qu’en plus de ce système de reconnaissance vocale, les technologies "tactiles", maintenant très répandues, se généralisent à nos bêtes moniteurs de PC et autres écrans.
Lorsqu’on donne des ordres vocaux, car il s’agit bien d’ordres faits à une machine, et non d’une requête à un humain avec attente d’un avis en retour (genre "d’accord", …), le seul retour qu’on peut attendre, c’est de voir l’action s’effectuer : la lumière s’allumer, l’ami être contacté par le GSM, …
Une réponse de l’ordinateur serait certes agréable (ça dépend du ton employé), mais la simple exécution de l’ordre me semble amplement suffisante, et très utile.
Pour les actions qu’il est difficile de voir en action (genre "Enregistre telle émission à telle heure"), soit l’ordinateur affiche un écran clair de validation, afin de voir si l’ordre a bien été enregistré et s’il nécessite une correction (normalement non); soit il prononce une phrase de confirmation en résumant éventuellement l’ordre donné.
Il est vrai que de parler à une machine sera un cap psychologique à franchir…
Mais bon, l’homme a bien du s’adapter au téléphone, aux autres gens parlant dans ces mêmes téléphones (voire même dans une minuscule oreillette de GSM, semant le trouble sur la santé mentale de l’utilisateur…), et aux gens parlant dans une grosse boite chez soi (la télé). Alors il s’adaptera bien à la reconnaissance vocale… surtout que l’usage de celle-ci pourrait bien provoquer chez lui de l’excitation et un sentiment de fierté, puisqu’il aura l’impression d’être plongé dans un film de science-fiction, et d’incarner le brave Capitaine Kirk !
24th septembre 2006 at 16 h 29 min
hlepirate says:
Comme dit plus haut, pour editer un texte ou demander l’éxecution de quelques logiciels, ce serait pas mal, mais pour les jeux et autres^^ on reviendra! Je crois que la vrai révolution serait la commande par la pensé! (je sais, c’est un peu sci-fi
)^^
24th septembre 2006 at 18 h 56 min