{"id":14906,"date":"2020-12-09T13:11:32","date_gmt":"2020-12-09T11:11:32","guid":{"rendered":"http:\/\/design-toolkit.recursos.uoc.edu\/?p=14906"},"modified":"2021-01-28T11:13:05","modified_gmt":"2021-01-28T09:13:05","slug":"speech","status":"publish","type":"post","link":"http:\/\/design-toolkit-test.uoc.edu\/es\/speech\/","title":{"rendered":"<em>Speech<\/em>"},"content":{"rendered":"<h2><strong>Descripci\u00f3n<\/strong><\/h2>\n<p>El paradigma de interacci\u00f3n <em>speech<\/em> hace referencia a la acci\u00f3n o habilidad del usuario a interactuar a trav\u00e9s de la voz con un sistema digital. El aumento de las interfaces basadas en la voz es ya un hecho; ello nos permite ya poder buscar, enviar mensajes e incluso controlar nuestros dispositivos conectados.<\/p>\n<p>Se aprecia una clara evoluci\u00f3n, desde interfaces gr\u00e1ficas GUI a interfaces de voz. La mayor\u00eda de nosotros estamos familiarizados con el uso de estas interfaces (sobre todo, en nuestros dispositivos m\u00f3viles); sin embargo, muchos de estos sistemas carecen de un dise\u00f1o adecuado. Algunas de las razones que se identifican es que carecen de un contexto en el habla y no se implementan con una naturaleza verdaderamente conversacional. Por otro lado, muchas de ellas est\u00e1n dise\u00f1adas para actuar como recopiladores de informaci\u00f3n. Adicionalmente, los di\u00e1logos se presentan de manera an\u00e1loga a la forma en que nosotros escribimos y no a la forma en la que hablamos. Por lo general, la limitaci\u00f3n de la tecnolog\u00eda no se presenta como la responsable de una mejor o peor experiencia; los dise\u00f1adores deben conocer c\u00f3mo aplicar los procesos necesarios para implementar una interfaz de voz adecuada.<\/p>\n<p>Sin embargo, cabe destacar que, respecto a la tecnolog\u00eda, el principal problema es que este tipo de sistemas requiere una configuraci\u00f3n en forma \u00abentrenamiento\u00bb y posibles <em>gaps<\/em> en su rendimiento (debido a los fallos que ocurren cuando la calidad del audio es pobre, cuando solo se reconoce parte de una frase, pronunciaciones concretas o incluso cuando no se detecta ninguna entrada). Sin embargo, algunas ventajas de este paradigma se presentan en forma de que no requieren una atenci\u00f3n visual permanente, pues permite a los usuarios interaccionar mientras hacen otras cosas, su ubicuidad de uso, una curva de aprendizaje muy inferior frente a otro tipo de interfaces de usuario tradicionales, o aspectos como la reducci\u00f3n en el tama\u00f1o de los dispositivos que la implementan frente a aquellos que implementan las interfaces visuales o <em>touch<\/em>. Adem\u00e1s, se complementa perfectamente con la interacci\u00f3n de tipo gestual.<\/p>\n<p>As\u00ed, en un futuro m\u00e1s que pr\u00f3ximo, los seres humanos estaremos rodeados por cientos de m\u00e1quinas; muchas de ellas ser\u00e1n robots con los que deberemos interactuar diariamente (algunas m\u00e1s simples y otras dotadas de inteligencia y\/o capacidad de aprendizaje). El habla es la forma m\u00e1s s\u00f3lida y agradable que permite a las personas interaccionar con las m\u00e1quinas (las personas somos seres naturalmente conversadores, y hablar es de las primeras tareas que vamos aprendiendo desde que nacemos). De esta manera, la incorporaci\u00f3n de la voz va a ir complementando, o incluso reemplazando, las interfaces de entrada de texto m\u00e1s tradicionales como son las textuales, las t\u00e1ctiles o las gestuales.<\/p>\n<p>Cabe destacar que la interacci\u00f3n mediante la voz no solo se centra en una simple identificaci\u00f3n verbal (<em>tokens<\/em>) y procesamiento, sino que requiere un dise\u00f1o de c\u00f3mo ser\u00e1 la entrada. As\u00ed, diferentes \u00e1mbitos de aplicaci\u00f3n requieren convertir esas palabras en texto de utilidad aplicados a diferentes contextos, como puede ser la cumplimentaci\u00f3n de formularios, el dictado de un texto plano, la especificaci\u00f3n de acciones o comandos concretos al sistema, e incluso el establecimiento de una conversaci\u00f3n. La voz, como elemento de entrada, puede variar desde una forma corta (una \u00fanica palabra, n\u00famero o frase) a una forma avanzada (dictado continuo). As\u00ed, los sistemas reconocen el lenguaje del usuario, y lo traduce en comandos computacionales.<\/p>\n<h2><strong>Aplicaci\u00f3n<\/strong><\/h2>\n<p>A continuaci\u00f3n, distinguimos tres posibles aproximaciones para la creaci\u00f3n de los sistemas mediante la interacci\u00f3n por voz:<\/p>\n<ul>\n<li><strong>Comandos<\/strong>: este tipo de interfaces presenta una gran limitaci\u00f3n ya que el lenguaje permitido se basa en cuadros sint\u00e1cticos fijos con sustituci\u00f3n de variables, aunque desde el punto de vista de dise\u00f1o se reduce su complejidad al definir \u00fanicamente una sintaxis r\u00edgida que limita en gran medida las posibles entradas de voz. El \u00e9xito de este tipo de interfaces depende de la voluntad de usuarios para aprender el lenguaje espec\u00edfico para tal prop\u00f3sito, tal y como indicamos en el paradigma <em>typing<\/em>. Un caso concreto de aplicaci\u00f3n son algunos de los sistemas <em>handsfree<\/em> que hacen uso del tel\u00e9fono m\u00f3vil dentro de un veh\u00edculo y que permiten al usuario, por ejemplo, establecer una llamada mediante una secuencia de n\u00fameros (numeraci\u00f3n telef\u00f3nica) o a trav\u00e9s del nombre de un contacto de la agenda.<\/li>\n<li><strong>\u00c1rboles de di\u00e1logo<\/strong>: esta aproximaci\u00f3n reduce la complejidad del reconocimiento mediante la descomposici\u00f3n de la actividad del dominio a una secuencia basada en puntos de elecci\u00f3n. Esto permite al usuario seleccionar entre un conjunto de alternativas posibles o indicar una respuesta espec\u00edfica (por ejemplo, responder con un valor num\u00e9rico o mediante un valor \u00abS\u00ed\u00bb\/\u00abNo\u00bb). Un caso concreto de aplicaci\u00f3n es el \u00e1mbito del soporte telef\u00f3nico al usuario cuyo objetivo es resolver, autom\u00e1ticamente, un problema conocido sin necesidad de contactar con un operador humano. Los inconvenientes, desde la perspectiva del usuario, se centran en la incapacidad de acceder r\u00e1pidamente a las partes de un dominio teniendo que atravesar muchas ramas, o entrar en un camino sin salida dada la imposibilidad de dar respuesta. Ello puede conllevar a una experiencia frustrante para los usuarios. Desde la perspectiva del dise\u00f1ador, estos sistemas pueden ser dif\u00edciles de construir porque requiere poder descomponer una actividad en forma de un \u00e1rbol de di\u00e1logo tratando de que mantengan un cierto equilibrio, si bien no requiere de entrenamiento o esfuerzo por parte del programador, como ocurre en el siguiente caso.<\/li>\n<li><strong>Lenguaje natural<\/strong>: los avances en inteligencia artificial y el aprendizaje autom\u00e1tico est\u00e1n posibilitando un resurgimiento de las denominadas <strong>interfaces conversacionales<\/strong> y el procesamiento del lenguaje natural, creando un potencial a\u00fan por explotar sobre el paradigma de interacci\u00f3n <em>speech<\/em>. A trav\u00e9s de este se puede abordar el problema de acceso mediante un idioma concreto al permitir que los usuarios empleen el lenguaje natural sin ning\u00fan tipo de restricci\u00f3n y sin la necesidad de memorizar comandos o di\u00e1logos predefinidos. El usuario tan solo debe conocer de antemano el idioma y el dominio en el que trabaja el sistema para que la interacci\u00f3n pueda ser efectiva. El procesamiento del lenguaje tiene el objetivo de hacer posible la comprensi\u00f3n y el procesamiento de la informaci\u00f3n expresada en lenguaje humano. Este enfoque no solo implica una gran carga en el desarrollador para entender cualquier declaraci\u00f3n razonable por parte del usuario, sino tambi\u00e9n conlleva la carga adicional en el desarrollo de un di\u00e1logo de descubrimiento. Un caso concreto de aplicaci\u00f3n son los asistentes virtuales de los dispositivos m\u00f3viles. A trav\u00e9s del entrenamiento, el sistema reconoce incluso al usuario. Esto permite que estos sistemas puedan ser utilizados incluso para reconocer la identidad de los usuarios en entornos seguros.<\/li>\n<\/ul>\n<h2><strong>Ejemplos<\/strong><\/h2>\n<p>Encontramos dos tipos principales de ejemplos en interfaces de usuario que permiten una interacci\u00f3n por voz. Por un lado, se presentan los asistentes de voz inteligentes integrados en los diferentes sistemas operativos de los <em>smartphones<\/em>.<\/p>\n<p><strong>Siri<\/strong><\/p>\n<p>Es el nombre del asistente vocal desarrollado por Apple para sus <em>smartphones<\/em> y tabletas t\u00e1ctiles. Este software fue introducido en 2011 en el iPhone 4s y desde entonces se incorpora a todos los dispositivos iOS.<\/p>\n<p>Siri registra la solicitud a trav\u00e9s de la frecuencia y ondas de sonido de la voz del usuario y las traduce a un c\u00f3digo. Posteriormente, desglosa el c\u00f3digo para identificar patrones, frases y palabras clave. La informaci\u00f3n se integra en unos algoritmos que se filtran a trav\u00e9s de m\u00faltiples combinaciones de oraciones para determinar lo que significa la frase registrada. Tras este procedimiento, determina la solicitud realizada y eval\u00faa qu\u00e9 respuestas pueden llevarse a cabo accediendo a la informaci\u00f3n almacenada.<\/p>\n<p>Siri es capaz de crear oraciones completas y relevantes para el tipo de pregunta o comando solicitado.<\/p>\n<p><strong>Google Assistant\/Now<\/strong><\/p>\n<p>Actualmente, Google Now y Google Assistant siguen siendo tecnolog\u00edas independientes. Google Now es el asistente personal de voz que funciona a trav\u00e9s de dispositivos que utilizan Android o iOS. Ofrece las posibilidades t\u00edpicas de programaci\u00f3n de eventos y alarmas, as\u00ed como utilizar comandos de voz para ejecutar funcionalidades del dispositivo. Por otro lado, Google Assistant contiene los mismos elementos que Google Now, si bien contiene una IA m\u00e1s avanzada. A su vez, se caracteriza por tener una interfaz conversacional m\u00e1s amigable y estar integrado con el dispositivo Google Home, que presentaremos m\u00e1s adelante.<\/p>\n<p><strong>Windows Cortana<\/strong><\/p>\n<p>Es el asistente virtual desarrollado por Microsoft para Windows Phone (ahora descontinuado) y disponible en dispositivos que utilicen Windows 10, iOS, Android y Xbox One. El asistente utiliza los motores de b\u00fasqueda (como Bing) como base de datos. Adicionalmente, Cortana va registrando informaci\u00f3n de la interacci\u00f3n del usuario para aprender cu\u00e1les son tus intereses y rutinas para facilitarte sugerencias o servicios a medida totalmente personalizados a su perfil.<\/p>\n<div id=\"attachment_105\" style=\"width: 712px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-105\" loading=\"lazy\" class=\" wp-image-105 my-image\" src=\"\/wp-content\/uploads\/2020\/12\/20110_37.jpg\" alt=\"\" width=\"702\" height=\"420\" \/><p id=\"caption-attachment-105\" class=\"wp-caption-text\">Asistentes de voz integrados en <em>smartphones<\/em><br \/>Fuente: Wikipedia.<\/p><\/div>\n<p>Adicionalmente a los asistentes de la voz integrados en los <em>smartphones<\/em>, se listan los asistentes de voz inteligentes m\u00e1s relevantes y que se presentan integrados en los asistentes del hogar.<\/p>\n<p><strong>Google Home<\/strong><\/p>\n<p>Es un dispositivo con altavoz desarrollado por Google que se define como un centro de control y asistente en el hogar. Adem\u00e1s, se utiliza como sistema de entretenimiento. Puede usarse para reproducir m\u00fasica en el hogar, administrar sin esfuerzo las tareas cotidianas y preguntar cuestiones que se desea conocer.<\/p>\n<p><strong>Apple Home Kit<\/strong><\/p>\n<p>Sistema desarrollado por Apple que permite controlar los dispositivos inteligentes instalados en casa. A trav\u00e9s de comandos de voz (v\u00eda Siri), permite ajustar la temperatura e iluminaci\u00f3n de forma remota, as\u00ed como recibir notificaciones de los dispositivos conectados. Como desventaja, Apple Home Kit no es compatible con varios de dispositivos ya existentes en el mercado.<\/p>\n<p><strong>Amazon Echo<\/strong><\/p>\n<p>Es el dispositivo inteligente del hogar desarrollado por Amazon. Utiliza su sistema de control por voz denominado Alexa. Este asistente permite interactuar directamente con el dispositivo sin tener que pasar por un <em>smartphone<\/em> conectado. Si bien mantiene las mismas caracter\u00edsticas que sus competidores (control de sistemas dom\u00f3ticos en la casa y reproducci\u00f3n de m\u00fasica), su punto fuerte es la plataforma de control por voz que la soporta, lo que la hace mucho m\u00e1s eficiente e intuitiva para su uso dom\u00e9stico. El sistema es compatible con otros dispositivos (sensores) inteligentes del hogar como SmartThings, Wink e Insteon, que proporcionan a AmazonEcho una mayor versatilidad.<\/p>\n<div id=\"attachment_106\" style=\"width: 772px\" class=\"wp-caption alignnone\"><img aria-describedby=\"caption-attachment-106\" loading=\"lazy\" class=\"size-full wp-image-106 my-image\" src=\"\/wp-content\/uploads\/2020\/12\/20110_38.jpg\" alt=\"\" width=\"762\" height=\"345\" \/><p id=\"caption-attachment-106\" class=\"wp-caption-text\">Asistentes de voz integrados en asistentes del hogar<br \/>Fuente: Wikipedia.<\/p><\/div>\n<h2><strong>Referencias<\/strong><\/h2>\n<p><strong>Elovic, A.<\/strong> \u00abChatbots &#8211; The Beginners Guide\u00bb [en l\u00ednea]. &lt;<a href=\"https:\/\/chatbotsmagazine.com\/chatbots-the-beginners-guide-618e72599b55\" target=\"_blank\" rel=\"noopener noreferrer\">https:\/\/chatbotsmagazine.com\/chatbots-the-beginners-guide-618e72599b55<\/a>&gt;. [Fecha de consulta: 25 de enero de 2021].<\/p>\n<p><strong>Harris, R. A.<\/strong> (2004). <em>Voice interaction design: crafting the new conversational speech systems<\/em>. Elsevier.<\/p>\n<p><strong>\u00a0<\/strong><strong>Jokinen, K.<\/strong> (2009). <em>Constructive dialogue modelling: Speech interaction and rational agents<\/em> (vol. 10). John Wiley &amp; Sons.<\/p>\n<p><strong>Nassar, R.<\/strong> \u00abEveryone\u2019s Guide to Designing Great Conversational Interface Experiences\u00bb [en l\u00ednea]. &lt;<a href=\"https:\/\/uxdesign.cc\/designing-great-conversational-interfaces-89ac70fcb611\" target=\"_blank\" rel=\"noopener noreferrer\">https:\/\/uxdesign.cc\/designing-great-conversational-interfaces-89ac70fcb611<\/a>&gt;. [Fecha de consulta: 25 de enero de 2021].<\/p>\n<p><strong>Shevat, A.<\/strong> (2017). <em>Designing Bots, Creating Conversational Experiences<\/em>. O&#8217;Reilly Media.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Descripci\u00f3n El paradigma de interacci\u00f3n speech hace referencia a la acci\u00f3n o habilidad del usuario a interactuar a trav\u00e9s de la voz con un sistema digital. El aumento de las interfaces basadas en la voz es ya un hecho; ello nos permite ya poder buscar, enviar mensajes e incluso controlar nuestros dispositivos conectados. Se aprecia [&hellip;]<\/p>\n","protected":false},"author":4,"featured_media":18257,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[24],"tags":[],"_links":{"self":[{"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/posts\/14906\/"}],"collection":[{"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/posts\/"}],"about":[{"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/types\/post\/"}],"author":[{"embeddable":true,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/users\/4\/"}],"replies":[{"embeddable":true,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/comments\/?post=14906"}],"version-history":[{"count":5,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/posts\/14906\/revisions\/"}],"predecessor-version":[{"id":17673,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/posts\/14906\/revisions\/17673\/"}],"wp:featuredmedia":[{"embeddable":true,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/media\/18257\/"}],"wp:attachment":[{"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/media\/?parent=14906"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/categories\/?post=14906"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/design-toolkit-test.uoc.edu\/es\/wp-json\/wp\/v2\/tags\/?post=14906"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}