Blog Personal Efrén Hdez Cosco

martes, 21 de abril de 2009

Paradigmas y estilos de interacción

Universidad de las Américas Puebla Primavera 2009

Interacción Humano Computadora IS 438-01

“Paradigmas y estilos de interacción”

Dr. Alfredo Sánchez

Alumno: Efrén Hernández Cosco 128320

Introducción

Los principales avances en IHC se han dado cuando surgen nuevos paradigmas de interacción, cuando se han propuesto nuevas maneras de conceptualizar a la computadora y los sistemas interactivos. Sin embargo, los nuevos estilos y paradigmas de interacción no eliminan a los ya existentes, ya que estos continúan teniendo aplicaciones a escenarios particulares y adeptos que sencillamente prefieren no cambiar su manera de usar la computadora.

Descripción de la tarea

Proponer el uso de estilos y paradigmas de interfaces apropiados para distintos escenarios y aplicaciones. Consideramos los siguientes escenarios:

Ø A) Un estudiante que va a inscribirse vía telefónica, consultando el catálogo de cursos y seleccionando los cursos y horarios de su interés.
Ø B) Una visita guiada a un museo de arte utilizando un dispositivo móvil.
Ø C) Un ingeniero cuyo trabajo cotidiano es diseñar piezas mecánicas que se producirán en serie mediante un equipo industrial.

Aplicación de estilos y paradigmas

Caso A.
Eduardo Santos es un estudiante de la carrera de Ingeniería en Sistemas que se fue de intercambio en el verano y cursa su octavo semestre. Actualmente continua en Inglaterra pero las inscripciones son en estos días y dado que llegará unos días después de que comience el curso desea inscribir sus materias desde ahora. Dado que el sistema de inscripciones falla demasiado debido a la saturación del servidor. La universidad les ofrece a los alumnos que se encuentran de intercambio el acceso a un sistema de inscripción vía telefónica. El sistema consiste en un agente que interactúa por vía telefónica con los alumnos.
Eduardo realiza la llamada y al final es comunicado con el sistema de inscripción telefónica. Eduardo teclea su ID y el sistema le indica su nombre, carrera, semestre que cursa y la opción de informarle de las materias que le corresponden a su siguiente semestre. Eduardo desea meter únicamente 4 materias de sistemas además de la tesis. El sistema le orienta en su inscripción consultando horarios, cursos, profesores, y finalmente inscribe las materias Tesis I, Administración del conocimiento, Redes Neuronales, Robótica y Problemas sociales de México debido a que una materia de sistemas no se abrió por ser anual. Finalmente el sistema le confirma sus materias y horario y envía a su mail la información correspondiente a su transacción escolar. Eduardo queda seguro de su inscripción y disfruta de lo que le resta de su verano en Inglaterra.

Dada la situación anterior el paradigma que se promueve es el de computadoras cómo agentes. El estudiante percibe a la computadora como un agente que le ayuda, orienta, informa y recupera información que el necesita. En este caso exclusivamente se promueve este paradigma debido a que la única interacción que tiene es prácticamente unimodal y su interacción es muy limitada pero totalmente funcional.

Caso B.
Una familia de mexicanos se aventura en un viaje Egipto deseosa de conocer más a fondo la cultura Egipcia. En su viaje tienen como meta visitar el Museo Egipcio del Cairo. Como la familia escasamente habla inglés, Edgar el hijo mayor con más experiencia en inglés y conocimientos sobre innovaciones tecnológicas lleva consigo su iPhone conociendo que puede usarlo de una manera muy interesante. Edgar sabe que tal Museo puede ser accedido desde una aplicación de parte de Wikipedia donde le puede mostrar toda la descripción de los artículos y esculturas únicamente capturando con la cámara las imágenes. Una vez en el museo Edgar les lleva por el museo explicándoles a los demás miembros de la familia todo lo que la aplicación de Wikipedia le muestra por medio de su iPhone. Además el museo cuenta con algunas pantallas que les ofrece tours virtuales en diferentes idiomas y con descripciones de los artículos. La familia comienza su recorrido y puede ir revisando cada una de las pantallas y combinarlo con la aplicación de Edgar obteniendo más información y conociendo detalles muy interesantes. Después de recorrer el museo Edgar y su familia quedaron contentos de conocer mucho más a detalles de la cultura egipcia como deidades (Ra, Isis, Osiris, Anubis, etc.), faraones (Tut Ankh Amon, Akhenaton, etc.), dinastías, historia, lugares, costumbres, etc. Todo esto con ayuda de su iPhone y las pantallas del museo.

En esta situación se promueven a mi criterio paradigmas como computadora como medio de expresión (visualización), como agentes y cómputo ubicuo. Los sujetos no se percatan directamente de las pantallas como computadoras sino como agentes interactivos que les ayudan en su travesía por el museo. Implícitamente en las pantallas y en el iphone hay una visualización de la información de una manera natural a pesar de que sean grandes volúmenes de información que se requieran. En el caso de la interacción con el iPhone se podría ver como un objeto invisible que tiene un toque de realidad aumentada.
En este ejemplo hay varios paradigmas implícitos que nos da una idea muy curiosa de cómo una situación tan sencilla utiliza a la computadora de diversas formas.

Caso C.
Patricia Guzmán es una exitosa empresaria que se dedica a diseñar piezas mecánicas para la construcción de prótesis mioeléctricas. Su trabajo diario es el diseño de las mismas y después enviar sus diseños a los talleres y tornos para su supervisión y fabricación. Patricia tiene una computadora con un software que le ayuda a mantener su perfil de trabajo automáticamente, es decir, abre sus aplicaciones de trabajo (AutoCad), trabajos recientes y herramientas que necesita para realizar su trabajo. Patricia tiene una opción de poder visualizar sus trabajos anteriores de una manera abstracta con el fin de poder seleccionar piezas anteriormente creadas que puedan ayudarle en la creación de piezas nuevas. Además el software le recuerda sus actividades y sugiere tareas a realizar y demás. También puede mantener contacto con otros colegas en distintas partes del mundo para reportar sus avances y especificaciones de algunos trabajos. En el modo de trabajo el software al finalizar envía sus trabajos a las direcciones de mail preestablecidas por ella o en dado caso directamente a la línea de producción para su producción en serie.

Hay diversos paradigmas que se aplican en esta situación. Entre los que considero que se aplican claramente son la computadora como caja de herramientas, como agente y como lugar de reunión. Al visualizar sus archivos y usar los diferentes dispositivos para el diseño de las herramientas de fábrica se promueve la computadora como una caja de herramientas. El software que le ayuda a mantener su perfil de trabajo, que le da sugerencias y recordatorios, y que además, automatiza y aprende algunas tareas se basa en el paradigma de la computadora como agente. Finalmente, al mantener contacto con otros colegas y su cooperación de forma grupal con ellos promueve el paradigma de la computadora como lugar de reunión o canal de comunicación.

Sitos Web visitados
http://www.egipto.com/ visitado el 20 de abril de 2009.
Sánchez, J. A. 2004. Paradigmas y estilos de interacción. Notas para el curso de Interacción Humano-Computadora. Universidad de las Américas Puebla (Disponible digitalmente).

miércoles, 11 de febrero de 2009

Avances en Interfaces de Usuario

Interfaces basadas en Reconocimiento de Voz
Dr. Alfredo Sánchez Huitrón
Efrén Hernández Cosco 128320
Interacción Humano-Computadora

Meta principal

El reconocimiento de voz es una parte de la Inteligencia Artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y ordenadores. El reconocimiento del habla debe ser capaz de descodificar los sonidos u otra información de nivel superior que forman parte de una determinada señal de habla. Dicha descodificación puede realizarse de diferentes formas, utilizando diferentes técnicas y con unos determinados requisitos de partida para la señal de habla a decodificar. Una vez decodificada se interpreta y se espera una retroalimentación por parte del usuario como por ejemplo: realizar una determinada tarea, manipular algún dato o archivo, configurar el ordenador, escuchar algún sonido, etc.

Sin duda la forma más común en la que nos comunicamos entre humanos es por medio del habla. Es por ello que la forma ideal de interactuar con un dispositivo o computadora sería por medio del habla. Esta naturalidad al interactuar con los dispositivos es compleja y se han llevado años estudiando el lenguaje y algoritmos para reconocimiento y síntesis de voz. Sin embargo las interfaces actuales han ido desde la interacción por medio del teclado, del ratón, hasta ahora el uso de interfaces táctiles y de voz. Es en este momento cuando las interfaces de voz empiezan a ganar terreno dentro del interfaces vanguardistas.

Centros de Investigación

Los centros de investigación en el área de reconocimiento de voz son muchos en todo el globo. Diversas universidades cuentan con laboratorios especializados para sus investigaciones. Algunos de los que han estado trabajando en el área son los siguientes:

™ Lehrstuhl für Informatik VI, RWTH Aachen (H. Ney)
™ The Acoustical Society of America (ASA).
™ Speech, Apple Computer.
™ Speech, CMU (Carnegie Mellon University).
™ ATR, Japan.
™ Speech, BBN.
™ ICSI Speech Group, Berkeley.
™ Infopad, Berkeley.
™ The Laboratory for Engineering Man/Machine Systems, Brown University.
™ Speech Vision and Robotics Group (SVR),Cambridge University Engineering Department (CUED).
™ Cepstral, LLC Voice building, speech synthesis
™ Digital Speech Processing, Universidad del estado de Arizona.
™ Institute of Speech Communication (ICP) en Grenoble.
™ The Institute of Electronics, Information and Communication Engineers (IEICE).
™ International Speech Communication Association (ISCA), conocido como ESCA (European SCA).
™ IP Bridges LLC., Open Source VOIP solutions.
™ Center for Language and Speech Processing en Universidad Johns Hopkins.
™ Speech Group at K.U.Leuven, Belgium.
™ KTH Department of Speech Communication and Music Acoustics, Sweden.
™ LIMSI, France.
™ Speech Recognition at LumenVox
™ Music, Mind and Machine Group at the MIT Media Lab.
™ The Spoken Language Systems Group (SLS) at MIT.
™ Microsoft Speech Research Group.
™ National Institute of Standards and Technology's Speech Group (NIST), USA.
™ A Speech Codecs page.
™ Speech Communication, ISCA's Journal.
™ Institute for Signal and Information Processing (ISIP) at Mississippi State University.
™ Center for Spoken Language Understanding (CSLU) at Oregon Graduate Institute (OGI).
™ C. Pallier's psycholinguistic links.
™ Philips Speech Processing.
™ Speech at Purdue University.
™ (SPIB), Rice.
™ CAIP, the Center for Computer Aids for Industrial Productivity, Speech and Language Processing Lab., at Rutgers University.
™ Speech Processing Lab at Shariff University of Technology, Iran.
™ Institute for Language, Speech and Hearing (ILASH) at Sheffield, UK.
™ Speech and Hearing Research Group at Sheffield, UK.
™ Speech Technology and Research at SRI.
™ Center for the Study of Language and Information (CSLI), Stanford.
™ Center for Computer Research in Music and Acoustics (CCRMA), Stanford.
™ Speech Integration Group at Sun Microsystems.
™ Telefónica Investigación y Desarrollo (Spain's Telefónica).
™ Grupo de Tecnología del Habla, GTH (Speech Technology Group) at Universidad Politécnica de Madrid (Technical University at Madrid), Spain.
™ Dept. of Electronics and Information Systems (ELIS) at the Universiteit Gent, in Belgium.
™ ASEL Speech Research Program at the University of Delaware.
™ Speech Processing and Auditory Perception Laboratory, UCLA.
™ UCSC collection of speech starting points at UCSC PSL.
™ Speech Communication Lab at the University of Maryland College Park.
™ Language and Speech at University of Nijmegen, Netherlands.
™ The TRAINS project at the University of Rochester.
™ Speech Analysis and Interpretation Lab at USC Viterbi School of Engineering.
™ Language Technology Research Group and a How-to guide about speech recognition at the University of Sydney, Australia.
™ The Signal, Speech and Language Interpretation Lab (SSLI) at the University of Washington.
™ Vocollect, Inc.
™ Voice Signal Technology
™ Laboratory for Digital Speech and Audio Processing at the Vrije Universiteit Brussel, Belgium.
™ YorkTalk
™ Institute for Robotics and Intelligent Systems (IRIS at Precarn Inc.).
™ Multitel-TCTS Lab.
™ Duisburg Universität.
™ Institut de Recherche en Informatique de Toulouse
™ The Australian Speech Science and Technology members.
™ Centre for Intelligent Information Processing Systems.
™ Spoken Language Working Group of the Expert Advisory Group on Language Engineering Standards (EAGLES)
™ Center for PersonKommunikation at the Aalborg University, Denmark.
™ Signal Processing Lab at Griffith University in Australia.

Cada uno de estos centros ha tenido diferentes aportaciones en el área de reconocimiento de voz, sin embargo, llevaría cientos de hojas el detallar cada una de sus aportaciones.
Los avances más recientes han sido propuestos por las siguientes universidades y laboratorios de donde se basará la información contenida en este reporte.

™ Universidad del estado de Arizona.
™ Universidad de Washington.
™ Universidad de Maryland.
™ Universidad de Washeda (Japón).
™ Universidad Paul Savatier (Francia).
™ Universidad de Amsterdam.
™ Universidad de Tampere (Finlandia).
™ Universidad Tecnológica Bentley (Australia).
™ Google Inc.
™ IBM Research.
™ Apple Inc.
™ Microsoft Research.

Logros claves y sus autores

En 1920 se crea el primer juguete electromecánico (“Radio Rex”), capaz de saltar cuando se pronuncia su nombre. A finales de la década de los 40 el Departamento de Defensa de USA, financia el desarrollo de una máquina para la traducción automática de mensajes interceptados a los rusos (proyecto fallido).
El inicio del reconocimiento de voz comenzó a finales de los 50’s con la llegada de la computadora digital. Juntamente con dispositivos capaces de capturar y analizar la voz abrió un panorama a investigadores para representar características acústicas y mostrar las propiedades de las palabras. Los laboratorios Bell, desarrollan el primer sistema capaz de reconocer dígitos sobre la línea telefónica.
El primer reconocedor fue el hecho por AT&T el cual era un software capaz de reconocer un discurso independientemente del locutor.
En los 60’s la segmentación automática de voz avanzó significativamente en unidades lingüísticas como fonemas, silabas, palabras; reconocimiento y clasificación de patrones, etc.
En los 70’s surgieron un número de técnicas realizadas en su mayoría por la Agencia DARPA (Defense Advanced Research Projects Agency). Se desarrollaron reconocedores que manejaban un dominio de reconocimiento mayor basados en el reconocimiento de patrones. Los reconocedores eran capaces de aceptar un vocabulario más extenso. Durante esta época se logró una mejora con respecto al reconocimiento para palabras aisladas y continuas. Se desarrollaron técnicas tales como Time Warping, modelado probabilístico y el algoritmo de retropropagación. También en esa misma década el sistema HARPY es capaz de reconocer frases completas con estructuras gramaticales simples (desarrollado en la Universidad Carnegie-Mellon). El sistema requería una capacidad equivalente a 50 ordenadores de aquella epoca.

Los 80’s se caracterizaron por el fuerte avance que se obtuvo en el reconocimiento de voz. Se empezaron a desarrollar aplicaciones con vocabularios grandes y se impulsaron el uso de modelos probabilísticos y redes neuronales, los cuales poco a poco mejoraron su desempeño. Un dato curioso fue que los estudios demostraron que la tasa de error en el reconocimiento cae a la mitad, cada dos años. En 1985 IBM desarrolla un sistema capaz de reconocer, en tiempo real, palabras aisladas de un conjunto de 20.000, después de 20 minutos de entrenamiento, con una tasa de error < 5%. Aparecen sistemas de dictado: generalmente requiere pausas entre palabras.
Para los 90’s el progreso de los sistemas de reconocimiento de voz es notable gracias a la innovación de la tecnología (computadoras y algoritmos). Los investigadores realizaron vocabularios grandes para usarse en el entrenamiento, desarrollo y pruebas de los sistemas. Además de que las técnicas de hace algunos años han sido mejoradas para obtener mejores reconocedores.
En 1996 Via Voice, desarrollado por IBM, permite el control del sistema operativo OS/2 mediante voz. SPHINX: Se convierte en el estado del arte en tecnología capaz de reconocer habla continua con grandes vocabularios. En 1997 Dragon presenta “Natural Speaking”, el primer sistema disponible para reconocimiento de habla continua.

Actualmente los logros se han diversificado y acrecentado de manera drástica. Las interfaces de voz proponen un nuevo futuro en la interacción entre humanos y computadoras.

Implicaciones para el desarrollo de interfaces

Reconocimiento de voz ha implicado esfuerzo y paciencia pero sus fines son muy prometedores. El desarrollo de interfaces que incluyan reconocimiento de voz es escaso y muy específico para ciertas aplicaciones. Aunque el campo de aplicación es innumerable, se siguen estudiando los comportamientos del habla desde el punto de vista antropológico, social y tecnológico, estas implicaciones y la riqueza con la que cada uno de los idiomas esta dotado exige altos estándares para la comunicación de usuarios y maquinas por medio de voz.
Algunas de las aplicaciones actuales son:
™ Telecomunicaciones.
™ Control domótico.
™ Sistemas de interacción humano-computadora.
™ Traducciones de lenguajes
™ Automatización de tareas.
™ Ayuda a personas que se les dificulta la interacción con el ratón y/o teclado.
™ Recuperación de información.
™ Diseño de interfaces.
™ Dispositivos móviles.
™ Videojuegos.
™ Aprendizaje.
™ Medicina.
™ Armamento.
™ Armamento.
™ Producción.
™ Oficina/escritorios.
A continuación se describirán brevemente el estado actual en el que se encuentra el diseño de interfaces basado en reconocimiento de voz, sus aplicaciones y avances más recientes.

Recientemente en el año 2008 Hillard hace una propuesta para el reconocimiento y traducción de idiomas. Sparseval es una base de parseo para reducir la tasa de error en el reconocimiento. Principalmente en el idioma como japonés o chino donde la traducción se hace de signos a palabras y viceversa es importante representar la información de una manera exacta para evitar una mala interpretación.

SpeechKit es un software que cuenta con una interfaz con reconocimiento de voz para asistir en la rehabilitación de pacientes con problemas motores. En este caso la Universidad de Australia se enfoca en pacientes que después de un accidente les cuesta desenvolverse bien de manera verbal. En ciertas terapias se necesita analizar al paciente de forma visual y auditiva por parte del terapeuta lo cual es difícil poner énfasis en los dispositivos de apoyo que en el paciente.

Flexible shortcuts es una interfaz basada en reconocimiento de voz para la ejecución de comandos. El software recibe de entrada una palabra continua relacionada con los comandos reales. En las palabras clave utilizadas para los comandos del software existe una jerarquía para ir avanzando progresivamente y realizar tareas complejas. Lo interesante es que el estudio de usabilidad y aceptabilidad del software indica claramente su efectividad y amabilidad con el usuario.

La universidad de Colima propone una posible aplicación de sistemas de reconocimiento de voz en ambientes de realidad virtual, y explicaciones de la implementación de un sistema de realidad virtual, donde se utilizaron comandos de voz a través una red neuronal basada en hardware, para controlar moléculas virtuales, el cual fue implementado en el Laboratorio de Realidad Virtual.

La universidad de Zaragoza ha trabajado en la creación de sillas de ruedas inteligentes controladas por voz. La ventaja de estas sillas de ruedas es que aumenta las posibilidades de los individuos con severas discapacidades motrices, especialmente en entornos donde resulta difícil maniobrar el vehículo.

Actualmente con el creciente desarrollo de dispositivos inteligentes cómo el iphone, ipod Touch, PDA’s y celulares las aplicaciones de voz se están desarrollando de manera vertiginosa y competitiva para tener las mejores interfaces en voz del mercado. En las referencias se citan algunos videos para mostrar algunos avances actuales.

Perspectivas

Hay perspectivas de todo tipo pero siempre enfocado en que el reconocimiento de voz es un área que tiene mucho por ofrecer. Debido al crecimiento que nuevas aplicaciones con reconocimiento de voz ha tenido los avances se empiezan a acrecentar y con ellos los beneficios y las exigencias en estas interfaces. De acuerdo con Lotus Speech Initiative, existen ciertos principios que deben ser considerados al momento de desarrollar una interfaz basada en voz. El primer grupo de principios están orientados a la interacción natural y cortes de la máquina con el usuario.
El sistema deberá poder entender el lenguaje natural del usuario, es decir, deberá entender referencias que el usuario haga de algún pronombre. También deberá poder manejar comandos y preguntas que no necesariamente tengan información completa para ejecutarse, pero además, el sistema deberá pedir especificaciones cuando los comandos sean ambiguos o pedir información necesaria cuando así sea requerido.
El sistema no deberá interrumpir al usuario cuando este esté hablando, a menos que exista alguna emergencia o alguna notificación de alta prioridad.
El usuario podrá interrumpir al sistema, excepto en las situaciones de alta prioridad, si no es así, el sistema deberá detenerse cuando el usuario hable.
No deberán existir ciclos de preguntas, es decir, el usuario no deberá estar forzado a responder preguntas generadas por el sistema para seguir adelante en otros procesos.
Si el sistema tuviera algo que decir que no fuera respuesta a alguna pregunta del usuario, el sistema deberá pedir permiso para hablar, a menos que sea alguna cuestión de alta prioridad.
El sistema deberá poder manejar respuestas de cortesía como “gracias” o “de nada”, ya que existirán usuarios que las realicen por costumbre, así mismo el sistema deberá generar respuestas de cortesía.
El segundo grupo de principios está destinado a la confianza que el usuario tendrá al sistema y su dependencia hacia éste. Los usuarios tienen la necesidad de saber si han sido correctamente escuchados y si se está ejecutando el proceso que solicitaron, también tienen la necesidad de saber si la respuesta que consiguieron es la que estaban buscando. Actualmente el reconocimiento de voz es imperfecto en esta área.
Cuando el sistema responda a alguna pregunta, éste deberá referirse a la pregunta realizada por el usuario, de manera que “Si” o “25” no son respuestas aceptables.
Si algún procedimiento que fuera generado por el usuario no tuviera algún efecto visible para éste, el sistema deberá notificar que se llevo a cabo, por el contrario si el efecto es evidente (como el cierre de una ventana), entonces la simple acción será suficiente.
Los procedimientos de eliminación o irreversibles deberán ser confirmados por el usuario.
Si algún proceso tardara más que algunos segundos, entonces el sistema deberá indicar que el proceso se está llevando a cabo de manera específica, es decir, se deberán usar palabras como “imprimiendo” en vez de sólo “trabajando”, para que el usuario esté seguro de que el procedimiento correcto se está ejecutando.
El usuario debe poder cancelar algún comando que este en proceso.
Si el usuario por alguna razón no contesta a alguna pregunta generada por el sistema, entonces, después de cierto periodo de tiempo, el sistema deberá pedir permiso al usuario para hablar, y después preguntar si el usuario aún desea seguir ejecutando el comanda mencionado anteriormente, si es así, entonces el sistema deberá realizar la pregunta una vez más.
El tercer grupo de principios está relacionado con la consistencia y la transparencia del sistema.
La manera de hablar del sistema deberá arrojar palabras y frases que el usuario pueda entender, no usar palabras de las que no se entienda que se debe realizar acción alguna.
El sistema no deberá asumir cuestiones acerca de algún comando que el usuario ingresara, por ejemplo, si el usuario dice “abre este mensaje…” el sistema no debe asumir que el usuario quiera responder.
El habla del sistema deberá ser consistente y usar palabras similares para acciones similares.
El sistema no deberá hacer creer al usuario que éste es más inteligente que el sistema, ya que esto solo provocará que el usuario haga más cosas que el sistema no pueda reconocer o entender.
Cada uno de los principios es totalmente válido y deben ser tomados en cuenta al realizar una interfaz con reconocedor de voz.
Las perspectivas que analizamos por parte de visionarios tecnológicos proponen teorías que hasta ahora sólo se observa en películas. El lograr que una computadora reciba no sólo señales de voz, sino que pueda interpretar el estado de ánimo del usuario, interpretar señas y gestos es un reto que aún esta lejos de nuestras manos. La forma más natural de comunicación es por medio del lenguaje hablado, dado este contexto sería la mejor forma de relacionarnos con los ordenadores, dispositivos, autos, casas, cualquier clase de aparatos, etc. Sin duda una nueva era de interacción entre humano-computadora se acerca y se esta forjando ahora.

Referencias:

Apuntes de cursos sobre Reconocimiento de Voz.
http://elies.rediris.es/elies12/cap241.htm
http://ict.udlap.mx/people/ingrid/Clases/IS412/index.html

Tesis:
López Moreno, J. 2000. Desarrollo de un reconocedor de dígitos con distinción de énfasis. Tesis Licenciatura. Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas-Puebla. Mayo.

Laboratorios de investigación de reconocimiento de voz.
Universidad Carnegie Mellon http://www.speech.cs.cmu.edu/

Proceedings

Nakano, T. 2008. Flexible shortcuts: designing a new speech user interface for command execution. In CHI '08 Extended Abstracts on Human Factors in Computing Systems (Florence, Italy, April 05 - 10, 2008). CHI '08. ACM, New York, NY, 2621-2624. DOI= http://doi.acm.org/10.1145/1358628.1358729

Ross, S., Brownholtz, E., and Armes, R. 2004. Voice user interface principles for a conversational agent. In Proceedings of the 9th international Conference on intelligent User interfaces (Funchal, Madeira, Portugal, January 13 - 16, 2004). IUI '04. ACM, New York, NY, 364-365. DOI= http://doi.acm.org/10.1145/964442.964536

García Ruiz, M.A., Ceja Castillo, A.E., Mendoza Chávez, C.I. (2003). Sistemas de Reconocimiento de Voz en Ambientes Virtuales. V Jornadas Internacionales de las Ciencias Computacionales. FIME, Universidad de Colima.

Hillard, D. Hwang, M. Harper, M. Ostendorf, M. Parsing-based objective functions for speech recognition in translation applications. Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on Acoustics. Dept. of Electr. Eng., Washington Univ., Seattle, WA. 2008.

Calder, D. 2008. SpeechKit: a multimedia speech tool. In Proceedings of the 10th international Conference on information integration and Web-Based Applications & Services (Linz, Austria, November 24 - 26, 2008). G. Kotsis, D. Taniar, E. Pardede, and I. Khalil, Eds. iiWAS '08. ACM, New York, NY, 647-650. DOI= http://doi.acm.org/10.1145/1497308.1497432

J.M. Alcubierre. 2005. Silla de ruedas inteligente controlada por Voz. Primer Congreso Internacional de Domótica, Robótica y Teleasistencia para todos, 2005. Universidad de Zaragoza, España.

http://es.wikipedia.org/wiki/Comprensi%C3%B3n_del_lenguaje
http://128114.blogspot.com/2008/02/introduccin.html
http://agamenon.tsc.uah.es/Asignaturas/it/tdv/apuntes/Sintesis.pdf

Videos de interés:
Google mobile App
http://www.tecnoctrl.com/2008/11/reconocedor-de-voz-de-google-para-iphone-en-accion/
Windows Vista speech recognition.
http://www.youtube.com/watch?v=t4XFiF3lRlo&featur e=related
Instinct. Tecnología para celulares
http://www.youtube.com/watch?v=zotw7CrXVyA

miércoles, 4 de febrero de 2009

Evaluación heurística de Interfaces.

Aqui les pongo el link del trabajo que el grupo Consutores 3E realizó con el software WProject.

http://sites.google.com/site/consultores3e/evaluacion-heuristica

domingo, 25 de enero de 2009

Reporte como sujeto de estudio de usabilidad

A continuación se presenta el reporte del estudio de usabilidad que realizamos con el software Mochihua.

Reporte como sujeto de estudio de usabilidad

Dr. Alfredo Sánchez Huitrón

Efrén Hernández Cosco 128320

Interacción Humano-Computadora

Introducción

“Mochihua” fue el software del cuál fui partícipe como sujeto de estudio de usabilidad. Después de tratar de investigar un poco más del software y su desarrollador me percaté de que es un software que sigue en desarrollo y que no se ha completado. Armando Leal trabaja en su tesis de licenciatura sobre “Herramientas de productividad para dispositivos móviles y salas multimediales de colaboración” con el proyecto “Mochihua”. El nombre resulta curioso por lo que se investigó acerca de su origen y significado. La palabra “mochihua” proviene de la lengua Nahuatl y sus significados son: convertirse en, hacerse ver, suceder y ocurrir; lo que sigue dejando la duda que se espera se pueda contactar al desarrollador para preguntar el porqué de tal nombre.

Descripción del Software

La información básica del software Mochihua fue proporcionada por los evaluadores durante todo el proceso de la prueba. El propósito del software es intentar facilitar la administración de proyectos de software utilizando la tecnología de dispositivos inteligentes y pizarrones interactivos. Se puede inferir que los motivos de la realización de esta prueba fueron principalmente: informar al desarrollador sobre el uso del software con usuarios reales, detección de errores, detección de facilidades y ventajas al utilizar el software, encontrar mejoras potenciales, puntos críticos o difíciles de entender por parte de los usuarios, y principalmente, medir la usabilidad y aceptabilidad del software.

Durante la prueba se evaluaron diversos aspectos cómo por ejemplo: la forma de cómo mover una ventana dentro de la pantalla, la creación de tareas, la creación de subtareas, agregar responsables, costos, y fechas a las tareas, agregar contextos a las tareas, entre otras actividades. Los elementos que se evaluaron fueron el manejo de las ventanas, la velocidad de adaptación de los usuarios con el software, ver si las tareas que se asignaron pudieron ser completadas o no, y cómo ya había sido mencionado, medir su usabilidad y aceptabilidad.

Descripción del escenario en el estudio de usabilidad

El equipo de estudio estuvo conformado por 2 integrantes: José Eduardo Santos y Efrén Hernández. Inicialmente se dio una pequeña charla introductoria en una sala muy amplia y en un lugar poco común. Ese lugar se dio un ambiente demasiado formal en el cuál el evaluador nos dio la bienvenida a el estudio, los diferentes derechos que los usuarios podían hacer válidos en cualquier momento de la prueba, la confidencialidad de la prueba, el propósito de la prueba, el procedimiento que se llevaría a cabo, las remuneraciones por realizar la prueba, la aclaración que el objeto de evaluación sería únicamente el software, la firma de un documento en donde se aceptaban los lineamientos antes mencionados y nuestros derechos, y finalmente el contestar un cuestionario donde se pedían algunos datos personales y donde se indagaba algunos requisitos que al parecer son útiles para la evaluación del software . Posteriormente procedimos a ir a la sala donde se realizaría la prueba.

El lugar donde se llevó a cabo el estudio fue considerado como un lugar propicio por los usuarios. Las razones son la privacidad, a pesar de que era un lugar con una pared de vidrio los usuarios ignoraron si alguien los hubiese estado observando; el espacio, ya que el lugar era muy amplio y era cómoda para poder moverse de un lugar a otro y no interferir en las labores cuando se realizaban, la tecnología con la que se contaba en el lugar fue algo muy importante porque el software era para el uso dentro de un pizarrón interactivo y creo que se pudo analizar el comportamiento en el dispositivo adecuado; el mobiliario como sillas, mesas, pizarrón, videocámara y computadoras estuvo bien distribuido porque se contaba con una distribución que permitía un área amplía para movimiento de los usuarios y una estancia cómoda para cuando se requirió el uso de este mobiliarios; y finalmente detalles cómo iluminación y comodidad fueron aspectos importantes que hicieron un ambiente muy propicio para el buen desempeño de las tareas con el software. Además se considera que el lugar benefició tanto a usuarios cómo a evaluadores debido a que el ángulo de la cámara y de visión de evaluadores no afectaba prácticamente en nada a los usuarios.

La cantidad de personas que realizaron el estudio fue adecuada porque entre muchas personas se reduce la participación y el manejo de software, la atención personal y la expresión de ideas. Ambos usuarios participaron de manera unánime a lo largo de la prueba rolando puestos e interactuando con el software, se dieron buenos puntos de vista, se complementaron entre uno y otro el trabajo y las opiniones, y además, pudieron entender con mayor rapidez el manejo del software.

Comentarios sobre el estudio de la interfaz

El facilitador proporcionó una hoja de actividades que se debían cumplir. El tiempo que se tenía para la realización de las pruebas fue suficiente y además se pudo discutir, se pudieron expresar aclaraciones, mejoras y opiniones buenas y no tan buenas para calificar al desarrollador y así proporcionar la mayor información posible por parte de los usuarios.

Cada una de las actividades fue clara, y en la que se tuvo duda los evaluadores respondieron puntualmente a las dudas y a la explicación detallada de las tareas. En la actividad en la que se tuvo problema, el evaluador proporcionó la información necesaria para resolverla pero no intervino directamente en la resolución de la tarea o la realizó él en vez de los usuarios. Aunque se dio una confusión en una actividad se pudo observar con mayor claridad la importancia de un facilitador en el desarrollo de la prueba y sus aportaciones.

Considero que los estudios de usabilidad forzosamente debe de tener un facilitador que apoye a los usuarios en momentos de duda, a explicar exactamente qué es lo que se realiza y con qué fin, además de mantener el orden y no permitir que los usuarios se pierdan o desesperen en el cumplimiento de las tareas. Sin duda, las actividades no se podrían realizar sin ayuda del facilitador, o tal vez si pero llevaría mucho tiempo y nada asegura el éxito de las tareas. Cabe aclarar que la participación del facilitador fue mínima en el estudio.

Con este apoyo que nos brindó el facilitador en el transcurso del estudio se pudo comprender el uso del software más rápidamente conforme la prueba transcurría. Ciertamente al finalizar la prueba me sentí capaz de realizar las mismas pruebas de una forma mucho más rápida y directa lo que me da la impresión de que su uso fue fácil y aprendí a usarlo en una forma muy básica.

Comentarios sobre los formularios y cuestionarios aplicados antes, durante y después del estudio

Los formularios tienen diferentes enfoques y propósitos. Creo que cada cuestionario es parte de la prueba misma. Primero, se necesita saber si el usuario cuenta con los conocimientos básicos para usar el software y conocer un poco de sus datos personales. El cuestionario posterior se fue haciendo a la par con el estudio mismo. De vez en cuando el evaluador iba formulando diferentes preguntas que eran respondidas por parte de los usuarios. Finalmente, el cuestionario final se refería al parecer del software, las actividades, satisfacción del usuario, mejoras y opiniones.

Cada uno de los cuestionarios intenta obtener información personal, del uso del software, de la opinión del software, de su usabilidad y comodidad del usuario al usarlo. Tal vez no se pudieron expresar a detalle en los cuestionarios la información deseada, sin embargo, las opiniones se expresaron con claridad en el momento de realizar las pruebas lo que considero que la información valiosa se obtiene obteniendo toda la información, es decir, de cuestionarios, de los videos y de la opinión misma del evaluador.

Impresiones al ser observado como usuario objeto del estudio

Después de salir de la antesala se sintió un poco de intimidación debido a la gran formalidad con la que se nos trató y la lectura de los derechos que cómo usuarios contaban. Al estar en la sala se pudo observar el equipo de videograbación lo cual intimidó al inicio a los usuarios, además de que no se sabía en absoluto nada del manejo del software. Sin embargo, el evaluador encargado de la videocámara fue muy sutil y al hacer casi imperceptible su presencia facilitó el que pronto se diera un ambiente de confianza y relajamiento. Conforme el tiempo avanzó hubo momentos donde los usuarios no se percataron de que estaban siendo grabados, excepto de aquellos momentos donde se sentía que dado el ángulo donde se ubicaban las personas hacía ver si no se estaba obstruyendo el ángulo de la grabación, pero la cámara dejó de ser un inhibidor para el desarrollo de las pruebas.

El único momento crítico fue aproximadamente cuando se llevaba un 70% de las actividades en donde se pasó a pasar a evaluar el software desde el simulador de dispositivo inteligente en la laptop. El problema que se dio fue que debido a que la tarea de “asignarle un contexto a una tarea” no se podía realizar, los usuarios se pudieron demasiado nerviosos, además se percataron de que estaban siendo grabados, se cayó en error de pensar en que el usuario estaba siendo evaluado y finalmente todo concluyó en la creación de un momento de tensión donde no se podía avanzar. Se sintió hasta cierto punto un poco de intimidación por parte de los usuarios acerca de esta situación, hasta que el evaluador tuvo que intervenir directamente para ayudar en la tarea y salir de esta etapa inesperada. Sin embargo, se considera que la situación se dio debido a que ninguno de los usuarios había interactuado con ningún dispositivo inteligente lo que contribuyó directamente en la complicación de tal situación. Al terminar esta actividad todo regresó a la normalidad y las tareas posteriores, que fueron fáciles, ayudaron a relajar de nuevo el ambiente y a no percatarse del ser grabado.

La realización de la prueba sin ser grabado afecta el comportamiento de los usuarios, sin embargo el cambio sería muy imperceptible por lo que considero que el principal factor no es la cámara de video sino el ambiente que se propicia dentro de la sala. El ambiente a lo largo del estudio fue de confianza y respeto por lo que creo que hubiese sido el mismo sin ser grabado.

Comentarios y sugerencias generales acerca de la realización del estudio de usabilidad

Es sumamente importante el realizar un estudio de usabilidad para cualquier software. Cómo estudiantes de sistemas estamos acostumbrados a hacer el software entendible para nosotros por lo que a veces caemos en considerar que “si yo lo sé utilizar, todos saben hacerlo también”. Esta filosofía nos acarrea terribles consecuencias porque al trabajar formalmente o desarrollar un software es sumamente importante saber si el software que estoy desarrollando es usable y aceptable o no.

El estudio de la interacción humano-computadora es igual de fundamental para desarrollar un software de calidad cómo ingeniería de software, es por ello que es fundamental el saber hacer este tipo de estudios, entenderlos e interpretarlos. Muy pocas veces nos ponemos en el papel del usuario y este estudio me pareció muy interesante por acatar tal papel. Pude sentir la presión de ser grabado, de ser cuestionado y de pensar “no sé cómo hacerlo” y tener que pedir ayuda a un experto.

En general el estudio fue muy agradable y espero haber aportado buena información para el desarrollador. Me sentí a gusto y aprendí cosas que no había considerado. Sé que pronto realizaré un estudio de usabilidad y sé que es un trabajo pesado pero considero que es parte de mi desarrollo profesional como ingeniero en sistemas.

Sitios Web visitados:

http://www.geocities.com/Athens/Academy/3088/nahesp.html

Sánchez, J. A. 2003-2006. Usabilidad. Notas para el curso Interacción Humano-Computadora. Universidad de las Américas Puebla.

martes, 20 de enero de 2009

Pioneros de IHC

Aqui hablo un poco de Jakob Nielsen, pionero de la Intracción Humano-Computadora:

Dado que no pude agregar el archivo les escribo lo que tengo. Saludos

Jakob Nielsen pionero de la Interacción Humano-Computadora
Dr. Alfredo Sánchez Huitrón
Efrén Hernández Cosco 128320
Interacción Humano-Computadora

“Los usuarios web han sido siempre implacables y ahora lo son aún más.”
Jakob Nielsen.

Probablemente hace menos de un siglo nadie hubiese imaginado la existencia de una “maquina” que facilitaría tanto las diferentes actividades humanas y a la ciencia, ayudaría a mejorar la calidad de vida y nos llevaría a una nueva era tecnológica, sólo por mencionar algunos de los avances que se han logrado gracias a la computadora. La gente de hace algunas décadas ni siquiera pensaba en la idea de que la conexión entre miles o millones de computadoras nos abrirían nuevos caminos entre países y continentes reduciendo kilómetros a unos cuantos clicks de distancia.
Junto con las nuevas tendencias tecnológicas nuevas áreas de estudio han surgido y algunas más se complementan para satisfacer la demanda tecnológica. Es ese impredecible crecimiento de la ciencia y la tecnología, junto con aquellas personas que no se conformas y que van más allá de lo que los demás creen que los grandes cambios en la historia de la humanidad han surgido. Una de esas personas que han sobresalido por su dedicación y esfuerzo es Jakob Nielsen el cuál será el tema principal de este ensayo junto con un poco de su historia, sus logros y sus aportaciones al campo de la computación y principalmente, a la interacción entre humano-computadora.
Nacido el 5 de octubre de 1957 en Copenhagen, Dinamarca. A los 16 años tuvo su primera computadora propia la cuál fue una “Gier” creada por una compañía danesa aproximadamente desde 1960 y que además tenía una capacidad de 4Kb. Con esta experiencia el rectificó su gusto por la computación y el afan de hacer aportaciones importantes en esta rama.
En la Universidad Aarhus de Dinamarca Nielsen comenzó sus estudios en computación donde obtuvo su licenciatura y maestría en ciencias computacionales. Desde 1983 Nielsen comenzó sus investigaciones y a enfocar su interés en la interacción entre humanos y computadoras. Para 1985 Nielsen comenzó a trabajar en IBM como investigador visitante e hizo diversos experimentos de usuarios con diferentes tipos de interfaces. Del año 1986 a 1990 fue instruido en el diseño de interfaces de usuarios mientras trabajaba como asistente de profesor en la escuela técnica de su ciudad natal. Después de obtener logros y reconocimientos Nielsen terminó su doctorado en “Diseño de Interfaces de Usuarios y Ciencias Computacionales”. Fue desde ese momento donde verdaderamente comenzó la aventura del “príncipe de la usabilidad”.
En 1990 Nielsen trabajó en Bell Comunications Research por cuatro años donde se dedicó a trabajar principalmente con hipertexto, sistemas en línea e interfaces telefónicas. Posteriormente fue empleado de SunSoft que produce el software para Sun Microsystems donde diseñó red de sistema interno de Sun en 1994 y fue reconocido como un ingeniero distinguido.
Nielsen comenzó su trabajo cómo consultor en 1998 cuando abandonó Sun donde se enfocó de lleno al diseño de interfaces web, el análisis las necesidades y comportamientos de los usuario en el ambiente web y a aprovechar las herramientas actuales para crear interfaces amigables y útiles para los usuarios.
Actualmente Jakob es escritor, orador y consultor en el área de Usabilidad y diseño web. Es co-fundador junto con Donald A. Norman de la Empresa Nielsen Norman Group (NNG) y participa activamente con la editora Morgan Kaufmann Publisher’s relacionada con las Tecnologías Interactivas. Nielsen gusta de la ciencia ficcion, los viajes y comida buena para relajarse; actualmente vive en California junto con su esposa y ha dado cientos de conferencias, escrito cientos de artículos, publicaciones y una docena de libros.
Jacob Nielsen se ha convertido en el “gurú de la usabilidad en el diseño de páginas web” y alguno de los títulos que se le han dado son de: “el rey de la usabilidad”, “la persona mas inteligente en la web”, “el líder experto mundial en el diseño amigable-usuarios”, “el zar de la usabilidad web”, “gurú eminente de la usabilidad web”, etc. Por mencionar sólo algunos. Para el 2001 contaba con 60 patentes, la mayoría para facilitar el uso de Internet. Entre sus obras más destacadas se encuentran: ¡Sea breve!, Cómo leen los usuario en la web, Hypertext and Hypermedia, Usability Engineering, Designing Web Usability: The Practice of Simplicity, Homepage Usability: 50 Websites Deconstructed, Prioritizing Web Usability y Eyetracking Web Usability. Sus libros son traducidos a más de 20 idiomas y sus ejemplares son vendidos a millares en todo el mundo; sus sitios web y artículos en línea tienen millones de visitas anuales. Sus puntos de vista son muy valiosos y han tenido un impacto muy fuerte en el diseño y la manera de mejorar la usabilidad.
Sin duda Jakob Nielsen es símbolo de innovación, de cambio, de controversia, de éxito y de simpleza. A veces las grandes ideas necesitan ser simples para poder mover el mundo.