Un blog sobre Experiencia de Usuario y alrededores

Estás en: UX Lumen » Usabilidad » Test de usuarios de guerrilla (1/2)

Test de usuarios de guerrilla (1/2)

Facebooktwitterlinkedinmail

Son rapidos, eficaces y baratos, aprende como funcionan.

En las dos últimas décadas se han popularizado los test de de guerrilla como una forma económica y eficaz de detectar problemas de Usabilidad a lo largo de las diferentes fases de desarrollo de un producto interactivo.

En este artículo se revisan los supuestos básicos de un test informal y la forma de planificar uno.

Metodos de evaluación de Usabilidad

Los test de usuarios de guerrilla son un tipo concreto de test de usuarios y este tipo de pruebas se inscribe a su vez en un contexto más amplio que es el de los métodos de evaluación de Usabilidad.

Comúnmente se habla de tres: métodos de inspección, métodos de indagación y claro el test de usuarios.

Métodos de inspección

Conjunto de métodos basados en evaluadores expertos que inspeccionan o examinan aspectos relacionados con la usabilidad de la interfaz.

La inspección de Usabilidad se emplea generalmente al principio del proceso de desarrollo en prototipos o especificaciones en las que no es posible realizar pruebas con usuarios. Este tipo de evaluación es en general más barato que las pruebas con usuarios. También resultan útiles para rediseños sobre todo cuando existen problemas de usabilidad muy visibles fácilmente detectables por expertos.

metodos_usabilidad2

Los métodos más importantes son:

  • Evaluación heurística
  • Recorrido de la usabilidad plural
  • Recorridos cognitivos
  • Inspección de estándares

Métodos de indagación

Es fundamental en las etapas iniciales del desarrollo y se centra en identificar los requerimientos tanto de los usuarios como del producto. Información acerca de los gustos, desagrados, necesidades…

En este tipo de métodos se realiza hablando con los usuarios, observándolos, usando el sistema en trabajo real (no para un test de usabilidad), u obteniendo respuestas a preguntas verbalmente o por escrito.

Métodos de indagación más importantes son:

  • Observación de campo
  • Grupos de discusión dirigidos (Focus groups)
  • Entrevistas
  • Grabación del uso (Logging)
  • Estudio de campo proactivo
  • Cuestionarios

Test de usuarios

Tiene su origen en las aproximaciones clásicas para conducir experimentos controlados.

En los métodos de usabilidad por test, usuarios representativos trabajan en tareas utilizando el sistema (o el prototipo) y los evaluadores utilizan los resultados para ver cómo la interfaz de usuario soporta a los usuarios con sus tareas.

Existen diferentes aproximaciones a esta prueba que van de las más formales a otras informales (que aun siendo informales no se desprenden del rigor experimental)

Un poco de historia

Si bien en las 3 primeras décadas de la informática casi todos los usuarios eran individuos altamente cualificados y especialistas en el uso de software. Desde principios de los 80 con la popularización de los ordenadores personales aparece un nuevo tipo de usuario medio que carece de este tipo de competencias y al que le resultan frustrantes los problemas que a otro tipo de usuario podrían resultarle un reto.

strech

El primer superordenador transistorizado de IBM 1961

El desafío de ofrecer sistemas al alcance de todos los usuarios surgió en el momento oportuno la ciencia cognitiva presentó personas, conceptos, habilidades, y una visión para hacer frente a esas necesidades a través de una ambiciosa síntesis de la ciencia y la ingeniería. La IPO (interacción persona-ordenador) fue uno de los primeros ejemplos de la ingeniería cognitiva.

Desde esta orientación los primeros test de Usabilidad basaban sus propósitos en obtener validaciones estadísticas o en evaluar al final del proceso para demostrar que todo estaba correcto.

Poco a poco ya no se trataba de saber y confirmar que todo funcionaba correctamente o de validar un nuevo modelo. El mayor beneficio estaba en descubrir y averiguar dónde estaban los errores, cómo se producían o qué es lo que no funcionaba bien.

A principios de los90 existen una serie de métodos desarrollados para evaluar la Usabilidad.
El test de usuarios ya se ha establecido como una variante de los experimentos de Psicología.

Estos experimentos realizados en laboratorios controlados por psicólogos experimentados en muchos casos intimidan a muchos diseñadores y desarrolladores. Por caros y poco flexibles.

Nielsen (que ya contaba con precedentes desde la década pasada como Alphonse Chapanis) defiende acercamientos a la ingeniería de Usabilidad menos costos también llamados métodos de guerrilla, como una forma más barata y cualitativa –pero igualmente operativa– de efectuar pruebas de Usabilidad, especialmente el test con usuarios.

Test formales vs test informales

Test formales

  • Suelen realizarse en un laboratorio equipado con tecnologías avanzadas de grabación
  • Suele realizarse al final del todo el proceso con todo el desarrollo completo
  • Los sujetos son seleccionados cuidadosamente para ser representativos estadísticamente
  • Se conducen como experimentos reales con el objetivo de confirmar o refutar una hipótesis

Test informales

  • Es suficiente con un portátil una webcam o algún software de grabación
  • Puede realizarse en diferentes momentos del proceso ya sea sobre wireframes o prototipos
  • Se emplean los sujetos disponibles (procurando conseguir lo más representativo) ya sean compañeros de oficina o hasta clientes en una cafetería
  • Se emplean de forma recurrente en el proceso de desarrollo con el objetivo de dar cuenta de las deficiencias de Usabilidad y moldear el producto gradualmente

Representatividad de los test de guerrilla

¿Cuál es el número adecuado de participantes?

Para un diseño experimental válido se habla de un mínimo de 10 a 12 usuarios por condición experimental.

Nielsen encontró que para un test de usuarios de guerrilla 4 o 5 usuarios representativos de la audiencia pueden mostrar el 85 por ciento de las deficiencias de Usabilidad del producto.
Propone optimizar los usuarios disponibles en series de 5, empleando el resto de usuarios disponibles para evaluar los rediseños de los problemas detectados.

Aunque el mayor número de errores suela detectarse con el primer usuario (sobre una tercera parte) no es recomendable emplear únicamente uno por dos motivos:

A) Existe el riesgo de ser engañado por el comportamiento de un usuario que realiza acciones por accidente o de forma poco representativa. Tres usuarios pueden ser suficientes para hacerse una idea de que comportamientos son únicos y cuáles pueden ser generalizables.

B) El ratio de costo/beneficio es óptimo para 3 o 5 usuarios. Dependiendo del estilo de test existe siempre un costo inicial asociado a planificar y ejecutar el test. Es mejor rentabilizarlo aplicándoselo a varios usuarios.

Planificar un test de guerrilla

Aunque por las características de la metodología esta organización es flexible un resumen sistemático de los partes ideales resulta útil como guión.

planificacion de un test

 

Para Dana Chisnell las partes ideales de un una prueba de usuarios son las siguientes:

1) Definir los objetivos de la prueba

Son las razones de fondo para realizar la prueba, aquellos problemas a los que los resultados deben dar respuesta

2) Cuestiones de investigación

La concreción de la anterior, se definen las cuestiones a investigar de la forma más precisa, limpia, ajustada y medible u observable como sea posible. La concreción en este caso es decisiva: cuestiones vagas y demasiado generales producen resultados cuestionables.

3) Características de los participantes

A parte del mencionado número de usuarios, es preciso definir las características de los que vamos a seleccionar y la forma en la que coinciden con los usuarios finales, en función claro está de los recursos disponibles.

4) Método

Es una sinopsis del diseño del test. Consiste en definir cómo se va a conducir la investigación con los participantes y como se va a desarrollar la sesión. Algunas de los diseños de test más comunes son los siguientes:

A) Diseño de grupos independientes

Requiere diferentes grupos de usuarios porque cada parte del sitio es testado por uno de ellos, esto mitiga el efecto de transferencia de aprendizaje producido por haber realizado tareas previas similares a las que se están registrando.

B) Diseño entre sujetos

Se emplea el mismo grupo para testar diferentes partes del sitio. Se asume que existe el efecto de transferencia de aprendizaje aunque puede ser mitigado a través del contrabalanceado. Esto se consigue alterando el orden de las tareas cada participante las realizará por tanto en un orden diferente.

Este diseño tiene la contrapartida de que en muchas ocasiones la lógica de las tareas exige siempre la misma secuencia para que la serie de tareas tenga sentido real.

C) Probar diferentes versiones del producto

Probar diferentes versiones de un mismo producto, por ejemplo un rediseño.

Esta tarea puede complicarse si al mismo tiempo queremos probar el diseño es dos grupos diferentes, por tanto pueden ser necesarios un total de 14 participantes si asignamos 4 a cada condición.

Es posible en este caso también aplicar contrabalanceo de forma que cada usuario de cada grupo evalúe las dos versiones pero modificando el orden.

D) Probar múltiples grupos de usuarios

Es un caso más complicado. Podemos probar dos tipos de usuarios por ejemplo gerentes y dependientes con dos tipos de niveles de usuario novicio y avanzado.
Volvemos a tener 4 opciones y un total de 16 usuarios, la única opción de reducir usuarios en este caso es limitando los usuarios asignados a cada opción.

5) Lista de tareas

Las tareas consisten en aquellas acciones que los usuarios realizan durante el test, se pueden agrupar en escenarios que proveen un contexto realista para que los usuarios realicen una serie de las mismas sin intervención del moderador.

El criterio para definir el éxito de una tarea incluye: alcanzar cierto punto en la tarea, un número máximo de errores , completar la tarea en un tiempo determinado…

Dado que realmente es imposible testar todas las tareas que cubre una interfaz suelen seleccionarse algunas de las más representativas.

El objetivo al seleccionarlas debe ser obtener un listado de tareas manejables y al mismo tiempo asegurar que se captura el mayor número de deficiencias de usabilidad como sea posible.

Entre los métodos para priorizar que tareas medir están los siguientes:

A) Priorizar por la frecuencia

Aquellas tareas que se realizan diariamente, posiblemente el 75 – 80 por ciento del tiempo cuando se usa el producto. De acuerdo con la regla del 80-20(principio de Pareto) estas serán un 20 por ciento de las características del producto y es en las que debemos centrarnos.

B) Priorizar por lo crítico

Son aquellas tareas que si se realizan de forma incorrecta o se olvidan tienen efectos desastrosos para el usuario, el producto o la reputación de la compañía. Por ejemplo pérdida de datos.

C) Priorizar por la vulnerabilidad

Se refiere a aquellas tareas que se sospecha antes de realizar las pruebas que pueden resultar problemáticas porque incluyen defectos de diseño. Suelen ser tareas conocidas y fácilmente identificables por el equipo de desarrollo

D) Priorizar por la prontitud

Aquellas que están disponibles en el momento que se realiza la prueba dado que el resto no se han desarrollado.

6) Lugar del test, equipo y logística

Esto incluye si es preciso simular un entorno determinado (un lugar ruidoso por ejemplo) así como el equipo que emplearan los participantes

7) Papel del moderador del test

Clarifica el papel del moderador, un punto de especial atención consiste en aquellas circunstancias en las que el moderador puede intervenir. Siendo lo deseable para simular una situación real que el observador no intervenga en absoluto.

8) Forma de recolectar los datos y métricas

Es una descripción por encima del tipo de datos a recolectar durante el test: datos de actuación y datos de preferencia.

Los datos de actuación representan mediadas de los principales comportamientos incluyendo: ratios de error, numero de accesos a la ayuda por tarea, tiempo empleando en realizar una tarea y similares.

Los datos de preferencia representan medidas de la opinión de los participantes a través de todo el proceso incluyendo: rankings, respuestas a preguntas y demás.

Estos dos tipos de datos pueden emplearse cuantitativa o cualitativamente dependiendo de los objetivos del test.

Referencias

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *