Altavoces del visor - Investigación, diseño y evolución

Los altavoces de oído de Valve Index están optimizados para los objetivos experienciales específicos de la realidad virtual, lo que ha provocado que su diseño difiera de forma interesante de los típicos auriculares de consumo.

En los inicios de nuestra experimentación con la RV, quedó claro que para ayudar a los usuarios de RV a dejar a un lado de forma adecuada su incredulidad* no solo requería la fiabilidad de los métodos narrativos, ambientales y emocionales de los juegos y películas tradicionales, sino que también requería una categoría completamente nueva de resolución de problemas fisiológicos, exclusiva de la RV. Cuando nos ponemos un visor para jugar a Budget Cuts, esperamos que la RV nos haga sentir que nuestro cuerpo se ha transportado a una oficina llena de robots asesinos, y no que simplemente nos muestre su entorno a través de una pantalla estática.

Nuestra investigación y pruebas de juego nos llevaron a comprender que lograr la máxima inmersión sonora exigía tantos requisitos de diseño de componentes de audio como los requisitos del sistema de seguimiento 3D o los de los paneles de visualización. También descubrimos que diseñar en función de esos requisitos significaba aceptar algunas compensaciones interesantes que afectaban a aspectos como la posición de los altavoces, el peso del controlador, la forma del diafragma del controlador, el diseño industrial de la carcasa del altavoz e incluso las características fundamentales de la respuesta de frecuencia.

*Hemos llamado a esta suspensión personificada de la incredulidad "presencia" en otros contextos, pero ese término tiene otras connotaciones en el mundo del audio, así que no lo usaremos en el resto de este artículo de Inmersión profunda.

Tanto monta el hardware como el software

Una inmersión de audio convincente solo puede lograrse confiando simultáneamente en el software y el hardware. Saber dónde trazar la línea divisoria entre las responsabilidades del hardware (dispositivos de audio) y el software (juegos, experiencias de RV) requería una consideración holística de todo el canal de audio de la RV, desde cómo se crea el contenido de sonido de la RV, hasta cómo lo reproducen los motores de los juegos y todas las formas en que puede llegar al oído.

En lo que se refiere al software, los ingenieros de sonido de los juegos y los científicos han estado trabajando en la creación de un contenido sonoro convincente y envolvente, desde que surgieron las primeras experiencias de panoramización relacionadas con los reproductores en los años 90 (Doom, Half-Life, Aureal3D, etc.). Después, gracias a la actual generación de RV, hemos visto enormes mejoras en las tecnologías de audio espacial. El renderización binaural y los complementos de simulación de sonido basados en aspectos de física como SteamAudio permiten a los desarrolladores crear una precisión posicional sónica aún mayor, reverberaciones virtuales físicamente precisas, oclusión y propagación del sonido, todo ello a través de auriculares estéreo normales. Al pensar en el dispositivo de escucha óptimo para la RV actual, nos hemos servido de los siguientes conocimientos e investigaciones en simulaciones de software de audio:

  • El contenido de la RV se entrega principalmente en estéreo: un canal de audio izquierdo y otro derecho. Estos canales pueden contener coloración tonal binaural y HRTF incrustada en relación con el punto al que el jugador mira en un momento dado.
  • Nuestro oído externo, la forma de la cabeza y la geometría facial añaden una característica tonal específica que ayuda a nuestro cerebro a identificar el sonido real frente al imaginado, así como la ubicación de las fuentes de sonido en relación a la nuestra (detrás, arriba, debajo, izquierda, derecha, etc.).
  • La fidelidad del sonido de media-alta frecuencia es muy importante.
    • Las simulaciones binaurales se basan en cambios sutiles en la coloración tonal (1kH-8kHz) para transmitir la posición de una fuente de sonido en relación con el jugador. Si un dispositivo de escucha añade su propia coloración de frecuencia amortiguada, esto interferirá con la capacidad del jugador para localizar el sonido.
    • Los humanos en general son muy sensibles a los sonidos en un rango de 2kHZ-5kHz. Si la frecuencia de un sonido virtual no se ajusta a lo que esperamos que sea en realidad, será más probable que identifiquemos el sonido como "no real". Esto es especialmente cierto si comparamos lo fácil que es saber si la voz de alguien se transmite a través de un altavoz o si alguien está hablando a tu lado.
  • La fidelidad del sonido de baja frecuencia es importante.
    • Si bien el contenido de baja frecuencia no se da con demasiada frecuencia en la naturaleza, sí aparece de forma habitual en la RV y en el contenido de entretenimiento (música, rugidos, explosiones, disparos, latidos del corazón, impactos, hechizos mágicos, etc.). El bajo es fundamental para transmitir una sensación de tamaño y escala. Aumenta la inmersión visual de la RV y suscita ciertos indicios emocionales: peligro, temor, aislamiento, interiorización, etc. Por lo tanto, era importante que nuestro dispositivo de escucha mantuviera una cantidad saludable de respuesta de bajos.

¿Por qué no auriculares?

Los auriculares tradicionales ofrecen un contenido de sonido estéreo directo, en relación al jugador y directo a cada oído. Los jugadores pueden mirar en cualquier dirección en el mundo virtual y los motores de juegos 3D con complementos de simulación de sonido emitirán la señal estéreo necesaria para transmitir la ubicación correcta de la fuente de sonido virtual. Este es el motivo por el que los jugadores de e-sports competitivos (por ejemplo, CS:GO) utilizan auriculares en lugar de altavoces frontales, ya que los auriculares proporcionan información de sonido espacial más directa. Dos canales de salida (I/D), para dos auriculares (I/D), para dos oídos (I/D): directo.

Sin embargo, en términos generales, los dispositivos de audio tradicionales rara vez se diseñan con la inmersión sónica como objetivo principal. Los dispositivos personales como los audífonos, los auriculares de botón y los auricular de diadema están optimizados para escuchar música y entretenimiento en lugares donde los altavoces no son adecuados y a menudo los requisitos de potencia son extremadamente bajos (p. ej., teléfonos móviles, dispositivos alimentados por batería). La atención se centra a menudo en el aislamiento del sonido, la eficiencia energética, la supresión del ruido y las respuestas de frecuencia exageradas. Consideramos que muchas de estas optimizaciones podrían no tener tanto sentido en el contexto de la RV a escala de sala actual, donde el entorno de audición general es un volumen de espacio dedicado (por ejemplo, una sala interior con un ambiente de fondo luminoso), donde una pequeña cantidad de fugas de sonido puede ser aceptable. Tenemos acceso a una gran cantidad de potencia y las respuestas en frecuencia necesitan complementar las suposiciones de las simulaciones de sonido binaurales.

Los auriculares y los audífonos deben hacer contacto o rodear el oído para lograr sus objetivos de manera óptima. Observamos que este aspecto en ocasiones puede ir en contra de la inmersión de audio de las siguientes maneras:

  • La entrega de sonido directamente en el canal auditivo evita el proceso natural de escucha causado por la interacción del oído y la cabeza con las ondas sonoras reales. Los oyentes se pierden el sonido tonal creado por los oídos, la cabeza y la geometría personal. Esto puede dar lugar a que el sonido aparezca como si fuera imaginado o provenga del interior de la cabeza, aunque el contenido de audio sea altamente espacial y físicamente simulado. Predecimos que, con el tiempo, las simulaciones de software tendrán esto en cuenta.
  • La presión del oído puede llegar a ser dolorosa e incómoda después de períodos de tiempo, lo que aleja a las personas de la presencia de la RV.
  • Algunos probadores de juegos explicaron que el mero acto de tener auriculares en contacto con el oído les indicaba que cualquier sonido que se escuchara no iba a ser real.
  • Sellar el oído con auriculares de contacto puede atrapar el calor y provocar que los auriculares de RV estén más calientes de lo que el usuario percibiría en la vida real, reduciendo así su presencia.
  • La calidad del sonido tonal de algunos auriculares puede interferir con las sutiles coloraciones de frecuencia de las simulaciones binaurales. Por ejemplo, los auriculares en los que las frecuencias medias-altas están bien exageradas o bien silenciadas probablemente interferirán con las sutilezas de los filtros HRTF, lo que resulta en una pobre sensación de sonido direccional en los juegos y en la RV.

¿Por qué no altavoces?

También consideramos altavoces de consumo y altavoces de conformación de haces en configuraciones típicas de sonido estéreo o envolvente. Los altavoces evitan muchos de los problemas de comodidad asociados con los auriculares y emiten un sonido que podemos percibir fácilmente como externo a nuestra propia cabeza, pero su adopción plantea varios obstáculos:

  • Las configuraciones de altavoces estéreo existentes asumen una orientación hacia adelante, por lo que el sonido se reproduce como si se estuviera entre un público, escuchando a un grupo en un escenario o viendo la televisión desde un sofá. Esto está bien para la música y las películas en una pantalla, sin embargo, el contenido de la RV y de los juegos estéreo se emite asumiendo que los canales I/D llegan de inmediato a cada lado de la cabeza del oyente.
  • Los sistemas comunes de sonido envolvente 5.1 y 7.1 restringen la reproducción a un campo horizontal, donde el contenido de sonido de la RV y del juego puede colocarse virtualmente en cualquier lugar alrededor del oyente.
  • Los sistemas de altavoces pueden requerir tiempo y espacio para que el usuario los instale correctamente, lo que crea una fricción adicional para la configuración de la RV.
  • Los altavoces requieren que el jugador permanezca dentro de un pequeño "punto idóneo" para una reproducción espacial precisa. A veces, la RV puede requerir que las personas se muevan en un espacio grande.
  • Los altavoces pueden verse afectados por la acústica de la sala real, que puede entrar en conflicto con la acústica deseada del mundo virtual.
  • Los altavoces pueden hacer que un sonido parezca demasiado lejano, lo que contradice la ubicación de una fuente de sonido virtual que puede estar muy cerca de los oídos del reproductor.

La idea

Al examinar todas las ventajas y desventajas antes mencionadas, se hizo evidente que la solución óptima para la RV podría ser un par de auriculares de campo ultra cercano, de rango completo y sin contacto con el oído (extraaurales). Lo bastante cerca del oído como para imitar los auriculares estéreo en relación con el jugador y admitir el formato de salida del contenido actual de la RV, pero lo bastante lejos como para permitir que los oídos y la cabeza añadan su propia impronta de coloración tonal al sonido, a la vez que se solucionan los problemas de comodidad y presión. Esta percepción, combinada con la inspiración de un recuerdo de la infancia de estar completamente inmerso en el sonido mientras yacía entre dos altavoces de alta fidelidad orientados hacia el interior, es lo que dio lugar a la creación de los primeros prototipos.

Nuestro primer prototipo de altavoz fuera de la oreja

La evolución

El primer prototipo se realizó pegando dos pequeños transductores de altavoces de escritorio de alcance completo a los lados de un casco de monopatín. Acoplamos un viejo Vive al exterior del casco. Los altavoces tenían alimentación USB y salida de audio a través de la toma de auriculares del HTC Vive. Este prototipo rudimentario tuvo un rendimiento sorprendentemente bueno y demostró un aumento de la inmersión sónica y la externalización cuando permitimos que nuestros propios oídos y cabeza interpretaran el sonido de forma natural. La sensación de inmersión es difícil de medir cuantitativamente, así que en esta fase nos basamos en las valoraciones cualitativas de colegas y probadores de juegos en su descripción de la diferencia sónica entre este prototipo y un par de auriculares de contacto KOSS Porta Pro cuando estaban en la RV. Las respuestas fueron lo bastante significativas a favor de los altavoces como para que pudiéramos proceder con este diseño con confianza. Sin embargo, surgieron varios problemas:

  • Respuesta de graves muy limitada.
  • Las ligeras variaciones en la posición de los altavoces causadas por la diferente colocación del casco o por el movimiento en la RV provocaron que el volumen, la respuesta de frecuencia y el equilibrio del sonido se desplazaran de forma significativa.
  • Peso y tamaño. Los altavoces eran demasiado pesados (70 g cada uno), lo que contradecía el objetivo de hacer que nuestros auriculares fueran ligeros y cómodos. Esta fue probablemente la mayor preocupación desde el principio.
  • Pérdida de sonido.
Experimento con transductores de auriculares.

Para abordar los problemas de peso investigamos el uso de transductores de auriculares en lugar de transductores de altavoces. Aunque son más livianos y más eficientes en el consumo de energía, no proporcionan suficiente volumen cuando están alejados del oído al aire libre. Aunque ya sabíamos que esto sería así, fue interesante escuchar las compensaciones entre la inmersión del sonido frente a la distancia de alejamiento del oído frente a la respuesta de frecuencia y el volumen.

Concepto de auriculares magnéticos planos fuera de la oreja.

Queríamos saber el tamaño que tenían que tener los transductores de los auriculares para poder empezar a satisfacer nuestros requisitos de volumen y respuesta de frecuencia en nuestro contexto extraaural. Hablamos con Audeze quienes desarrollaron un par de auriculares magnéticos planos extraaurales para ayudarnos a averiguarlo. El resultado sonó increíble. Sin embargo, el peso, tamaño y coste no eran factibles para las metas de producción de Valve Index.

El primer «Hummingbirds» basado en altavoz

Volvimos a utilizar los transductores de los altavoces como base para el avance de nuestro diseño. Una de las ventajas de la investigación y desarrollo del audio en esta etapa fue la posibilidad de trabajar de forma independiente del resto del sistema del visor de Valve Index. Con la ayuda de un ingeniero mecánico creamos un factor de forma de auriculares extraaurales independientes. En este nuevo contexto, pudimos reproducir con rapidez la respuesta de los graves, la afinación, la orientación del oído, la distancia del oído y las evaluaciones del controlador de altavoces de las pruebas A/B. Este prototipo fue el primer auricular con altavoz impreso en 3D. A nivel interno lo llamamos «Hummingbirds».

Hummingbirds con altavoces de pistón pequeños, de gama completa y tradicionales.

Estos coloridos Hummingbirds se crearon con el objetivo de evaluar diferentes tipos de pequeños altavoces de rango completo. Hasta ese momento, habíamos estado rediseñando todos los sistemas de altavoces y auriculares de consumo. La compra y evaluación de las piezas disponibles nos obligó a empezar a construir los elementos básicos del subsistema de audio: amplificadores, chips de audio, DSP (procesamiento de señales digitales) y micrófonos. En paralelo, nos acercábamos a la definición de nuestros objetivos de producción con una distancia óptima del oído, rotación, peso, dimensiones de los altavoces y respuesta de frecuencia.

El primer par de Hummingbirds con controladores BMR de Tectonic

Nos encontramos con altavoces BMR (Balance Mode Radiator) durante nuestra etapa de evaluación de controladores e inmediatamente nos dimos cuenta de varios beneficios positivos: Redujeron la coloración debido a la mala posición del altavoz, estaban casi dentro del rango de nuestro objetivo de peso, tenían una gran respuesta de frecuencia en rangos medios-altos (importante para las simulaciones binaurales) y eran mucho más delgados que los transductores de altavoces tradicionales. Empezamos a trabajar con Tectonic para diseñar un controlador personalizado para su uso como altavoz fuera de la oreja.

Internamente, aumentaba la preocupación por la cantidad de sonido que los altavoces dejarían pasar hacia el entorno, así como la cantidad de sonido que podrían dejar entrar. Para hacernos una idea del efecto que esto podría tener en los clientes, construimos más de 20 Hummingbirds y los prestamos para que los colegas los probaran en casa. Nadie quería devolver sus Hummingbirds (Chet). Fue una buena señal, además con los comentarios abrumadoramente positivos de las pruebas de juego. Los probadores de juego comentaron que las ventajas de no tener nada en contacto con el oído y el aumento de la sensación de inmersión del sonido compensaban los problemas causados por la entrada de sonido externo o la fuga de sonido interno. Decidimos proceder con este diseño pero teniendo en cuenta estos aspectos.

Mr. HATS

El producto

Ahora teníamos un subsistema de altavoces que funcionaba a pleno rendimiento y que se ajustaba a nuestros objetivos de fidelidad, coste y diseño. Comenzamos el proceso de fusionar el diseño de los altavoces con los auriculares de Valve Index. Aquí se hizo importante empezar a medir acústicamente el rendimiento de nuestro subsistema de audio en el contexto de los auriculares. La toma de mediciones precisas nos permitió capturar mejoras incrementales, así como identificar problemas en el subsistema de audio. Inicialmente usamos "Mr. HATS", nuestro modelo de cabeza de muñeco para tomar medidas de respuesta de frecuencia de nuestros auriculares. La cinta azul del rostro marca la ubicación exacta del visor en el modelo, por lo que las primeras mediciones podrían ser coherentes.

Gráfico de respuesta de frecuencia de los controladores BMR de Index en una cámara anecoica

Para aumentar al máximo la calidad del sonido, medimos y ajustamos la respuesta de frecuencia y la extensión de graves a diario. Mientras que en Valve trabajábamos para mejorar la extensión de los graves a través de DSP por medio de la sintonización de ecualizador y algoritmos como los graves psicoacústicos, Tectonic trabajaba para mejorar los graves de forma mecánica mediante la optimización del controlador del altavoz en sí mismo. La combinación de estos esfuerzos nos permitió alcanzar y superar nuestros objetivos de calidad de sonido y respuesta de graves.

El gráfico de respuesta polar y el mapa de nivel de presión sonora del controlador BMR de Valve muestran la coherencia de la calidad de sonido en una amplia gama de ubicaciones de los transductores de altavoces.

Mediante el uso de transductores BMR, podemos asegurar una calidad de sonido coherente, sin coloración, incluso si los altavoces están ligeramente mal colocados en el lateral de la cabeza. Esto se debe a la forma única en que los BMR irradian el sonido. En las frecuencias bajas se comportan como los altavoces tradicionales. La señal eléctrica entra, y todo el diafragma (parte delantera del altavoz) se mueve hacia adelante y hacia atrás siguiendo la forma de la señal. Sin embargo, la auténtica magia se produce en las frecuencias más altas. Cuando la longitud de las ondas fluctuantes de sonido que pasan por el diafragma es similar al tamaño del diafragma (>3kHz), los transductores tradicionales empiezan a pasar al modo de «ruptura», lo que provoca que el diafragma se doble y ondule, creando picos muy agudos y caídas en la respuesta de frecuencia que, además de sonar mal, son muy sensibles a la colocación. Los BMR están diseñados cuidadosamente para sacar partido del funcionamiento natural del diafragma, buscando un equilibrio de las vibraciones desde distintas áreas a través de una selección óptima de materiales, carga de masa y una simulación de diseño extensiva. Todo ello, básicamente, para garantizar que tus oídos reciban siempre toda la información sonora, aunque no estén perfectamente alineados con los altavoces BMR.

Reducción mecánica de las fugas de sonido

Además, Tectonic también fue capaz de minimizar mecánicamente las fugas de sonido. Debido a que la unidad de control del altavoz de Valve Index tiene la parte posterior abierta, la presión de la parte delantera puede interaccionar con la presión de la parte trasera, y ambas partes están desfasadas entre sí por definición. Sin embargo, la propia unidad de control proporciona un cierto grado de «amortiguación automática» a través de su diámetro total. En esencia, el diámetro exterior de cualquier unidad de control de altavoces ayuda a evitar que la presión de la parte delantera antagonice con la presión de la parte trasera. No obstante, esto solo es útil cuando la longitud de onda de las ondas sonoras en el aire es inferior al amortiguador automático del diámetro del controlador. Cuando la longitud de onda es mayor que el diámetro del controlador, la presión de la parte delantera interacciona directamente con la presión de la parte trasera y se produce una fuerte cancelación. El diámetro total de la unidad de control es de unos 5 cm. Esto significa que por encima de unos 3 kHz no existe cancelación, pero nos consta que hay cada vez menos contenido de audio por encima de esta frecuencia. La mayoría del contenido de audio se da por debajo de los 3 kHz, y aquí es donde la cancelación es intensa, lo que evita que el sonido moleste a las personas cercanas. «El oyente que lleva los auriculares tiene los oídos tan cerca de la unidad de control (campo cercano) que la cancelación no se percibe, ya que la presión de la parte delantera está relativamente mucho más cerca de la oreja que de la parte trasera». Tim Whitwell, director técnico en Tectonic.

El micrófono

Nuestro objetivo de crear micrófonos de alta calidad para el visor que admitiesen retransmisiones y experiencias multijugador fue fácil de definir. Sin embargo, debido al diseño de los altavoces del visor fuera de la oreja, contábamos con que el rendimiento del micrófono fuera un reto difícil. Para nuestra sorpresa, resultó no ser el caso. Debido a varias de las características únicas del altavoz de oído, pudimos evitar el uso de una cantidad significativa de procesamiento digital de señal o DSP para la cancelación de ruido en la señal del micrófono, lo que a su vez nos permitió mantener la frecuencia de muestreo del flujo del micrófono muy alta, a 48 kHz. Esta es una lista de características que ayudaron a crear una entrada de micrófono de alta calidad:

  • Matriz de micrófono doble para reducir la respuesta direccional y centrarse en la señal (la boca del usuario) y eliminar otros ruidos extraños. El conjunto de micrófonos de doble dirección enfoca la captación en la boca del usuario y excluye cualquier sonido externo.
  • La «amortiguación automática» de los controladores BMR reduce la contaminación acústica externa mucho más que los altavoces tradicionales.
  • La acústica de los altavoces y micrófonos se diseñó para reducir en gran medida las trayectorias de retroalimentación acústica no lineal. La propia cabeza del jugador absorbe gran parte de la energía sonora inicial de los altavoces BMR.
  • Micrófonos y canales de audio de alta calidad SNR.
  • Micrófonos y sellos acústicos de buena calidad.
  • Compresión dinámica del audio entrante para evitar los cortes en voces altas.

Reflexiones finales

Toda esta investigación, iteración y comentarios nos llevaron a creer que el diseño de los auriculares del visor de Valve Index está tan cerca del equilibrio óptimo entre las ventajas y desventajas, y las características específicamente diseñadas para la reproducción de audio en la RV a escala de la habitación, como puede ser posible en la actualidad. Estamos muy satisfechos con la forma en que se desarrolló la experiencia de audio y, dicho esto, aún queda mucho por aprender y más mejoras que implementar.

Si te apasiona el audio y te gustaría trabajar con nosotros para resolver este tipo de problemas, por favor, explora los distintos dominios relacionados con el audio o escríbenos por correo electrónico a jobs@valvesoftware.com

Valve Index®

Los dispositivos se venden por separado o como kit completo en la tienda de Steam.