1. INTRODUCCIÓN Y ANTECEDENTES
⌅El presente estudio se enmarca en el ámbito de las ciencias del habla con aplicaciones forenses y persigue dos finalidades. De una parte, profundiza en el estudio de la voz disimulada con falsete para detallar los parámetros acústicos y sus correlatos articulatorios que lo diferencian del modo habitual de fonación conocido como modal voice (en adelante, modal o habitual, indistintamente). De otra parte, busca probar que es posible reducir a un número limitado de parámetros, independientes e interpretables, el análisis de la cualidad de la voz para que su estudio pudiera aplicarse en un peritaje.
La elección
de los parámetros que se considerarán en una comparación forense de
hablantes está sujeta a las características de las muestras dubitadas e
indubitadas disponibles en términos de cantidad, calidad y
comparabilidad (cf., entre otros, Gil Fernández et al., 2017Gil
Fernández, J., Fernández Trinidad, M., Infante, P. y Lahoz-Bengoechea,
J. M. (2017). “Obtaining speech samples for research and expertise in
forensic phonetics”. En: Orletti, F. y Mariottini, L. (Eds.) Theories, Practices, Instruments of Forensic Linguistics (pp. 27-50). Cambridge Scholars Publishing.
, y Rose, 2002Rose, P. (2002). Forensic Speaker Identification. London: Taylor y Francis.
). De acuerdo con Nolan (1983)Nolan, F. (1983). The Phonetic Bases of Speaker Recognition. Cambridge University Press.
, Rose (2002)Rose, P. (2002). Forensic Speaker Identification. London: Taylor y Francis.
y Wolf (1972)Wolf, J. (1972). Efficient acoustic parameters for speaker recognition. The Journal of the Acoustical Society of America, 51(6B), 2044-2056. http://dx.doi.org/10.1121/1.1913065
, los parámetros elegidos deberían cumplir los siguientes requisitos:
-
Alta frecuencia de aparición en la muestra.
-
Fácil extracción, medición e interpretación.
-
Independientes.
-
Poca variación dentro del mismo sujeto (variabilidad intralocutor baja) y mayor variación entre sujetos distintos (variabilidad interlocutor alta).
-
Resistentes a la transformación o al disimulo.
El parámetro fonético ineludible, a pesar de que no suele ser en sí mismo concluyente, es la f 0. Su valor medio, junto con los valores de dispersión y distribución a ella asociados (mínimo, máximo, desviación típica, etc.) se analizan y comparan de forma sistemática en un cotejo de voces. Es evidente que, ante una sospecha de disimulo mediante el aumento drástico de la f 0 estos valores resultarán difícilmente comparables y, por tanto, de escasa utilidad para el cotejo. Es así como se vuelve todavía más necesario profundizar en el estudio de otros parámetros laríngeos responsables de la cualidad de voz que cumplan, además, con el mayor número de requisitos recomendados en fonética judicial.
El
estudio de la voz en falsete es relevante en el contexto judicial
porque, al suponer una distorsión considerable con respecto a la voz
habitual de una persona, resulta eficaz para enmascararla con propósitos
delictivos. El disimulo puede afectar tanto a las muestras dubitadas de
grabaciones que se obtienen de la comisión de un delito, como a las
indubitadas recogidas de los sospechosos en sedes judiciales o
policiales. Se ha comprobado su uso en casos de secuestros, extorsiones y
amenazas (cf. por ejemplo, Zhang y Tan, 2008Zhang, C. y Tan, T. (2008). Voice disguise and automatic speaker recognition. Forensic Science International, 175(2), 118-122. http://dx.doi.org/10.1016/j.forsciint.2007.05.019
). Asimismo, en el momento de recoger muestras de
voces indubitadas los sospechosos podrían intentar alterar o disimular
su forma de hablar aumentando su tono habitual de voz1En la nota periodística “La voz, prueba contra el crimen machista” publicada por El País (06/11/15), expertos de la policía científica explicaban: “A la hora de
tomar una muestra de voz de un acusado, los guardias civiles y policías
se enfrentan a todo tipo de estratagemas, desde las más obvias [negarse
a hacerlo, lo que también puede resultar indicativo para el juez] a las
más retorcidas simulaciones y enmascaramientos del acento o la forma de
hablar.” https://elpais.com/tecnologia/2015/11/04/actualidad/1446663289_487919.html . En el momento de cometer el delito,
especialmente si este es premeditado, podrían preferirse los
procedimientos tecnológicos de transformación de la voz. Actualmente, es
posible acceder de forma sencilla a variadas tecnologías y aplicaciones
que cambian el tono de la voz, le añaden efectos y distorsiones, imitan
otras voces, etc. Sin embargo, durante las declaraciones que servirán
para el análisis de las muestras de voces indubitadas, el acusado
solamente podría recurrir a algún procedimiento humano (no electrónico)
de disimulo del habla, siguiendo la división propuesta por Rodman (1998)Rodman, R. (1998). Speaker recognition of disguised voices: A program for research. Proceedings
of the Consortium on Speech Technology in Conjunction with the
Conference on Speaker Recognition by Man and Machine: Directions for
Forensic Applications (pp. 1-22). Ankara, Turkey: COST250 Publishing Arm.
.
Varios estudios (Figueiredo y de Souza Britto, 1996Figueiredo, R. y de Souza Britto, H. (1996). A report on the acoustic effects of one type of disguise. Forensic Linguistics, 3, 168-175. http://dx.doi.org/10.1558/ijsll.v3i1.168
; Künzel, 2000Künzel, H. (2000). Effects of voice disguise on speaking fundamental frequency. Forensic Linguistics, 7, 149-179.
; Masthoff, 1996Masthoff, H. (1996). A report on a voice disguise experiment. Forensic Linguistics, 3(1), 160-167. http://dx.doi.org/10.1558/ijsll.v3i1.160
; Perrot y Chollet, 2008Perrot, P. y Chollet, G. (2008). The question of disguised voice. The Journal of the Acoustical Society of America, 123(5), 3878. http://dx.doi.org/10.1121/1.2935782
; Praveena y Krishna, 2015Praveena,
J. y Krishna, Y. (2015). Identifying speaker from disguised speech
using aural perception and Mel-frequency cepstral coefficient. Journal of Indian Speech Language & Hearing Association, 29(2), 28-34. http://dx.doi.org/10.4103/0974-2131.185974
) apuntan a que las alteraciones de la cualidad de
voz derivadas de ajustes laríngeos exclusivamente, como es el caso de
la voz de falsete o del susurro (whisper), son formas bastante
frecuentes de disimulo. Las razones principales radican en que con este
tipo de alteraciones resulta fácil producir y mantener una voz
impostada; asimismo, no interfieren con la transmisión del contenido del
mensaje, y son eficaces porque logran enmascarar la voz original del
hablante, consiguiendo despistar a los expertos del ámbito forense y a
los sistemas automáticos de reconocimiento de locutores (Perrot, Aversano y Chollet, 2007Perrot,
P., Aversano, G. y Chollet, G. (2007). Voice disguise and automatic
detection: review and perspectives. En Y. Stylianou, M. Faundez-Zanuy y
A. Esposito (Eds.), Progress in Nonlinear Speech Processing (pp. 101-117). Berlin: Springer.
; Perrot, et al. 2007Perrot, P., Preteux, C., Vasseur, S. y Chollet, G. (2007). Detection and recognition of voice disguise. Proceedings IAFPA 2007 (pp. 1-3). Plymouth, UK: The College of St Mark y St John.
; Perrot y Chollet, 2008Perrot, P. y Chollet, G. (2008). The question of disguised voice. The Journal of the Acoustical Society of America, 123(5), 3878. http://dx.doi.org/10.1121/1.2935782
; Künzel, González-Rodríguez y Ortega-García, 2004Künzel,
H., González-Rodríguez, J. y Ortega-García, J. (2004). Effect of voice
disguise on the performance of a forensic automatic speaker recognition
system. En Proceedings of Odyssey 04. The Speaker and Language Recognition Workshop. (pp. 1-4).
; Zhang y Tan, 2008Zhang, C. y Tan, T. (2008). Voice disguise and automatic speaker recognition. Forensic Science International, 175(2), 118-122. http://dx.doi.org/10.1016/j.forsciint.2007.05.019
).
Además de que el falsete ha interesado mayormente como registro de la voz cantada y no hablada, muchos de los parámetros fonéticos que hasta ahora se han medido con técnicas invasivas no son factibles en el contexto forense, donde solo podemos apoyarnos en el análisis acústico y perceptivo. En ese sentido, siguen faltando estudios que corroboren de una manera fehaciente las correlaciones entre las características acústicas y las bases fisiológicas de la voz de falsete como mecanismo de disimulo del habla.
2. OBJETIVOS Y MÉTODO
⌅2.1. Objetivos
⌅El trabajo persigue dos objetivos, como se ha adelantado en la introducción:
-
Profundizar en los rasgos acústicos que caracterizan la fonación disimulada en falsete (en contraste con la voz habitual) y en sus correlatos o bases fisiológicas.
-
Poner a prueba el estudio multiparamétrico de la fonación mediante un procedimiento que, en caso de que se cumpla el requisito de cantidad de las muestras (Rose, 2002Rose, P. (2002). Forensic Speaker Identification. London: Taylor y Francis.
), pudiera aplicarse en un peritaje del ámbito forense para analizar la cualidad de la voz derivada de ajustes laríngeos a largo plazo.
En
cuanto al estudio acústico de los rasgos laríngeos de la voz, interesa
aislar, por un lado, los parámetros caracterizadores del habla en
falsete y, por otro, aquellos que podrían llegar a ser
individualizadores de las voces. La idea que sustenta este planteamiento
es la existencia de rasgos laríngeos idiosincrásicos de los hablantes
que son muy difíciles o imposibles de alterar mediante procedimientos
humanos de disimulo vocal (cf. Alves et al., 2012Alves,
H., Fernández Trinidad, M., Gil Fernández, J., Infante, P.,
Lahoz-Bengoechea, J. M., Pérez Sanz, C. y San Segundo, E. (2012).
Disguised voices: A perceptual experiment. 3rd European Conference of the International Association of Forensic Linguistic
, 2014Alves,
H., Gil Fernández, J., Pérez Sanz, C. y San Segundo, E. (2014). La
cualidad individual de la voz y la identificación del locutor: el
proyecto CIVIL. En Y. Congosto, M. L. Montero Curiel, y A. Salvador
Plans (Eds.), Fonética experimental, educación superior e investigación (Vol. 1, pp. 591-612). Madrid: Arco/Libros.
; Fernández Trinidad y Rojo, 2019Fernández Trinidad, M. y Rojo, J. (2019). Perceptual cues for individual voice quality. En J. Gil Fernández y M. Gibson (Eds.), Romance Phonetics and Phonology (pp. 161-176). Oxford University Press.
).
De una parte, esperamos poder distinguir un cierto número de rasgos
que, por ser intrínsecos al cambio de voz hacia el falsete, haya tenido
que modificar cualquier locutor que disimule su voz y, de otra parte,
otros rasgos que no se hayan visto alterados. Los primeros permitirían
caracterizar el habla en falsete, mientras que los segundos podrían
contribuir a la caracterización de las distintas voces y, por extensión,
también de los individuos.
El segundo objetivo de este trabajo es analizar el comportamiento laríngeo mediante un procedimiento factible de ponerse en práctica en fonética judicial. En este sentido, tal procedimiento debería cumplir los siguientes requisitos:
-
Que las voces se puedan medir y analizar mediante una técnica sencilla y no invasiva. En el contexto forense, solo podrá ser a partir de la señal acústica.
-
Que los parámetros acústicos que permiten describir las voces sean independientes, interpretables y explicables en términos acústicos y fisiológicos.
2.2. Protocolo de grabación
⌅El corpus utilizado fue recogido en el contexto de un estudio más amplio (cf. Fernández Trinidad, 2018Fernández Trinidad, M. (2018). Caracterización del falsetto y sus consecuencias para la discriminación de voces. [Tesis doctoral inédita]. Universidad Nacional de Educación a Distancia.
).
Participaron 6 locutores masculinos italianos de Nápoles, con estudios
universitarios concluidos y edades comprendidas entre los 29 y 34 años
(M= 31.67). Antes de las grabaciones, los informantes completaron sus
datos personales y declararon no tener patologías vocales. Fueron
debidamente instruidos acerca de los objetivos del estudio, así como del
procedimiento experimental, y firmaron un consentimiento informado. Las
sesiones de grabación se realizaron en la cámara insonorizada del
Laboratorio de Fonética del Consejo Superior de Investigaciones
Científicas (CSIC) de Madrid. Se utilizó un micrófono de condensador
omnidireccional Earset AE E6i (Contryman), una interfaz de audio
AEUA-25EX (Ronald) y el software Adobe Audition (Microsoft). La
frecuencia de muestreo fue de 44100 Hz, con una resolución de 16 bits. A
los participantes se les pidió que grabaran una misma frase de 11
sílabas, primero con su voz habitual y, luego, con una voz simulada en
falsete. La razón principal que justifica la elección fue conseguir
frases idénticas en su composición segmental para centrar el estudio
acústico (y otro perceptivo reportado en Fernández Trinidad y Rojo, 2019Fernández Trinidad, M. y Rojo, J. (2019). Perceptual cues for individual voice quality. En J. Gil Fernández y M. Gibson (Eds.), Romance Phonetics and Phonology (pp. 161-176). Oxford University Press.
)
en la cualidad de la voz derivada de ajustes laríngeos a largo plazo.
De otra parte, en la práctica forense se recomienda obtener del imputado
muestras indubitadas de su habla espontánea (en caso de que este tenga
una actitud colaborativa) y también de la lectura de frases o textos
(cf. por ejemplo, Gil, Alves y Hierro, 2012Gil, J. Alves, H. y Hierro, J. A. (2012). Proposition raisonnée de protocole de capture de voix connue à des fins judiciaires. Revue Internationale de Criminalistique et de Police Scientifique et Technique, LXV, 319-345.
y Gil Fernández et al., 2017Gil
Fernández, J., Fernández Trinidad, M., Infante, P. y Lahoz-Bengoechea,
J. M. (2017). “Obtaining speech samples for research and expertise in
forensic phonetics”. En: Orletti, F. y Mariottini, L. (Eds.) Theories, Practices, Instruments of Forensic Linguistics (pp. 27-50). Cambridge Scholars Publishing.
).
Se buscó que el enunciado estuviera formado por sílabas con la
estructura CV, donde C fuera sonora y no nasal, y V fuera una [a]
tónica. Esta decisión metodológica es habitual entre los estudios que
analizan los parámetros laríngeos responsables de la cualidad de la voz.
Por ejemplo, Palacios (2018)Palacios, D. (2018). Contribución al estudio de selección de parámetros para identificación de estrés en la voz. [Tesis doctoral inédita]. Universidad Politécnica de Madrid.
2“Esta
interacción [entre la fuente y el filtro] se basa en la reverberación
de la onda por su paso por los pliegues vocales hasta llegar a la zona
de radiación [los labios]. Las vocales cerradas como son la /i/ y la
/u/, además de algunas consonantes nasales, ofrecen una mayor alteración
en el patrón de fonación de la fuente glótica.” (Palacios, 2018, p. 64). También Gobl y Ní Chasaide (2010, p. 380). explica que conviene descartar vocales altas y cerradas o excesivamente
nasalizadas y escoger la [a] o la [e] porque aseguran una mejor
reconstrucción de la fuente glótica a partir de la señal acústica.
Se consiguió para cada locutor un total de 60 repeticiones válidas de la misma frase, 30 para cada registro fonatorio.
2.3. Extracción de parámetros laríngeos
⌅De las frases grabadas se segmentaron con Praat 30 vocales [a] tónicas por registro de fonación (15 en voz modal y 15
en voz de falsete) para cada uno de los 6 locutores, consiguiéndose así
un total de 180 muestras para su posterior análisis. Se calculó el valor
medio de los parámetros laríngeos de forma automática utilizando el
programa Biomet®Phon [versión 2.3] de BiometroSoft®. Este programa
reconstruye la onda glotal a partir de la señal acústica mediante un
filtrado inverso que resta la función de transferencia ejercida por el
tracto vocal y el efecto de la radiación labial. A partir de ello,
estima el valor de 72 parámetros relativos al comportamiento laríngeo.
Los parámetros referidos a la fuente glótica extraídos se reproducen en
la Tabla 1 a partir de BioMetroSoft® (2014)BioMetroSoft®. (2014). BioMet®Phon: Tool for de Evaluation of Voice Quality and Biometri. User’s Manual [versión 2.3].
. Puede consultarse una descripción de los rasgos glotales en Gómez-Vilda et al. (2013)Gómez-Vilda,
P.; Rodellar Biarge, M. V.; Nieto Lluis, V.; Martínez Olalla, R.;
Álvarez Marquina, A.; Scola Yurrita, B.; Ramírez Calvo, C.; Poletti
Serafini, D. y Fernández Fernández, M. (2013). BioMet®Phon: A system to
monitor phonation quality in the clinics. En eTELEMED 2013: The Fifth International Conference on eHealth, Telemedicine, and Social Medicine (pp. 253-258), Nice, France. ISBN 978-1-61208-252-3.
, Palacios (2018)Palacios, D. (2018). Contribución al estudio de selección de parámetros para identificación de estrés en la voz. [Tesis doctoral inédita]. Universidad Politécnica de Madrid.
, Palacios et al. (2020)Palacios,
D., Rodellar, V., Lázaro, C., Gómez, A. y Gómez, P. (2020). An
ICA-based method for stress classification from voice samples. Neural Computing and Applications, 32(24), 17887-17897. http://dx.doi.org/10.1007/s00521-019-04549-3
, Rodellar-Biarge et al. (2015)Rodellar-Biarge,
V., Palacios-Alonso, D., Nieto-Lluis, V. y Gómez-Vilda, P. (2015).
Towards the search of detection in speech-relevant features for stress. Expert Systems, 32(6), 710-718. http://dx.doi.org/10.1111/exsy.12109
. Según se explica en estos mismos estudios, los
parámetros laríngeos que están relacionados entre sí forman distintos
grupos: a) f 0 y perturbaciones asociadas a ella, b) cepstrales, c)
perfil espectral, d) parámetros biomecánicos de los pliegues vocales, e)
parámetros de la onda glótica de base temporal, f) parámetros de
defecto de cierre glótico, y g) temblor.
Parámetros |
---|
Absolute Pitch |
Absolute Normal Jitter |
Absolute Normal Area Shimmer |
Absolute Normal Minimum Sharpness |
Noise-HarmonicRatio, NHR |
Muc. /AvAc. Energy, MAE |
MWC Cepstral 1 |
MWC Cepstral 2 |
MWC Cepstral 3 |
MWC Cepstral 4 |
MWC Cepstral 5 |
MWC Cepstral 6 |
MWC Cepstral 7 |
MWC Cepstral 8 |
MWC Cepstral 9 |
MWC Cepstral 10 |
MWC Cepstral 11 |
MWC Cepstral 12 |
MWC Cepstral 13 |
MWC Cepstral 14 |
MW PSD 1st Max. ABS. |
MW PSD 1st Min. rel. |
MW PSD 2nd Max. rel. |
MW PSD 2nd Min. rel. |
MW PSD 3rd Max. rel. |
MW PSD End Val. rel. |
MW PSD 1st Max. Pos. ABS. |
MW PSD 1st Min. Pos. rel. |
MW PSD 2nd Max. Pos. rel. |
MW PSD 2nd Min. Pos. rel. |
MW PSD 3rd Max. Pos. rel. |
MW PSD End Val. Pos. rel. |
MW PSD 1st Min NSF |
MW PSD 2nd Min NSF |
Body Mass |
Body Losses |
Body Stiffness |
Body Mass Unbalance |
Body Losses Unbalance |
BodyStiffnessUnbalance |
Cover Mass |
Cover Losses |
Cover Stiffness |
Cover Mass Unbalance |
Cover Losses Unbalance |
Cover Stiffness Unbalance |
Rel. Recovery 1 Time |
Rel. Recovery 2 Time |
Rel. Open 1 Time |
Rel. Open 2 Time |
Rel. Max. Amplitude Time |
Rel. Recov. 1 Ampl. |
Rel. Recov. 2 Ampl. |
Rel. Open 1 Ampl. |
Rel. Open 2 Ampl. |
Rel. Stop Flow Time |
Rel. Start Flow Time |
Rel. Closing Time |
Val. Flow GAP |
Val. Contact GAP |
Val. Adduction GAP |
Val. Permanent GAP |
1st. Order Cyclic Coefficient |
2nd. Order Cyclic Coefficient |
3rd. Order Cyclic Coefficient |
Physiological Tremor Freq. |
Physiological Tremor Ampl. |
Neurological Tremor Freq. |
Neurological Tremor Ampl. |
Fluttering Tremor Freq. |
Fluttering Tremor Ampl. |
Tremor amplitude (rMSA) |
3. RESULTADOS DEL ANÁLISIS CONVENCIONAL
⌅3.1. Comportamiento de la f0
⌅Comenzamos presentando los resultados del comportamiento de la f 0 en el cambio de voz hacia el falsete por ser, en este tipo de modificación voluntaria de la voz, el cambio más drástico desde un punto de vista perceptivo y acústico, y por tratarse del parámetro más utilizado en las comparaciones forenses de hablantes, como se ha explicado en §1. Las Tablas 2 y 3 ofrecen los valores máximos, mínimos y medios de la f 0 alcanzados en voz modal y falsete por cada locutor y también el promedio general obtenido en los 6 locutores. La Tabla 4 resume las diferencias alcanzadas en los valores de f 0 entre falsete y voz habitual para cada locutor y el promedio global obtenido de los 6 locutores analizados.
Modal | |||||||
---|---|---|---|---|---|---|---|
L1 | L2 | L3 | L4 | L5 | L6 | Promedio | |
Máx. | 150.1 | 119.1 | 120.4 | 117.2 | 162.2 | 153.5 | 137.1 |
Media | 129.7 | 110.1 | 103.5 | 110.4 | 121.8 | 124.1 | 116.6 |
SD | 12.9 | 8.3 | 9.6 | 6.0 | 23.4 | 15.9 | 12.7 |
Mín. | 113.8 | 96.3 | 90.2 | 100.6 | 94.4 | 108.6 | 100.7 |
Falsete | |||||||
---|---|---|---|---|---|---|---|
L1 | L2 | L3 | L4 | L5 | L6 | Promedio | |
Máx. | 355.9 | 374.3 | 326.9 | 433.7 | 441.4 | 519.7 | 408.6 |
Media | 306.4 | 302.8 | 284.1 | 378.3 | 366.3 | 336.4 | 329.0 |
SD | 49.4 | 63.7 | 42.2 | 30.1 | 52.4 | 123.2 | 60.2 |
Mín. | 145.7 | 172.4 | 153.0 | 319.1 | 281.7 | 218.6 | 216.1 |
Falsete - Modal | |||||||
---|---|---|---|---|---|---|---|
L1 | L2 | L3 | L4 | L5 | L6 | Promedio | |
Hercios | 176.6 | 192.6 | 180.6 | 267.8 | 244.5 | 212.2 | 212.4 |
Octavas | 1.24 | 1.46 | 1.46 | 1.78 | 1.59 | 1.44 | 1.50 |
Cents | 1488 | 1751 | 1748 | 2132 | 1906 | 1726 | 1792 |
Los
valores máximos promedio fueron de 137.1 Hz (modal) y 408.6 Hz
(falsete), mientras que los mínimos registrados fueron 100 Hz (modal) y
216 Hz (falsete). La f 0 media observada se ubicó en torno a los 116 Hz (modal) y
329 Hz (falsete), mientras que la desviación típica promedio fue de 12.7
y 60,2 Hz para la voz modal y en falsete, respectivamente. Por tanto,
se pudo comprobar que, cuando modifican su voz hacia el falsete, los
locutores analizados aumentan su f 0 de promedio 1,5 octavas (212.4 Hz) respecto de su tono de
voz habitual y que la desviación típica media es mayor en la voz fingida
que en la habitual. La mayor variabilidad en el habla fingida se ha
comprobado con otros tipos de disimulo, como era de prever (cf. por
ejemplo, Alves et al. 2012Alves,
H., Fernández Trinidad, M., Gil Fernández, J., Infante, P.,
Lahoz-Bengoechea, J. M., Pérez Sanz, C. y San Segundo, E. (2012).
Disguised voices: A perceptual experiment. 3rd European Conference of the International Association of Forensic Linguistic
; Lahoz-Bengoechea, Villa y Gil Fernández, 2017Lahoz-Bengoechea, J. M., Villa Villa, J. y Gil Fernández, J. (2017). Fillers in disguised accented speech. 13th Biennial Conference of the International Association of Forensic Linguists.
, entre muchos otros que podrían mencionarse).
3.2. Comportamiento de los 72 rasgos glotales
⌅La Tabla 5 recoge los rasgos laríngeos que fueron modificados por cada locutor al cambiar de voz habitual a falsete y la Tabla 6 la proporción media de parámetros glotales alterados en el cambio de voz, según los resultados de un test t (corrección Bonferroni). En ambas tablas los rasgos se organizan por grupos de parámetros (§2.3) y en la Tabla 6 aparecen ordenados de mayor a menor variación.
total | L1 | L2 | L3 | L4 | L5 | L6 | |
---|---|---|---|---|---|---|---|
A | 6 | 3 | 4 | 3 | 4 | 6 | 3 |
B | 14 | 13 | 12 | 10 | 14 | 14 | 14 |
C | 14 | 9 | 8 | 11 | 12 | 11 | 6 |
D | 12 | 12 | 7 | 7 | 12 | 10 | 6 |
E | 12 | 9 | 4 | 8 | 12 | 11 | 3 |
F | 4 | 1 | 2 | 2 | 3 | 2 | 2 |
G | 10 | 5 | 1 | 5 | 4 | 4 | 1 |
total | 72 | 52 | 38 | 46 | 61 | 58 | 35 |
Parámetros | Proporción | SD | SE |
---|---|---|---|
B | 0.92 | 0.11 | 0.05 |
D | 0.75 | 0.22 | 0.09 |
C | 0.68 | 0.16 | 0.07 |
E | 0.65 | 0.30 | 0.12 |
A | 0.64 | 0.19 | 0.08 |
F | 0.50 | 0.16 | 0.06 |
G | 0.33 | 0.19 | 0.08 |
Con una proporción media superior a 0.9, los parámetros cepstrales (grupo B) son los que resultan más afectados cuando un sujeto cambia de su voz habitual al falsete. A estos les siguen los rasgos responsables de reflejar la biomecánica de las cuerdas vocales (grupo D) con una proporción media de 0.75. A continuación, encontramos los parámetros que informan sobre el perfil espectral de las voces (grupo C), los que dan cuenta de la base temporal de la onda glótica (grupo E) y los parámetros relacionados con la perturbación de la f 0 (grupo A), con valores medios de 0.68, 0.65 y 0.64, respectivamente. Los grupos que presentan la menor variación recogen información sobre el defecto de cierre glótico (grupo F), de los que varía la mitad de los parámetros (0.5), y, finalmente, los parámetros responsables del temblor (grupo G), de los cuales varía solo un tercio (0.33).
Los resultados hasta aquí comentados ya permiten una caracterización a nivel glotal el cambio de voz hacia el falsete. Sin embargo, considerando que en este tipo de análisis se maneja un número muy elevado de parámetros y que muchos de ellos están correlacionados entre sí, decidimos realizar un Análisis por Componentes Principales (o CPA por sus siglas en inglés).
4. PROPUESTA DE ANÁLISIS POR COMPONENTES PRINCIPALES
⌅4.1. Comportamiento de los CPs
⌅El
elevado número de rasgos glotales sumado al alto nivel de redundancia
informativa como consecuencia de la interdependencia de los parámetros
dentro de cada grupo dificultan tanto el análisis como la interpretación
de los datos. Recuérdese, además, que en las comparaciones forenses de
voces se desaconseja expresamente utilizar parámetros interdependientes
(cf. §1). Para solventar las dificultades señaladas de cara a abordar el
análisis de la cualidad de la voz en un contexto forense proponemos
llevar a cabo un análisis factorial por Componentes Principales (en
adelante, CPs). Este tipo de análisis es apropiado porque consigue, al
mismo tiempo, reducir la dimensionalidad de conjuntos complejos de datos
cuya distribución aún no se conoce, y hacerlos más fácilmente
interpretables (cf. Jolliffe, 1986Jolliffe, I. (1986). Principal component analysis and factor analysis. En Principal Component Analysis (pp. 115-128). New York: Springer.
, Godino, Gómez-Vilda y Blanco, 2006Godino,
J., Gómez-Vilda, P. y Blanco, M. (2006). Dimensionality reduction of a
pathological voice quality assessment system based on Gaussian mixture
models and short-term cepstral parameters. IEEE Transactions on Biomedical Engineering, 53(10), 1943-1953.
).
Apoyándonos en los resultados obtenidos del análisis efectuado por grupos de parámetros (§3.2), simplificamos el número original de rasgos para el análisis factorial por CPs. Al prescindir de los parámetros cepstrales (grupo B), los de perfil espectral (grupo C) y los relativos al temblor (grupo G), el número de variables originales se reduce de 72 a 32. La exclusión se fundamenta en los resultados del análisis previo. Se prescinde de los parámetros de temblor (grupo G) por no ser pertinentes para el análisis que nos ocupa. A fin de facilitar la interpretación también se excluyen del análisis factorial los parámetros que no tienen un valor claro hasta el momento (cepstrales, grupo B) o que no tienen un significado sólido o fiable cuando se da un cambio de fonación hacia la voz de falsete, como ocurre con los parámetros de perfil espectral (grupo C) 3La información ofrecida por el espectro armónico en el falsete es difícil de tratar porque la reconstrucción de la envolvente espectral requiere de un alto nivel de interpolación o inferencia entre los datos muestrales..
El análisis CPA genera, a partir de
operaciones matemáticas, nuevas variables o CPs que, al comienzo,
coinciden exactamente con el número de variables originales, en nuestro
caso, los 32 parámetros laríngeos. Luego, y puesto que no todos los
parámetros tienen la misma relevancia explicativa, se conservan, por
convención, los que son capaces de explicar al menos un 5 % de la
varianza total de los datos (cf. Baayen, 2008Baayen, R. (2008). Analyzing Linguistic Data: A Practical Introduction to Statistics. Cambridge: Cambridge University Press.
).
Una vez aplicado el criterio umbral del 5 % para seleccionar los
parámetros o componentes con mayor poder explicativo, las 32 variables
originales quedaron agrupadas en 4 CPs que juntos explican el 81,75 % de
la distribución total de los datos. Recuérdese que entre los CPs no
existen nunca solapamientos explicativos puesto que son independientes.
Por tanto, y como se observa en la Tabla 7,
el CP1 explica el 27.30 % de la varianza de los datos, el CP2 explica
un 21,63 % adicional, el CP3 añade un 17,83 % y el CP4 añade un 14,98 %
hasta alcanzar el 81,75 % de varianza explicada. En la Tabla 8 se ofrece la distribución de los 32 rasgos laríngeos en los 4 CPs y el
grado de correlación (positiva o negativa) entre cada rasgo original y
el CP que lo agrupa.
CPs | % varianza | % acumulado |
---|---|---|
1 | 27.307 | 27.307 |
2 | 21.631 | 48.937 |
3 | 17.838 | 66.775 |
4 | 14.982 | 81.757 |
CPs | ||||
---|---|---|---|---|
1 | 2 | 3 | 4 | |
Absolute pitch | .936 | |||
Body stiffness | .895 | |||
Noise Harmonic Ratio | .894 | |||
Cover losses | .874 | -.305 | ||
Cover stiffness | .856 | |||
Cover mass unbalance | .818 | |||
Cover losses unbalance | .793 | .442 | ||
Cover stiffness unbalance | .786 | |||
Body mass | -.772 | |||
Rel. stop flow time | .622 | .468 | .463 | |
Val. flow GAP | -.620 | .547 | ||
Rel. open 2 time | .967 | |||
Rel. max. ampl. time | .960 | |||
Rel. closing time | .932 | |||
Rel. open 1 time | .923 | |||
Rel. start flow time | -.437 | .834 | ||
Rel. recov. 2 time | .392 | .824 | ||
Val. permanent GAP | .493 | -.638 | ||
Rel. recov. 1 time | .577 | .628 | ||
Rel. open 1 ampl. | -.916 | |||
Rel. recov. 2 ampl. | -.883 | |||
Rel. recov.1 ampl. | -.822 | |||
Rel. open 2 ampl. | -.501 | -.809 | ||
Val. adduction GAP | .796 | |||
Cover mass | -.668 | -.354 | ||
Abs. norm. shimmer | -.489 | .540 | .358 | |
Val. contact GAP | .303 | .399 | ||
Body stiffness unbalance | .946 | |||
Body mass unbalance | .921 | |||
Abs. norm. jitter | .379 | .861 | ||
Body losses | .359 | -.797 | ||
Body losses unbalance | .470 | .748 |
Como ilustra la Tabla 8, los 32 rasgos laríngeos se han asociado con 4 CPs y, dentro de cada CP, los parámetros quedaron ordenados por valor absoluto de correlación según un coeficiente de signo positivo o negativo. Así, podemos ver que los rasgos originales Absolute pitch y Body mass se correlacionan fuertemente con el primer componente principal (CP1), aunque el pitch presenta una correlación positiva (.936) y la masa del cuerpo de los pliegues vocales mantiene una correlación negativa con el CP1 (-.772). Esto significa que, ambos rasgos están fuertemente correlacionados con el CP1 que los agrupa y que, cuando el valor del CP1 aumenta, se incrementa el pitch y disminuye la masa de los plieuges vocales implicada en la vibración.
Para comprender qué rasgos laríngeos son realmente relevantes en la configuración de cada uno de los cuatro CPs, se aislaron aquellos parámetros con valor absoluto de correlación superior a 0.7, pues observamos a partir de los datos que no hay ningún parámetro con un valor superior en varios componentes principales (CPs).
Las tablas 9-12tablas 9, 10, 11, 12 reúnen los rasgos o parámetros más relevantes que componen los cuatro CPs, ordenados de mayor a menor según su valor absoluto de correlación.
CP1 | |
---|---|
Parámetros | Coeficiente factorial |
Absolute pitch | .936 |
Body stiffness | .895 |
Noise Harmonic Ratio | .894 |
Cover losses | .874 |
Cover stiffness | .856 |
Cover mass unbalance | .818 |
Cover losses unbalance | .793 |
Cover stiffness unbalance | .786 |
Body mass | -.772 |
CP2 | |
---|---|
Parámetros | Coeficiente factorial |
Rel. open 2 time | .967 |
Rel. max. ampl. time | .960 |
Rel. closing time | .932 |
Rel. open 1 time | .923 |
Rel. start flow time | .834 |
Rel. recov.2 time | .824 |
CP3 | |
---|---|
Parámetros | Coeficiente factorial |
Rel. open 1 amplitude | -.916 |
Rel. recov.2 amplitude | -.883 |
Rel. recov.1 amplitude | -.822 |
Rel. open 2 amplitude | -.809 |
Val. adduction GAP | .796 |
CP4 | |
---|---|
Parámetros | Coeficiente factorial |
Body stiffness unbalance | .946 |
Body mass unbalance | .921 |
Abs. norm. jitter | .861 |
Body losses | -.797 |
Body losses unbalance | .748 |
El CP1 agrupa 9 de los rasgos glotales originales y recoge información tonal, pues se centra en la f 0 y en los ajustes laríngeos que permiten aumentar o disminuir el tono. A excepción de la masa del cuerpo de los pliegues vocales (Body mass), el resto de los rasgos se relaciona positivamente con el pitch, es decir, aumentan su valor cuando aumenta la f 0.
El CP2 aglutina 6 rasgos relacionados con instantes temporales de la onda glotal, pues todos ellos dan cuenta de los momentos temporales relevantes durante un ciclo de fonación. La correlación de ellos con el CP2 es positiva.
Si el CP2 se asociaba con la dimensión temporal de la onda glotal, el CP3 recoge rasgos que dan cuenta de la dimensión de las amplitudes correspondientes. Los cuatro rasgos más relevantes en la definición de este CP mantienen una relación negativa con él.
Finalmente, el CP4 reúne rasgos laríngeos vinculados con el comportamiento del cuerpo de los pliegues vocales e incluye también el jitter, que da cuenta de la variabilidad temporal de la f 0. A excepción de las pérdidas de energía (Body losses), todos los rasgos presentan una correlación positiva.
Un test de medias con prueba de Bonferroni demostró que el CP1 es el único diferenciador en el cambio de voz (habitual-falsete) para todos los locutores, como muestran los datos recogidos en las Tablas 13 y 14.
Falsete | Modal | |
---|---|---|
CP1 | .90363a | -.90363b |
CP2 | .05062a | -.05062a |
CP3 | .08756a | -.08756a |
CP4 | -.05015a | .05015a |
Falsete | Modal | ||
---|---|---|---|
L1 | CP1 | .54137a | -.69249b |
CP2 | -.17152a | -2.02209b | |
CP3 | .30977a | -.06369a | |
CP4 | .99664a | -.22832b | |
L2 | CP1 | .83115a | -.80410b |
CP2 | .03742a | -.22940a | |
CP3 | -.10373a | 1.55220b | |
CP4 | .64472a | .28434a | |
L3 | CP1 | .77149a | -1.32498b |
CP2 | .31729a | .30246a | |
CP3 | .25842a | -.69912b | |
CP4 | -1.02627a | -.56898b | |
L4 | CP1 | 1.47695a | -1.19954b |
CP2 | .18501a | 1.46173b | |
CP3 | -.36066a | -1.03654b | |
CP4 | -.02930a | -.73767a | |
L5 | CP1 | 1.41513a | -.66571b |
CP2 | .22089a | -.96776b | |
CP3 | -.81648a | -1.08473b | |
CP4 | -.45736a | .47007b | |
L6 | CP1 | .38567a | -.73495b |
CP2 | -.28536a | 1.15135b | |
CP3 | 1.23807a | .80650a | |
CP4 | -.42930a | 1.08144b |
4.2. Rasgos de la voz disimulada en falsete
⌅El primer objetivo de este estudio (§2.1) consistía en caracterizar en términos acústicos y fisiológicos el habla disimulada en falsete en contraste con la voz habitual. Además, se buscaba hacerlo exclusivamente a partir de las muestras de voz grabadas.
El CP1 resultó ser el
componente discriminatorio en el cambio de voz habitual a falsete, pues
todos los rasgos laríngeos que lo definen variaron significativamente
para cada uno de los locutores sin excepción. Como se ha visto, el CP1
se centra en el pitch, correlato perceptivo de la f 0, y en el comportamiento biomecánico de las cuerdas
vocales, en especial, en el de la cubierta, de acuerdo con descripciones
anteriores (por ejemplo, Titze, 1994Titze, I. R. (2000 [1994]). Principles of voice production (2nd edition). Iowa, City: National Center for Voice and Speech.
y Núñez, 2013Núñez, F. (2013). Fisiología de la fonación. En I. Cobeta, F. Núñez y S. Fernández (Eds.), Patología de la voz (pp. 55-75). Barcelona: Marge Medica Books.
).
La tensión soportada por la cubierta de las cuerdas vocales (Cover stiffness) mantiene una correlación alta y positiva (.856) con el pitch, cuyos valores aumentan significativamente en el paso hacia la voz de falsete. Esto provoca grandes gastos de energía e irregularidad en la vibración de la cubierta de los pliegues, como demuestra la proyección positiva de los parámetros Cover losses (.874), Cover mass unbablance (.818), Cover stiffness unbalance (.786) y Cover losses unbalance (.793).
De otra parte, los rasgos incluidos en el CP1 que dan cuenta del comportamiento no ya de la cubierta, sino del cuerpo de los pliegues vocales, son Body stiffness y Body mass. Estos dos parámetros parecen influir directamente en el aumento (o en su caso, disminución) de la f 0 y lo hacen de forma inversa. La tensión del cuerpo de las cuerdas vocales contribuye positivamente en el aumento del pitch con una proyección de .895, al tiempo que la masa del cuerpo de las cuerdas vocales implicadas en la vibración lo hace de forma negativa o inversamente proporcional al aumento del pitch, con una proyección negativa de -772.
Finalmente, del análisis efectuado por componentes principales, se observa que el parámetro que da cuenta de la proporción entre ruido y armonicidad (Noise Harmonic Ratio) presenta valores más altos en la voz disimulada en falsete que en la fonación habitual de todos los locutores analizados. Este parámetro, índice de turbulencia, podría ser un buen indicador de defectos de cierre en la glotis.
4.3. Cualidad individual de la voz
⌅Como se desprende de los datos relativos a los otros tres CPs presentados en las Tablas 13 y 14, los parámetros glotales agrupados bajo los CP2, CP3 y CP4 muestran una mayor variación entre sujetos. A diferencia de lo que ocurre con el CP1, estos componentes presentan un comportamiento fluctuante, unas veces cambiaron y otras no, en función del locutor.
El primer objetivo de este estudio se dirigía a poder aislar el grupo de rasgos laríngeos que, por ser intrínsecos al cambio de fonación (habitual-falsete), todos los sujetos tuvieran que alterar para conseguir el disimulo buscado y que han resultado ser los parámetros reunidos en el CP1. Como consecuencia de haber podido aislar estos rasgos fonéticos definitorios del falsete (CP1) han quedado también mejor acotados el grupo de parámetros vocales invariantes, aquellos que en la muestra analizada no se han visto modificados siempre por todos los locutores analizados en el cambio a falsete. Algunos de estos rasgos podrían ser potencialmente discriminantes, aunque difícilmente pudiera tratarse del mismo rasgo para todas las personas.
4.4. Utilidad práctica del análisis en fonética judicial
⌅En la práctica forense partimos de que es habitual encontrarse con que la información de que se dispone es escasa y ha sido recogida por canales telefónicos o microfónicos limitantes, en ocasiones en medio de ambientes ruidosos, lo que da como resultado muestras sonoras de baja calidad. Esta realidad forense cuestiona la aplicabilidad del análisis acústico y estadístico al margen de la herramienta que vaya a utilizarse.
El problema de la cantidad es inapelable, pues siempre
se necesitará un tamaño mínimo de datos suficiente para establecer
comparaciones estadísticas fiables. Sin embargo, la dificultad que
supone la baja calidad de las muestras para la fonética forense podría
mitigarse con la utilización de una herramienta que analice la función
glótica (cf. Gómez-Vilda, 2022Gómez-Vilda, P. (2022). Informe técnico para documentar la funcionalidad de la aplicación informática BioMet®Fore. Versión 1.0, 2022 NeuSpeLab, Glottex VAS (www.glottalsolutions.com)
).
El estudio multiparamétrico de la cualidad de la voz mediante el
análisis del comportamiento glótico ofrece ciertas ventajas sustanciales
que es necesario señalar, especialmente en casos de disponer de
material suficiente, pero no disponer de material sonoro de óptima
calidad. En primer lugar, la mala calidad de la señal resulta más
sensible al análisis de la función articulatoria que al de la función
glótica, puesto que son precisamente las zonas de altas frecuencias las
que se verán más afectadas. La información glótica, en la medida en que
se basa en el análisis de cada ciclo de la fuente glótica en el dominio
del tiempo, siendo esta una señal obtenida mediante la atenuación de los
efectos amplificadores de las resonancias del tracto vocal, resulta
menos sensible al deterioro de altas frecuencias, por lo que resiste
mejor las limitaciones habituales de la práctica forense relacionadas
con la calidad de las muestras disponibles para el análisis
(conversación personal con el Dr. Gómez-Vilda). En segundo término, el
análisis de la cualidad de voz resultante de configuraciones laríngeas a
largo plazo, además de tener un alto poder discriminante, como ya se ha
comentado, presenta otro valor añadido en el que es preciso insistir:
el comportamiento glótico resiste mejor los intentos de impostación,
camuflaje, o disimulo. Como señalan los estudios realizados sobre
distintos mecanismos humanos de disimulo, el funcionamiento laríngeo
resulta más difícil de modificar o impostar, pues no parece que tengamos
un control tan preciso y consciente de nuestro sistema fonador, en
comparación al que ejercemos sobre el articulatorio (cf. por ejemplo, Alves et al, 2012Alves,
H., Fernández Trinidad, M., Gil Fernández, J., Infante, P.,
Lahoz-Bengoechea, J. M., Pérez Sanz, C. y San Segundo, E. (2012).
Disguised voices: A perceptual experiment. 3rd European Conference of the International Association of Forensic Linguistic
, 2014Alves,
H., Gil Fernández, J., Pérez Sanz, C. y San Segundo, E. (2014). La
cualidad individual de la voz y la identificación del locutor: el
proyecto CIVIL. En Y. Congosto, M. L. Montero Curiel, y A. Salvador
Plans (Eds.), Fonética experimental, educación superior e investigación (Vol. 1, pp. 591-612). Madrid: Arco/Libros.
; Fernández Trinidad y Rojo, 2019Fernández Trinidad, M. y Rojo, J. (2019). Perceptual cues for individual voice quality. En J. Gil Fernández y M. Gibson (Eds.), Romance Phonetics and Phonology (pp. 161-176). Oxford University Press.
, y los trabajos recogidos en Lahoz-Bengoechea, Villa y Gil Fernández, 2017Lahoz-Bengoechea, J. M., Villa Villa, J. y Gil Fernández, J. (2017). Fillers in disguised accented speech. 13th Biennial Conference of the International Association of Forensic Linguists.
).
En
la comparación forense de voces sigue siendo de utilidad el método
denominado “mixto” o “híbrido”, es decir, la complementariedad del
análisis acústico-perceptivo “clásico” o “tradicional” llevado a cabo
por expertos fonetistas con el análisis automático (por ejemplo, Drygajlo et al., 2015Drygajlo, A., Jessen, M., Gfroerer, S., Wagner, I., Vermeulen, J. y Niemi, T. (2015). Methodological Guidelines for Best Practice in Forensic Semiautomatic and Automatic Speaker Recognition. Frankfurt: Verlag für Polizeiwissenschaft. https://enfsi.eu/wp-content/uploads/2016/09/guidelines_fasr_and_fsasr_0.pdf
; Gold y French, 2011Gold, E. y French, P. (2011). International practices in forensic speaker comparison. International Journal of Speech, Language, and the Law, 18(2), 293-307. http://dx.doi.org/10.1558/ijsll.v18i2.293
). Es innegable la eficiencia de los sistemas
automáticos que, hoy en día, alcanzan una prestación con altos grados de
precisión, especialmente si las muestras son suficientemente
comparables. Sin embargo, como contrapartida negativa, son más
difícilmente interpretables, pues cada vez está más alejada la
posibilidad de comprender ˗y, en consecuencia, explicar˗ el modo en que
los algoritmos funcionan realmente4En
este punto conviene recordar (§3.2) el comportamiento de los parámetros
cepstrales de la onda glotal, los rasgos que mayor variación
experimentaron en el cambio de voz analizado. El estudio pormenorizado
de este grupo podría ser pertinente para comprender el peor rendimiento
que los reconocedores automáticos tienen con las voces disimuladas,
incluso cuando han sido previamente entrenados con una base de datos
apropiada (Künzel, González-Rodríguez y Ortega García, 2004). (Gunning et al., 2019Gunning, D., Stefik, M., Choi, J., Miller, T., Stumpf, S. y Yang, G-Z. (2019). XAI- Explainable artificial intelligence. Science Robotics, 4(37), eaay7120. http://dx.doi.org/10.1126/scirobotics.aay7120
). Además, la capacidad analítica de los especialistas continúa siendo, hasta el momento, irremplazable.
Este trabajo demuestra, por un lado, que un análisis que dé cuenta de la función glótica, como el que ofrece la herramienta BioMet®Soft, resulta provechoso para el estudio de la fonación, puesto que ha permitido observar con precisión el comportamiento laríngeo de los locutores a partir de las muestras de audio. Los valores correspondientes a los parámetros glotales fueron fácil y cómodamente extraíbles a partir de la señal acústica.
De otra parte, del análisis con CPA también se derivan resultados prometedores, pues se ha demostrado que es posible abordar el estudio de la cualidad de voz, en concreto de los parámetros que dan cuenta del comportamiento laríngeo, disminuyendo el número de factores a unos pocos CPs, independientes, interpretables y, por tanto, explicables.
Estos son aspectos decisivos, pues varios estudios (por ejemplo, González-Rodríguez et al. 2014González-Rodríguez,
J., Gil, J., Pérez, R. y Franco-Pedroso, J. (2014). What are we missing
with i-vectors? A perceptual analysis of i-vector based falsely
accepted trials. Proceedings of Odyssey 14. The Speaker and Language Recognition Workshop (pp. 33-40).
; Jessen, 1997Jessen, M. (1997). Speaker-specific information in voice quality parameters. The International Journal of Speech, Language, and the Law, 4(1), 84-103. http://dx.doi.org/10.1558/ijsll.v4i1.84
; San Segundo y Gómez-Vilda, 2017San
Segundo, E. y Gómez-Vilda, P. (2014). Evaluating the forensic
importance of glottal source features through the voice analysis of
twins and non-twin siblings. Language and Law/Linguagem e Direito, 1(2), 22-41.
,
entre otros) han señalado la importancia de considerar la cualidad de
voz laríngea en el ámbito de la fonética forense por su potencial
discriminante. Sin embargo, como se ha explicado, por ejemplo, en Gil Fernández y San Segundo, (2014)Gil
Fernández, J. y San Segundo, E. (2014). La cualidad de voz en fonética
judicial. En E. Garayzábal, M. Jiménez y M. Reigosa (Coords.),
Lingüística Forense. La Lingüística en el ámbito legal y policial (pp. 154 -199). Madrid: Euphonía Ediciones.
, su estudio se excluye a menudo por suponer una máxima complejidad de análisis y de interpretación.
El análisis tradicional realizado por fonetistas, apoyado en una herramienta como la que se ha utilizado para este estudio, y complementado con un análisis por CPA, demuestra que es viable reducir los rasgos laríngeos que caracterizan la fonación a unos pocos factores independientes entre sí e interpretables.
5. CONCLUSIONES
⌅Luego de este estudio se conocen mejor cuáles son los factores o parámetros que parecen variar de forma sistemática en todos los locutores cuando cambian su voz hacia el falsete. Estos serían los parámetros englobados en el CP1 que se centran en la f 0 y en los ajustes laríngeos responsables de su aumento; principalmente, el comportamiento de la cubierta de los pliegues vocales.
Los análisis llevados a cabo confirman, por tanto, que hay una serie de rasgos glotales que cambian sistemáticamente y para todos los locutores cuando modifican la voz habitual hacia el falsete. Estos parámetros, englobados en el CP1, dependen del tipo de fonación y no del locutor.
En la bibliografía (recuérdese, Titze, 1994Titze, I. R. (2000 [1994]). Principles of voice production (2nd edition). Iowa, City: National Center for Voice and Speech.
o Núñez 2013Núñez, F. (2013). Fisiología de la fonación. En I. Cobeta, F. Núñez y S. Fernández (Eds.), Patología de la voz (pp. 55-75). Barcelona: Marge Medica Books.
) ya se había señalado que en el caso del falsete se daba un aumento drástico de la f 0 y que la responsabilidad de ese aumento recaía
fundamentalmente en el comportamiento de la cubierta del pliegue vocal.
Lo que no estaba claro, sin embargo, era si, acompañando a estos
cambios, otros parámetros también se modificarían de forma sistemática y
significativa. La respuesta es negativa, con base en las pruebas
obtenidas en este estudio. Se ha visto que solo algunos locutores
cambian - y de forma asistemática- ciertos parámetros laríngeos,
agrupados en los CP2, CP3 y CP4, pero que no todos lo hacen. Por tanto,
entre esos invariantes podrían hallarse algunos potencialmente asociados
a la individualidad del locutor. Los rasgos clave habrá que
determinarlos en cada caso, pues los mismos parámetros no funcionarán,
presumiblemente, para todos los hablantes. Por último, conviene recordar
que estos resultados están, como es lógico, condicionados a la muestra
analizada y, por tanto, resulta imprescindible seguir explorando el
comportamiento de los rasgos laríngeos y su posible relevancia forense
con un conjunto de datos más extenso y variado.
Otro resultado interesante de este estudio indica que es posible encarar el análisis de la cualidad laríngea de la voz (que se ha visto tiene un alto poder discriminante) a pesar de la conocida desventaja que supone su multidimensionalidad. El análisis propuesto demuestra que es posible simplificar el elevado número de rasgos glotales responsables de la cualidad de la voz a unos pocos CPs independientes e interpretables en términos acústicos y también fisiológicos. Ganancias explicativas como estas contribuyen a facilitar la comunicación de un análisis fonético complejo al ámbito judicial.
Siempre en el terreno aplicado de la fonética forense o judicial, conviene señalar la utilidad de los programas informáticos semiautomáticos para el análisis de la fonación. La utilización de este tipo de herramientas no invasivas, por supuesto, tiene el valor adicional de permitir conocer el comportamiento glótico a partir de una señal exclusivamente acústica, único método viable en un cotejo de voces con fines judiciales.
No obstante, el análisis
propuesto en este trabajo necesitará ulteriores comprobaciones que
terminen de validarlo. En este sentido, conviene recordar que, de
acuerdo con las directrices de referencia como son la European Network of Forensic Science Institutes (ENFSI, 2015ENFSI, European Network of Forensic Science Institutes (2015). ENFSI Guideline or Evaluative Reporting in Forensic Science, http://enfsi.eu/wp-content/uploads/2016/09/m1_guideline.pdf
), la International Association for Forensic and Legal Linguistics (IAFLLIAFLL, International Association of Forensic and Legal Linguistics (s/d). Code of Practice.https://www.iafl.org/wp-content/uploads/2018/07/IAFL_Code_of_Practice_1-1.pdf
) o la International Association for Forensic Phonetics and Acoustics (IAFPA, 2020IAFPA, International Association of Forensic Phonetics and Acoustics (2020). Code of Practice.http://www.iafpa.net/wp-content/uploads/2020/09/IAFPA-Code-of-Practice-2020.pdf
), cualquier método de análisis debería contar con
la validación y aceptación previa de la comunidad científica para poder
ser utilizado en evaluaciones periciales.
Vale la pena seguir dedicando esfuerzos en el camino hacia la aplicabilidad del análisis de la cualidad de la voz conducentes a encontrar metodologías y herramientas que permitan resolver las principales dificultades que platea el contexto forense.