Precisión diagnóstica del pico cepstral de mayor prominencia en el cepstrum suavizado (CPPS) en la detección de la disfonía en español

Jonathan Delgado-Hernández1, Nieves León-Gómez2 y Alejandra Jiménez-Álvarez2

1CREN Salud (España)

2Hospital Universitario de Canarias (España)

jonathandh79@gmail.com ORCID: https://orcid.org/0000-0002-4552-8920

nileon4@gmail.com ORCID: https://orcid.org/0000-0001-6785-9774

ale89tf@hotmail.com ORCID: https://orcid.org/0000-0002-8837-3113

 

RESUMEN

Los parámetros derivados de la métrica cepstral son cada vez más utilizados en la evaluación acústica de la voz, ya sea como medidas únicas o como parte de índices multivariados. El pico cepstral de mayor prominencia en el cepstrum suavizado (CPPS) ha demostrado en multitud de estudios ser la única medida acústica con la suficiente validez concurrente en la evaluación de la severidad de las alteraciones de la voz tanto en muestras de vocal sostenida como en muestras de habla continua.

El objetivo de este trabajo es conocer la precisión diagnóstica del CPPS en la detección de la disfonía en español. Se utilizó la configuración que viene por defecto en Praat y la usada en el cálculo del Acoustic Voice Quality Index.

Los resultados confirman que el CPPS es una medida acústica válida para detectar la disfonía en español tanto con vocal sostenida como con frases.

 

ABSTRACT

Diagnostic accuracy of the Smoothed Cepstral Peak Prominence (CPPS) in the detection of dysphonia in the Spanish language.–The smoothed cepstral peak prominence (CPPS) is an acoustic measure that can be calculated in both sustained vowels and continuous speech. The goal of this work is to find out the diagnostic accuracy of CPPS in the detection of dysphonia in Spanish.

In this study 136 subjects with dysphonia and 47 healthy subjects participated. For each subject a sustained vowel and the reading of three phonetically balanced sentences were recorded. The CPPS was calculated with Praat using its default configuration (configuration 1), and also with the one used in the calculation of the Acoustic Voice Quality Index (configuration 2). Five experts perceptively assessed the voice of the subjects in the sample by means of the GRABS scale.

The CPPS has a great power of discrimination between the normal and the pathological voice, whether it is calculated from the sustained vowel /a/ (AROC[config. 1] = 0.863 and AROC[config. 2] = 0.841) or whether it is calculated from the sentences (AROC[config. 1] = 0.884 and AROC[config. 2] = 0.866).

The results confirm that CPPS is a valid acoustic measurement to detect dysphonia in the Spanish language.

 

Enviado: 06/08//2018. Aceptado: 16/11/2018; Publicado online: 27/02/2019

Citation / Cómo citar este artículo: Jonathan Delgado-Hernández, Nieves León-Gómez y Alejandra Jiménez-Álvarez. (2019). Precisión diagnóstica del pico cepstral de mayor prominencia en el cepstrum suavizado (CPPS) en la detección de la disfonía en español. Loquens, 6(1), e058. https://doi.org/10.3989/loquens.2019.058

Palabras clave: análisis acústico de la voz; CPPS; disfonía; Praat.

Keywords: acoustic voice analysis; CPPS; dysphonia; Praat.

Copyright: © 2019 CSIC. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia de uso y distribución Creative Commons Reconocimiento 4.0 Internacional (CC BY 4.0).


 

CONTENTS

ABSTRACT

RESUMEN

1. INTRODUCCIÓN

2. MATERIAL Y MÉTODO

3. RESULTADOS

4. DISCUSIÓN

5. CONCLUSIONES

NOTA ACLARATORIA

REFERENCIAS

1. INTRODUCCIÓNTOP

El análisis acústico nos aporta información objetiva sobre la voz del paciente de manera no invasiva. Los parámetros derivados de la métrica cepstral son cada vez más utilizados en la evaluación acústica de la voz, ya sea como medidas únicas (Awan y Roy, 2006; Balasubramanium, Bhat, Fahim y Raju, 2011; Dejonckere, 1998; Dejonckere y Wieneke, 1996; Delgado, León, Jiménez y Izquierdo, 2017; Delgado-Hernández, León-Gómez, Izquierdo-Arteaga y Llanos-Fumero, 2018; Eadie y Baylor, 2006; Heman-Ackah et al., 2003; Heman-Ackah, Michael y Goding, 2002; Heman-Ackah et al., 2014; Hillenbrand, Cleveland y Erickson, 1994; Hillenbrand y Houde, 1996; de Krom, 1993; Maryn, Roy, de Bodt, Van Cauwenberge y Corthals, 2009; Sauder, Bretl y Eadie, 2017; Wolfe y Martin, 1997; Wolfe, Martin y Palmer, 2000) o como parte de índices multivariados (Barsties y Maryn, 2015; Barsties y Maryn, 2016; Hernández, Gómez, Jiménez, Izquierdo y Latoszek, 2018; Latoszek, Maryn, Gerrits y de Bolt, 2017; Maryn, De Bolt, Barsties y Roy, 2014; Maryn, De Bolt y Roy, 2010). El cepstrum es la transformada inversa de Fourier del logaritmo de la potencia espectral de la señal (Awan, 2008). El análisis cepstral permite determinar la frecuencia fundamental (f0) a partir de la periodicidad del componente armónico de un sonido, representado por el pico cepstral de la región alta del cepstrum. La amplitud del pico de cepstrum da información del grado de periodicidad de la señal de más baja frecuencia en relación con otros componentes periódicos o ruidosos presentes (Cecconello, Farías y Gurlekian, 2008). Por tanto, no necesita de la detección exacta de los ciclos de la f0, una ventaja importante sobre todo en el análisis de las voces más disfónicas o aperiódicas, donde los programas de detección automática no pueden extraer de forma fiable la f0. Con relación al tipo de muestra de voz, el análisis cepstral se puede utilizar tanto con vocales sostenidas como con habla continua, aportando validez ecológica a la evaluación acústica (Delgado-Hernández et al., 2018). Maryn et al. (2009) realizaron un metaanálisis donde estudiaron 69 medidas acústicas en vocal sostenida y 26 en habla continua. Encontraron que el pico cepstral de mayor prominencia en el cepstrum suavizado (smoothed cepstral peak prominence o CPPS) fue la única medida acústica estudiada con la suficiente validez concurrente en la evaluación de la severidad de la disfonía en ambas muestras de voz.

El CPPS es una medida acústica cepstral que representa la diferencia entre el pico cepstral más prominente, o primer rahmonic, y el punto con la misma quefrency sobre la línea de regresión a través del cepstrum suavizado (Figura 1). Se expresa en decibelios (dB).

Figura 1: Representación gráfica del cepstrum y del cálculo del CPPS.

Los estudios realizados hasta el momento muestran su utilidad tanto en el diagnóstico de las alteraciones de la voz (Heman-Ackah et al., 2014; Sauder, Bretl y Eadie, 2017) como en la evaluación de la severidad de la disfonía (Awan y Roy, 2006; Balasubramanium et al., 2011; Dejonckere, 1998; Dejonckere y Wieneke, 1996; Delgado-Hernández et al., 2018; Eadie y Baylor, 2006; Heman-Ackah et al., 2003; Heman-Ackah, Michael y Goding, 2002; Hillenbrand, Cleveland y Erickson, 1994; Hillenbrand y Houde, 1996; de Krom, 1993; Maryn et al., 2009; Wolfe y Martin, 1997; Wolfe, Martin y Palmer, 2000).

El objetivo de este trabajo es conocer la precisión diagnóstica del CPPS en la detección de la disfonía en español. Para ello se estudiarán los valores del CPPS obtenidos a través de vocales sostenidas y frases, así como diferentes configuraciones para el cálculo de esta medida en Praat.

2. MATERIAL Y MÉTODOTOP

2.1. SujetosTOP

En este estudio participaron voluntariamente 183 sujetos hablantes de español: 136 sujetos disfónicos con distintos grados de severidad y diferentes etiologías valorados otorrinolaringológicamente y 47 sujetos normofónicos sin antecedentes de patología vocal. En total participaron 56 hombres con una media de edad de 47.83 años (DT 16.04) y 127 mujeres con una media de edad de 44.81 años (DT 14.26). En la Tabla 1 se resume los detalles del grupo disfónico.

Tabla 1: Datos descriptivos del grupo disfónico.

Patología del grupo disfónico Número de pacientes
Disfonía funcional 37
Nódulo 33
Edema 18
Quiste 9
Parálisis 8
Presbifonía 5
Sulcus vocalis 5
Pólipo 4
Disfonía espasmódica 4
Laringitis crónica 3
Post-cirugía 3
Tumor 2
Trauma 1
Laringitis aguda 1
Leucoplasia 1
Otros trastornos benignos de la voz 2

2.2. Grabación de las vocesTOP

Se obtuvieron dos muestras de voz diferentes para cada sujeto de estudio, un total de 366 muestras: una vocal sostenida /a/ durante 3 segundos aproximadamente y la lectura en voz alta de tres frases fonéticamente balanceadas del Spanish matrix sentences test (Hochmuth, Brand, Zokoll, Zenker Castro, Wardenga y Kollmeier, 2012). Se escogieron las tres frases utilizadas en el estudio de Hernández et al. (2018), con un total de 33 sílabas. Las voces fueron grabadas con un micrófono de condensador de diadema AKG C544L y un interfaz de audio alesis i/o2 express. Se utilizó el programa Praat (Boersma y Weenink, 2016, v. 5.4.04) con una frecuencia de muestreo de 44.1 Khz y 16 bits de resolución. En todos los audios fue calculada post hoc la ratio señal-ruido (signal-to-noise ratio [SNR]) propuesta por Deliyski, Shaw y Evans (2005) y Deliyski, Shaw, Evans y Vesselinov (2006). Se incluyeron en el estudio las grabaciones con los valores de SNR recomendados para el análisis acústico, es decir, los superiores a 30 dB (Deliyski, Shaw y Evans, 2005).

2.3. Evaluación acústico-perceptualTOP

Para la evaluación acústico-perceptiva se utilizó la combinación de la grabación de las frases y de la vocal sostenida de cada sujeto con un segundo de silencio entre ellas, con el objetivo de obtener el mayor grado de representación de la voz diaria de los sujetos del estudio. Cinco logopedas expertos en rehabilitación de la voz (con una experiencia media de 10.6 años) evaluaron perceptualmente la calidad de la voz de los sujetos de la muestra a través de la escala GRABS (Hirano, 1981). En esta escala perceptiva se puntúa de 0 a 3 la severidad de 5 parámetros: G (grade) indica el grado de afectación general y global de la voz; R (roughness) muestra el grado de ronquera de la voz; A (asthenics) indica el grado de astenia, fatiga o cansancio detectado en la voz; B (breathiness) revela la pérdida de aire a través de las cuerdas, la voz aérea o soplada, y S (strain) indica el grado de tensión o dureza de la voz. Cada evaluador puntuó el grado de calidad global de la voz de cada sujeto (G) siguiendo la recomendación de Wuyts et al. (2000) (G0 = normal o ausencia de alteración; G1 = alteración ligera; G2 = alteración moderada; G3 = alteración severa). Las grabaciones se presentaron individualmente con auriculares Beyerdynamic DT 770 PRO 80Ω en una habitación con un nivel de ruido ambiental por debajo de 40 dBA, medido por un sonómetro calibrado PCE-322A. Cada evaluador pudo escuchar cada grabación las veces que fueran necesarias hasta tener una decisión final. Para evaluar la fiabilidad intra-evaluador se utilizó la metodología usada en el trabajo de Hernández et al. (2018), donde se estudia la precisión diagnóstica y la validez concurrente del Acoustic Voice Quality Index v. 03.01 y el Acoustic Breathiness Index en español. Se seleccionaron al azar 19 grabaciones, aproximadamente el 10 % de las 183 muestras. Estas grabaciones se volvieron a presentar al finalizar la evaluación perceptiva sin informar al evaluador que eran muestras repetidas. Para controlar factores como la fatiga, la atención y la concentración se realizaron pausas cada 25 muestras de voz siguiendo la recomendación de Kreiman, Gerratt, Kempster, Erman y Berke (1993).

2.4. Análisis acústicoTOP

Se obtuvieron con el programa Praat (Boersma y Weenink, 2016, v. 5.4.04) los valores del CPPS (en dB) de todos los sujetos de la muestra tanto en las grabaciones de la vocal sostenida como en las de las frases. Para el cálculo del CPPS se utilizaron dos configuraciones diferentes. La primera (CPPSconf.1) es la que viene por defecto en Praat. La segunda (CPPSconf.2) es la utilizada en el cálculo del Acoustic Voice Quality Index, versión 03.01 (Barsties y Maryn, 2016).

2.5. Análisis estadísticoTOP

El análisis estadístico se realizó con el programa SPSS (v. 21.0), excepto la fiabilidad intra-evaluador e inter-evaluadores, que fue analizada mediante el programa R Studio (v. 3.0.1).

La fiabilidad intra-evaluador se calculó a través del coeficiente kappa de Cohen (Ck). Este estadístico aporta un índice de acuerdo entre dos jueces o dos calificaciones; en este caso, el grado de acuerdo entre la puntuación del parámetro G de la escala acústico-perceptiva en las 19 muestras repetidas de cada evaluador. Los valores varían de 0 a 1, donde Ck = 1 correspondería a un acuerdo perfecto y Ck = 0, a un acuerdo explicable por la casualidad (Everitt, 2002). El Ck se considera razonablemente fiable con valores superiores a 0.41 porque este valor presenta una fuerza de acuerdo moderada (Landis y Koch, 1977)

Para evaluar la fiabilidad inter-evaluadores se calculó el coeficiente kappa de Fleiss (Fk) (Fleiss, 1971), que es una extensión del Ck para más de dos jueces/evaluadores. Al igual que el Ck, el Fk se consideró razonablemente fiable a partir del valor 0.41 (Landis y Koch, 1977).

La precisión diagnóstica del CPPS se evaluó por su sensibilidad (la probabilidad de obtener un resultado positivo cuando el individuo es disfónico) y especificidad (la probabilidad de obtener un resultado negativo cuando el individuo no es disfónico). Esta relación entre sensibilidad y especificidad puede representarse gráficamente generando la curva característica operativa del receptor (receiver operating characteristic, ROC). La tasa de verdaderos positivos (sensibilidad) se muestra en la ordenada y, la tasa de falsos positivos (1– especificidad), en la abscisa. Siguiendo la recomendación de Barsties y Maryn (2016) se consideraron voces normales todas las que presentaron una media en la calificación de la escala perceptiva menor a 0.5 (Gmedia < 0.5) y voces disfónicas todas aquellas que presentaban una media mayor o igual a 0.50 en la evaluación perceptiva (Gmedia ≥ 0.50 a ≤ 3).

Para estimar el poder de discriminación del CPPS entre voz normal y patológica se usó el área bajo de la curva ROC (AROC). Un valor de AROC = 1 correspondería a una prueba perfecta, es decir, que clasificaría al 100 % de los disfónicos como disfónicos y al 100 % de los normofónicos como sujetos exentos de alteración en la voz. Con un valor de AROC = 0.5 existiría la misma probabilidad de clasificar a un sujeto con alteraciones en la voz como sano que como disfónico (Portney y Watkins, 2000).

Dependiendo del umbral de CPPS escogido para considerar una voz como disfónica pueden variar tanto la sensibilidad como la especificidad de esta medida acústica. Por ello, el umbral óptimo de CPPS fue calculado a través del índice Youden (la coordenada con el máximo de sensibilidad + especificidad – 1).

3. RESULTADOSTOP

3.1. Fiabilidad intra e inter-evaluadorTOP

La fiabilidad de los cinco evaluadores se evaluó a partir de las puntuaciones del parámetro G de la escala acústico-perceptiva. Los valores del Ck se encuentran entre 0.55 y 0.71 (media = 0.618), lo que demuestra una fiabilidad intra-evaluador aceptable en todos los evaluadores (Landis y Koch, 1977). Por otro lado, se obtuvo un valor de Fk de 0.434, lo que indica que la evaluación acústico-perceptiva presenta una suficiente fiabilidad inter-evaluador (Landis y Koch, 1977). La Figura 2 muestra la frecuencia del parámetro Gmedia valorado por los cinco evaluadores.

Figura 2: Distribución de la frecuencia de la puntuación de la escala acústico-perceptiva (media de la puntuaciones del parámetro G de los cinco evaluadores) de las 183 muestras de voz.

3.2. Estadística descriptivaTOP

En la Tabla 2 se muestra la estadística descriptiva de los valores del CPPS con las dos configuraciones estudiadas. Se puede observar valores sistemáticamente más altos en la CPPSconf.1 tanto con la vocal sostenida como con las frases. La diferencia entre los valores medios del CPPS de las dos configuraciones del total de la muestra fue de 9.76 dB en la vocal y de 9.63 dB en las frases.

Tabla 2: Medias (M) y desviaciones típicas (DT) del CPPS (en dB).

Grupo Vocal Frases
Conf.1 Conf.2 Conf.1 Conf.2
Normofónicos (M) 26.09 15.22 19.16 9.42
Normofónicos (DT) 2.94 2.39 0.95 0.99
Disfónicos (M) 21.75 12.37 17.28 7.69
Disfónicos (DT) 3.91 3.13 1.51 1.63
Total (M) 22.86 13.10 17.77 8.14
Total (DT) 4.14 3.20 1.61 1.67

3.3. Precisión diagnósticaTOP

Se utilizaron curvas ROC para evaluar la precisión diagnostica del CPPS, es decir, la capacidad de esta medida de distinguir entre voces patológicas y normales.

Los resultados muestran que el CPPS es una medida acústica con una buena capacidad para distinguir entre voces normales y patológicas (Tabla 3).

Tabla 3: Valores del área bajo la curva ROC del CPPS y umbrales patológicos con el balance de sensibilidad y especificidad.

  Vocal Frases
Conf.1 Conf.2 Conf.1 Conf.2
AROC 0.863 0.841 0.884 0.866
Umbral (dB) 23.62 13.96 18.40 8.37
Sensibilidad 87.5% 76.8% 82.1% 89.3%
Especificidad 75.6% 77.2% 86.6% 70.9%

En vocales sostenidas se obtuvo una AROC de 0.863 con la CPPSconf.1 y de 0.841 con la CPPSconf.2 (Figura 3). El umbral óptimo para el CPPS, calculado a través del índice Youden, fue de 23.62 dB para el CPPSconf.1 y de 13.96 dB para el CPPSconf.2.

Figura 3: Curvas ROC del CPPS en la vocal (izquierda) y en las frases (derecha).

En habla continua se obtuvo una AROC de 0.884 con el CPPSconf.1 y de 0.866 con el CPPSconf.2 (Figura 3). Los umbrales con mejor balance entre sensibilidad y especificidad fueron de 18.40 dB para el CPPSconf.1 y de 8.37 dB para el CPPSconf.2.

4. DISCUSIÓNTOP

El objetivo de este trabajo fue conocer la precisión diagnóstica del CPPS en la detección de la disfonía en español.

Se ha demostrado en multitud de estudios la alta correlación del CPPS con el grado de severidad de la disfonía (Awan y Roy, 2006; Balasubramanium et al., 2011; Dejonckere, 1998; Dejonckere y Wieneke, 1996; Delgado-Hernández et al., 2018; Eadie y Baylor, 2006; Heman-Ackah et al., 2003; Heman-Ackah, Michael y Goding, 2002; Hillenbrand, Cleveland y Erickson, 1994; Hillenbrand y Houde, 1996; de Krom, 1993; Maryn et al., 2009; Wolfe y Martin, 1997; Wolfe, Martin y Palmer, 2000). A medida que se incrementa la severidad de las alteraciones en la voz, disminuye el valor del CPPS y viceversa. Las voces más periódicas muestran una configuración armónica bien definida dentro del espectro y, por tanto, un pico cepstral más prominente. Por el contrario, las voces de menor calidad vocal presentan una disminución de este pico cepstral (Delgado-Hernández et al., 2018).

Respecto a la capacidad del CPPS para detectar la voz patológica, los resultados de este trabajo muestran una gran precisión diagnóstica de esta medida acústica en vocales sostenidas (AROC[config.1] = 0.863 y AROC[config.2] = 0.841) y en habla continua (AROC[config.1] = 0.884 y AROC[config.2] = 0.866). El CPPS obtenido a partir de las frases tiene un mayor poder discriminatorio entre voz la normal y patológica que el obtenido a partir de vocales. El CPPS en habla continua está condicionado por el tipo de muestra de habla utilizada, por las variedades dialectales y por la fluidez lectora de la muestra de estudio (Brinca, Batista, Tavares, Gonçalves y Moreno, 2014), por lo que es recomendable la validación de esta medida acústica en los diferentes idiomas. El umbral obtenido en español en este trabajo a partir de la configuración 1 es muy similar al encontrado por Sauder, Breatl y Eadie (2017) en lengua inglesa con la misma configuración (umbral español = 18.40 dB; umbral inglés = 19.10 dB).

Por último, un aspecto importante a tener en cuenta en la interpretación de esta medida acústica es la configuración elegida en Praat (Delgado et al., 2017). Los resultados de este trabajo muestran que el umbral por debajo del cual se puede determinar la voz patológica es aproximadamente 10 dB menos en el CPPSconf.2, tanto en vocales (CPPSconf.1 = 23.62 dB, CPPSconf.2 = 13.96 dB) como en habla continua (CPPSconf.1 = 18.40 dB, CPPSconf.2 = 8.37 dB).

5. CONCLUSIONESTOP

Los resultados del presente estudio confirman que el CPPS es una medida acústica válida para detectar las alteraciones en la voz en español, tanto con vocal sostenida como con frases.

NOTA ACLARATORIATOP

Este trabajo es la continuación del artículo «Análisis cepstral de la voz normal y patológica en adultos españoles. Medida de la prominencia del pico cepstral suavizado en vocales sostenidas versus habla conectada», publicado en la Revista Otorrinolaringológica Española (número 69, pp. 134-140), donde se examinaba la validez concurrente de esta medida acústica en la evaluación de la severidad de la disfonía.

REFERENCIASTOP

Awan, S. N. (2008). Instrumental analysis of phonation. En M. J. Ball, M. R. Perkins, N. Müller y S. Howard (Eds.), The handbook of clinical linguistics (p. 347). Oxford: Blackwell. https://doi.org/10.1002/9781444301007.ch21

Awan, S. N., y Roy, N. (2006). Toward the development of an objective index of dysphonia severity: A four-factor acoustic model. Clinical Linguistics & Phonetics, 20, 35–49. https://doi.org/10.1080/02699200400008353

Balasubramanium, R. K., Bhat, J. S., Fahim III, S., y Raju III, R. (2011). Cepstral analysis of voice in unilateral adductor vocal fold palsy. Journal of Voice, 25(3), 326–329. https://doi.org/10.1016/j.jvoice.2009.12.010

Barsties, B., y Maryn, Y. (2015). The improvement of internal consistency of the Acoustic Voice Quality Index. American Journal of Otolaryngology, 36(5), 647–656. https://doi.org/10.1016/j.amjoto.2015.04.012

Barsties, B., y Maryn, Y. (2016). External validation of the Acoustic Voice Quality Index version 03.01 with extended representativity. Annals of Otology, Rhinology & Laryngology, 125(7), 571–583. https://doi.org/10.1177/0003489416636131

Boersma, P., y Weenink, D. (2016). Praat: Doing phonetics by computer [programa informático, versión 6.0.22]. http://www.praat.org/.

Brinca, L. F., Batista, A. P. F., Tavares, A. I., Gonçalves, I. C., y Moreno, M. L. (2014). Use of cepstral analyses for differentiating normal from dysphonic voices: A comparative study of connected speech versus sustained vowel in European Portuguese female speakers. Journal of Voice, 28, 282–286. https://doi.org/10.1016/j.jvoice.2013.10.001

Cecconello, L., Farías, P., y Gurlekian, J. A. (2008). Aplicación del cepstrum en la clínica vocal. Revista de la Federación Argentina de Sociedades de Otorrinolaringología. Edición especial, 30.º Congreso Argentino de Otorrinolaringología, 15(1), 12–14.

Dejonckere, P. H. (1998). Cepstral voice analysis: Link with perception and stroboscopy. Revue de Laryngologie, Otologie, Rhinologie (Bord), 119, 245–246.

Dejonckere, P. H., y Wieneke, G. (1996). Cepstra of normal and pathological voices in correlation with acoustic, aerodynamic and perceptual data. En M. J. Ball y M. Duckworth (Eds.), Advances in Clinical Phonetics Vol. 6. (pp. 217–226). Amsterdam: John Benjamins. https://doi.org/10.1075/sspcl.6.13dej

Delgado, J., León, N. M., Jiménez, A., e Izquierdo, L. M. (2017). Análisis acústico de la voz: medidas temporales, espectrales y cepstrales en la voz normal con el Praat en una muestra de hablantes de español. Revista de Investigación en Logopedia, 7(2), 108–127.

Delgado-Hernández, J., León-Gómez, N. M., Izquierdo-Arteaga, L. M., y Llanos-Fumero, Y. (2018). Análisis cepstral de la voz normal y patológica en adultos españoles. Medida de la prominencia del pico cepstral suavizado en vocales sostenidas versus habla conectada. Acta Otorrinolaringológica Española, 69, 134–140. https://doi.org/10.1016/j.otorri.2017.05.006

Deliyski, D. D., Shaw, H. S., y Evans, M. K. (2005). Adverse effects of environmental noise on acoustic voice quality measurements. Journal of Voice, 19(1), 15–28. https://doi.org/10.1016/j.jvoice.2004.07.003

Deliyski, D. D., Shaw, H. S., Evans, M. K., y Vesselinov, R. (2006). Regression tree approach to studying factors influencing acoustic voice analysis. Folia Phoniatrica et Logopaedica, 58, 274–288. https://doi.org/10.1159/000093184

Eadie, T. L., y Baylor, C. R. (2006). The effect of perceptual training on inexperienced listeners’ judgments of dysphonic voice. Journal of Voice, 20, 527–544. https://doi.org/10.1016/j.jvoice.2005.08.007

Everitt, B. S. (2002). The Cambridge Dictionary of Statistics. 2nd ed. New York: Cambridge University Press.

Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76, 378–382. https://doi.org/10.1037/h0031619

Heman-Ackah, Y. D., Michael, D. D., Baroody, M. M., Ostrowski, R., Hillenbrand, J., Heuer, R. J., … y Staloff, R. T. (2003). Cepstral peak prominence: A more reliable measure of dysphonia. Annals of Otology, Rhinology & Laryngology, 112, 324–333. https://doi.org/10.1177/000348940311200406

Heman-Ackah, Y. D., Michael, D. D., y Goding, G. S. Jr. (2002). The relationship between cepstral peak prominence and selected parameters of dysphonia. Journal of Voice, 16, 20–27. https://doi.org/10.1016/S0892-1997(02)00067-X

Heman-Ackah, Y. D., Sataloff, R. T., Laureyns, G., Lurie, D., Michael, D. D., Heuer, R., … y Hillenbrand, J. (2014). Quantifying the cepstral peak prominence, a measure of dysphonia. Journal of Voice, 28, 783–788. https://doi.org/10.1016/j.jvoice.2014.05.005

Hernández, J. D., León-Gómez, M. L., Jiménez, A., Izquierdo, L. M., y Latoszek, B. B. v. (2018). Validation of the Acoustic Voice Quality Index Version 03.01 and the Acoustic Breathiness Index in the Spanish language. Annals of Otology, Rhinology & Laryngology, 127, 317–326. https://doi.org/10.1177/0003489418761096

Hillenbrand, J., Cleveland, R. A., y Erickson, R. L. (1994). Acoustic correlates of breathy vocal quality. Journal of Speech, Language, and Hearing Research, 37, 769–778. https://doi.org/10.1044/jshr.3704.769

Hillenbrand, J., y Houde, R. A. (1996). Acoustic correlates of breathy vocal quality: Dysphonic voices and continuous speech. Journal of Speech, Language, and Hearing Research, 39, 311–321. https://doi.org/10.1044/jshr.3902.311

Hirano, M. (1981). Psycho-acoustic evaluation of voice. En G. E. Arnold, F. Winckel y B. D. Wyke (Eds.), Disorders of Human Communication 5. Clinical Examination of Voice (pp. 81–84). Vienna: Springer.

Hochmuth, S., Brand, T., Zokoll, M. A., Zenker Castro, F., Wardenga, N., y Kollmeier, B. (2012). A Spanish matrix sentence test for assessing speech reception thresholds in noise. International Journal of Audiology, 51, 536–544. https://doi.org/10.3109/14992027.2012.670731

Kreiman, J., Gerratt, B. R., Kempster, G. B., Erman, A., y Berke, G. S. (1993). Perceptual evaluation of voice quality: Review, tutorial, and a framework for future research. Journal of Speech, Language, and Hearing Research, 36, 21–40. https://doi.org/10.1044/jshr.3601.21

Krom, G. de (1993). A cepstrum-based technique for determining a harmonics-to- noise ratio in speech signals. Journal of Speech, Langauge, and Hearing Research, 36, 254–266. https://doi.org/10.1044/jshr.3602.254

Landis, J. R., y Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159–174. https://doi.org/10.2307/2529310

Latoszek, B. B., Maryn, Y., Gerrit, E., y De Bodt, M. (2017). The Acoustic Breathiness Index (ABI): A multivariate acoustic model for breathiness. Journal of Voice, 31, 511e11- 511e27. https://doi.org/10.1016/j.jvoice.2016.11.017

Maryn, Y., Corthals, P., Van Cauwenberge, P., Roy, N., y De Bodt, M. (2010). Toward improved ecological validity in the acoustic measurement of overall voice quality: Combining continuous speech and sustained vowels. Journal of Voice, 24, 540–555. https://doi.org/10.1016/j.jvoice.2008.12.014

Maryn, Y., De Bodt, M., Barsties, B., y Roy, N. (2014). The value of the Acoustic Voice Quality Index as a measure of dysphonia severity in subjects speaking different languages. European Archives of Oto-Rhino-Laryngology, 271, 1609–1619.

Maryn, Y., De Bodt, M., y Roy, N. (2010). The Acoustic Voice Quality Index: Toward improved treatment outcomes assessment in voice disorders. Journal of Communication Disorders, 43, 161–174. https://doi.org/10.1016/j.jcomdis.2009.12.004

Maryn, Y., Roy, N., De Bodt, M., Van Cauwenberge, P., y Corthals, P. (2009). Acoustic measurement of overall voice quality: A meta-analysis. Journal of the Acoustic Society of America, 126, 2619–2634. https://doi.org/10.1121/1.3224706

Portney, L. G., y Watkins, M. P. (2000). Foundations of clinical research: Applications to practice, 2nd ed. Upper Saddle River, NJ: Prentice Hall.

Sauder, C., Bretl, M., y Eadie, T. (2017). Predicting voice disorder status from smoothed measures of cepstral peak prominence using Praat and Analysis of Dysphonia in Speech and Voice (ADSV). Journal of Voice, 31, 557–566. https://doi.org/10.1016/j.jvoice.2017.01.006

Wolfe, V., y Martin, D. (1997). Acoustic correlates of dysphonia: Type and severity. Journal of Communication Disorders, 30, 403–415. https://doi.org/10.1016/S0021-9924(96)00112-8

Wolfe, V. I., Martin, D. P., y Palmer, C. I. (2000). Perception of dysphonic voice quality by naive listeners. Journal of Speech, Language, and Hearing Research, 43, 697–705. https://doi.org/10.1044/jslhr.4303.697

Wuyts, F. L., De Bodt, M. S., Molenberghs, G., Remacle, M., Heylen, L., Millet, B., ... y Van de Heyning, P. H. (2000). The Dysphonia Severity Index: An objective measure of vocal quality based on a multiparameter approach. Journal of Speech, Language, and Hearing Research, 43, 796–809. https://doi.org/10.1044/jslhr.4303.796

Yiu, E., Worrall, L., Longland, J., y Mitchell, C. (2000). Analysing vocal quality of connected speech using Kay’s Computerized Speech Lab: a preliminary finding. Clinical Linguistics & Phonetics, 14(4), 295–305. https://doi.org/10.1080/02699200050023994