1. INTRODUCCIÓN
⌅El
objetivo de este trabajo es doble: por un lado, presentamos un trabajo
exploratorio y descriptivo sobre el comportamiento prosódico y
morfosintáctico de un mismo hablante en diferentes géneros discursivos
orales. Por otro lado, y quizá de manera más relevante, exponemos una
metodología computacional, basada en transformación de datos y en su
posterior visualización, para poder realizar una caracterización
lingüística amplia de hablantes. Esta caracterización, que utiliza
criterios prosódicos como base, también extiende su alcance a otros
factores, como el uso de bigramas, trigramas, la frecuencia de
categorías morfosintácticas, la posición de algunas formas léxicas en el
discurso, etc. Así pues, para poder acceder al primer objetivo, el de
observar la adaptación prosódica de los sujetos a los géneros
discursivos, hemos desarrollado una serie de scripts en R (R Core Team, 2020R Core Team. (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
), bajo el nombre de Oralstats (Cabedo 2021Cabedo, A. (2021). Oralstats. A tool to visualize and explore transcriptions and phonic data. https://github.com/acabedo/oralstats
), que, en general, permiten realizar un estudio exploratorio avanzado sobre características discursivas de los hablantes.
Algunos
estudios han sugerido la viabilidad de este tipo de metodología
cuantitativa para analizar variedades discursivas y géneros orales, como
lo hace Berez (Berez, 2011, p. 231Berez, A. L. (2011). Prosody as a genre- distinguishing feature in ahtna: A quantitative approach. Functions of Language, 18(2), 210-236.
) para el Athna, una lengua del sur de Alaska:
Finally, on a methodological note, quantitative analysis can contribute meaningfully to our understanding of complex perceptual phenomena in real-time speech. Discourse-level prosodic units are emergent, and unlike much of phonetics and segmental phonology, the variables of which they are comprised are often below the level of the conscious awareness of speakers and listeners.
De manera inicial, podemos
señalar que los hablantes modifican su manera de hablar según el
contexto discursivo específico en el que se encuentran (Espinosa y Dabrowski, 2019Espinosa,
G. E., y Dabrowski, A. E. (2019). ¿La práctica discursiva condiciona la
prosodia? Evidencia de una conferencia y una entrevista del español
rioplatense. Repositorio Digital Institucional, Universidad Nacional del Comahue. http://rdi.uncoma.edu.ar//handle/123456789/15781
). Habitualmente, el control de la elocución viene
determinado por varios factores, como la toma de turno predeterminada
(en una entrevista, por ejemplo) o el carácter monológico o dialógico de
la intervención (Briz, 2019Briz, A. (2019). Español coloquial. En E. Ridruejo (Ed.), Manual de lingüística española (pp. 614- 637). Berlín: De Gruyter. https://doi.org/10.1515/9783110362084-023
). Los contextos interactivos síncronos favorecen
una expresión mucho menos controlada, sobre todo en situaciones donde es
posible encontrar solapamientos de habla entre los hablantes; por el
contrario, en formatos de intercambio menos inmediato, como en un debate
parlamentario, el control sobre lo dicho es mucho mayor y puede tener
en algunos hablantes una repercusión en su prosodia, precisamente en la
modificación del tono (Romero Nieto, 2018Romero Nieto, A. (2018). Prosodia y gestualidad y su relación con la expresión del humor en el debate parlamentario. Cuadernos de Investigación Filológica, 44, 45-66. https://doi.org/10.18172/cif.3413
).
Tengamos en cuenta, no obstante, que la
manera de hablar de un ser humano, más allá del control elocutivo
marcado por los parámetros del género discursivo, puede tener constantes
relativamente estables que definen lo que conocemos por idiolecto (Bloch, 1948Bloch, B. (1948). A set of postulates for phonemic analysis. Language, 24(1), 3. https://doi.org/10.2307/410284
) o, una de las acepciones más frecuentes, el
estilo discursivo de una persona. Este estilo, como hemos comentado
previamente, es susceptible de ser modificado según las características
contextuales, pero cabe la posibilidad de plantearse si hay elementos
que permanecen y que son emitidos de manera regular por el hablante (Espinosa y Dabrowski, 2019Espinosa,
G. E., y Dabrowski, A. E. (2019). ¿La práctica discursiva condiciona la
prosodia? Evidencia de una conferencia y una entrevista del español
rioplatense. Repositorio Digital Institucional, Universidad Nacional del Comahue. http://rdi.uncoma.edu.ar//handle/123456789/15781
). De esta manera, lo que parte de un análisis
estilístico del habla de una persona deviene en una especie de estudio
forense e identificativo de ese ser humano.
Si extendemos la idea
previamente expuesta, existen situaciones, y no solo en el ámbito
forense, en los que hay muestras de habla que no son fáciles de
caracterizar desde un punto de vista acústico, bien por las
características deficientes de la grabación, que puede estar
distorsionada, bien porque el hablante ha intentado camuflar su voz. En
estos casos, bastante habituales (Cicres i Bosch, 2011Cicres i Bosch, J. (2011). Transcripció i autenticació de gravacions en contextos judicials. Llengua, Societat i Comunicació: Revista de Sociolingüística de La Universitat de Barcelona, 9, 26-32.
),
la identificación forense es mucho más complicada, pero todavía resta
material presente en la transcripción que puede ser analizado y que no
tiene por qué ser desestimado, ya que puede formar parte de esas
constantes discursivas del sujeto (formas léxicas o gramaticales
reiteradas, posiciones comunes de algunas palabras, duración amplia o
breve de unidades fónicas…).
Por lo tanto, a partir de la
selección de muestras de habla procedentes de cuatro políticos
españoles, es objetivo de este estudio observar el comportamiento
lingüístico de cada uno de ellos en oposición al resto, por una parte,
pero también en oposición a sí mismos cuando participan en géneros
discursivos distintos. Con la finalidad de facilitar esa tarea, se ha
diseñado un sistema de análisis computacional en R (R Core Team, 2020R Core Team. (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
), llamado Oralstats, que puede ser
ampliado y perfeccionado en el futuro para estudiar una variación
idiolectal mayor o incluir un número mayor de registros o unidades de
análisis.
2. SOBRE GÉNEROS, VARIACIÓN IDIOLECTAL Y PROSODIA
⌅Los géneros discursivos son constructos cognitivos que se manifiestan en distintas realizaciones textuales (Biber y Conrad, 2009Biber, D. y Conrad, S. (2009). Register, Genre, and Style. Cambridge: Cambridge University Press. https://doi.org/10.1075/jhp.13.1.07leh
). Se trata, por tanto, de moldes o arquitecturas
textuales que promueven la utilización de recursos verbales y prosódicos
de un modo particular. Los elementos lingüísticos concretos que se
utilizan dependen a su vez del mayor o menor control sobre el discurso
emitido (Briz, 2019Briz, A. (2019). Español coloquial. En E. Ridruejo (Ed.), Manual de lingüística española (pp. 614- 637). Berlín: De Gruyter. https://doi.org/10.1515/9783110362084-023
; Briz y Albelda, 2013Briz,
A. y Albelda, M. (2013). Una propuesta teórica y metodológica para el
análisis de la atenuación lingüística en español y portugués. La base de
un proyecto común (ES.POR.ATENUACIón). Onomázein. Revista de Lingüística, Filología y Traducción, 28, 288-319. https://doi.org/10.7764/onomazein.28.21
). Son géneros discursivos, por tanto, la
entrevista, la conversación, el mitin político, el monólogo de humor, la
tertulia discursiva, etc. (Cabedo, 2009Cabedo, A. (2009). La segmentación prosódica en español coloquial. Valencia: Quaderns de Filologia de la Universidad de Valencia.
; Biber y Conrad, 2009Biber, D. y Conrad, S. (2009). Register, Genre, and Style. Cambridge: Cambridge University Press. https://doi.org/10.1075/jhp.13.1.07leh
; Calvi, 2010Calvi, M. V. (2010). Los géneros discursivos en la lengua del turismo: Una propuesta de clasificación. Ibérica: Revista de la Asociación Europea de Lenguas para Fines Específicos (AELFE), 19, 9-32.
).
Estos géneros incluyen características lingüísticas comunes que los definen como estereotipos comunicativos (Caelen-Haumont, 1993Caelen-Haumont,
G. (1993). Procesos cognitivos y adaptación de la codificación
prosódica de los hablantes a las condiciones del discurso. Cognitiva, 5(2), 133-152.
; McMenamin, 1993McMenamin, G. R. (1993). Forensic stylistics. En M. Coulthard y A. Johnson (Eds.), The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607.ch32
). Las características de estos géneros son
puestas en funcionamiento por los hablantes, que los usan según el
contexto comunicativo en el que participan. En este sentido, el hablante
cumple con requisitos sociales en su manera de comunicarse, si bien es
posible plantearse también la posibilidad de que haya un núcleo común
lingüístico independiente de cualquier manifestación discursiva.
No
se trata de un acercamiento nuevo para otras lenguas, como el francés,
donde ya existen estudios que han encontrado comportamientos fónicos y
morfosintácticos distintos para géneros como narraciones
conversacionales, noticiarios televisivos, conferencias y discursos
políticos (Degand y Simon, 2009, pp. 94-95Degand,
L. y Simon, A. C. (2009). Mapping prosody and syntax as discourse
strategies: How basic discourse units vary across genres. En D.
Barth-Weingarten, N. Dehé y A. Wichmann (Eds.). Where Prosody Meets Pragmatics (pp. 79-105). Leiden: Brill.
):
the different genres in our sample obey to different production rules. Conversational narration is the more informal genre in our comparison, characterized by a lower degree of complexity that results in a low articulation ratio and short syntactic units (…) Political address, on the other hand, demonstrates very formal and well-prepared scripted speech. Here the opposite tendency can be observed. The speakers deliver their message in a solemn way, speaking slowly (…). Radio news speech is a typical written-to-be-spoken type of discourse where we encounter most congruent units, reading being supported by typographic punctuation units. Conferences, then, show a high degree of mixed BDUs, a combination of syntax-bound and intonation-bound units
En español, el estudio fónico de géneros discursivos ha sido abordado por diferentes trabajos de investigación (Cabedo, 2007Cabedo, A. (2007). Caracterización prosódica del estilo directo de habla en la conversación coloquial. Estudios de Lingüística de la Universidad de Alicante, 21, 53-64. http://dx.doi.org/10.14198/ELUA2007.21.04
, 2009Cabedo, A. (2009). La segmentación prosódica en español coloquial. Valencia: Quaderns de Filologia de la Universidad de Valencia.
; Estellés y Albelda, 2014Estellés, M., y Albelda, M. (2014). Evidentials, politeness and prosody in Spanish: A corpus analysis. Journal of Politeness Research: Language, Behaviour, Culture, XXX(1), 29-62.
). En estudios como el de Estellés y Albelda (2014)Estellés, M., y Albelda, M. (2014). Evidentials, politeness and prosody in Spanish: A corpus analysis. Journal of Politeness Research: Language, Behaviour, Culture, XXX(1), 29-62.
,
en el que se relacionan marcas evidenciales, prosodia y géneros
discursivos, se detecta amplia variedad asociada al comportamiento
prosódico del debate parlamentario; esa misma variedad es causante de
constituir diferentes grupos explicativos en el seno del mismo género
discursivo:
there are instances of impolite meanings containing zero, one, two or three prosodic marks, whereas the other groups show a certain degree of coherence in the number of marked parameters exhibited. The underlying reason for this odd behaviour has to do with the fact that all impolite examples in our corpus are ascribed to one and the same genre, namely parliamentary debate. This genre is characterized, in the Spanish tradition, by its confrontational nature; interventions in the Spanish Parliament are meant to be impolite
En estos casos, la individualidad del hablante y su comunicación idiosincrásica trae a la mente conceptos como el idiolecto. Precisamente, una de las primeras definiciones sobre el término la aporta Bloch (1948, p. 7)Bloch, B. (1948). A set of postulates for phonemic analysis. Language, 24(1), 3. https://doi.org/10.2307/410284
, que utiliza el término de manera explícita para
referirse principalmente a características fonéticas del ser humano,
aunque no exclusivamente, y señala lo siguiente:
The totality of possible utterances of one speaker at one time in using a language to interact with one other speaker is an idiolect… Our definition implies
a) that an idiolect is peculiar to one
speaker, (b) that a given speaker may have different idiolects at
successive stages of his career, and (c) that he may have two or more
different idiolects at the same time. (Bloch, 1948, p. 7Bloch, B. (1948). A set of postulates for phonemic analysis. Language, 24(1), 3. https://doi.org/10.2307/410284
)
Aunque la definición de Bloch (1948)Bloch, B. (1948). A set of postulates for phonemic analysis. Language, 24(1), 3. https://doi.org/10.2307/410284
implica en general la adaptación contextual de
los requisitos lingüísticos del sujeto, el idiolecto se ha consolidado
tradicionalmente en Sociolingüística como el habla individual de una
persona y se ha percibido siempre como un elemento que debe superarse
para poder caracterizar comunidades de habla. “Thus, while idiolects (or
the speech of individuals) considered in isolation might seem random,
the speech community as a whole behaved regularly.” (Romaine, 2000, p. 67Romaine, S. (2000). Language in Society: An Introduction to Sociolinguistics (2a edic.). Oxford: Oxford University Press.
);
o en la misma línea, “within sociolinguistics, language variation
patterns of individuals were not often studied except when aggregated to
approximate and reveal the language variation patterns of the speech
community” (Hazen, 2007, p. 73Hazen, K. (2007). The study of variation in historical perspective. En R. Bayley y C. Lucas (Eds.), Sociolinguistic Variation (pp. 70-89). Cambridge: Cambridge University Press. https://doi.org/10.1017/cbo9780511619496.005
). De hecho, no es nada extraño que algunos de los
mayores expertos en lingüística forense procedan del ámbito de la
Sociolingüística (Coulthard, 2013Coulthard, M. (Ed.) (2013). Advances in Spoken Discourse Analysis. Londres: Routledge. https://doi.org/10.4324/9780203200063
, 2014Coulthard, M. y C. N. Condlin (Eds.) (2014). An Introduction to Discourse Analysis. Londres: Routledge. https://doi.org/10.4324/9781315835884
, 2007Coulthard, M. (2007). An Introduction to Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203969717
; Coulthard y Johnson, 2010Coulthard, M. y Johnson, A. (2010). The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607
). Curiosamente, el objetivo sociolingüístico,
como decíamos previamente, es prescindir de las marcas heterogéneas de
los propios hablantes para buscar el núcleo común: “Findings such as
these are vital for the task of identifying the unity of a language from
among the enormous diversity of dialects (and idiolects) that we find
in the world (…) this kind of orderly heterogeneity” (Guy, 2011, p. 183Guy, G. R. (2011). Language, social class, and status. En R. Mesthrie (Ed.) The Cambridge Handbook of Sociolinguistics (pp. 159-185). Cambridge: Cambridge University Press. https://doi.org/10.1017/cbo9780511997068.015
). Así pues, tanto la Lingüística Forense como el
presente estudio pretenden mantener el foco en esa heterogeneidad
discursiva, con la finalidad última de caracterizar el habla particular
de un sujeto y, si cabe, poder identificar sus marcas constantes en el discurso hablado, sea cual sea el género en el que se inserte.
De esta manera, el concepto de idiolecto y de autor son de facto concomitantes. Determinar las características lingüísticas
de un autor pueden tener, por tanto, una doble finalidad: por un lado,
se trata de un análisis estilístico del modo de hablar de un ser humano;
por otro lado, si esas características son estables o, incluso, si son
poco habituales frente al resto de expresiones verbales en una comunidad
de habla, podrían servir, en el marco forense, para poder identificar a
ese hablante en un momento discursivo concreto. Aunque algunos trabajos
señalan la importancia de las características lingüísticas de autor en
los textos escritos (Chaski, 2012Chaski, C. E. (2012). Author identification in the forensic setting. En L. M. Solan y P. M. Tiersma (Eds.), The Oxford Handbook of Language and Law. Oxford: Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199572120.013.0036
; Coulthard et al., 2011Coulthard, M., Grant, T. y Kredens, K. (2011). Forensic linguistics. In R. Wodak, B. Johnstone y P. E. Kerswill (Eds.), The SAGE Handbook of Sociolinguistics (pp. 529-544). Londres: SAGE Publications Ltd. https://doi.org/10.4135/9781446200957.n36
; McMenamin, 1993McMenamin, G. R. (1993). Forensic stylistics. En M. Coulthard y A. Johnson (Eds.), The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607.ch32
), la idea subyacente es que estas marcas lingüísticas pueden extrapolarse a las muestras orales.
Los requisitos que debe cumplir una variable lingüística para erigirse como marca de autoría son distintos según los estudios (Chaski, 2012Chaski, C. E. (2012). Author identification in the forensic setting. En L. M. Solan y P. M. Tiersma (Eds.), The Oxford Handbook of Language and Law. Oxford: Oxford University Press. https://doi.org/10.1093/oxfordhb/9780199572120.013.0036
; Coulthard et al., 2011Coulthard, M., Grant, T. y Kredens, K. (2011). Forensic linguistics. In R. Wodak, B. Johnstone y P. E. Kerswill (Eds.), The SAGE Handbook of Sociolinguistics (pp. 529-544). Londres: SAGE Publications Ltd. https://doi.org/10.4135/9781446200957.n36
; Grant, 2008Grant, T. (2008). Approaching questions in forensic authorship analysis. En J. Gibbons y M. T. Turell (Eds.), Dimensions of Forensic Linguistics (pp. 215-229). Ámsterdam: John Benjamins. https://doi.org/10.1075/aals.5.15gra
; Grant y Baker, 2001Grant, T. y Baker, K. (2001). Identifying reliable, valid markers of authorship: A response to Chaski. Forensic Linguistics, 8(1), 66-79. https://doi.org/10.1558/sll.2001.8.1.66
), aunque estos estudios suelen priorizar valores
léxicos o morfosintáticos, dado que se centran en textos escritos. En la
práctica se han demostrado útiles elementos ortotipográficos,
morfológicos, sintácticos, léxicos, pragmáticos y discursivos (Coulthard, 2007Coulthard, M. (2007). An Introduction to Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203969717
; Coulthard y Johnson, 2010Coulthard, M. y Johnson, A. (2010). The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607
; McMenamin, 1993McMenamin, G. R. (1993). Forensic stylistics. En M. Coulthard y A. Johnson (Eds.), The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607.ch32
). Las prácticas basadas en la identificación de marcas de autoría en los textos escritos han centrado su interés en marcas de
distintos niveles lingüísticos, principalmente en las marcas léxicas y,
de manera secundaria, en las marcas sintácticas (Spassova, 2009Spassova, M. (2009). El
potencial discriminatorio de las secuencias de categorías gramaticales
en la atribución forense de autoría de textos en español Tesis Doctoral. Barcelona: Instituto Universitario de Lingüística Aplicada, Universitat Pompeu Fabra. https://www.tdx.cat/handle/10803/7512%3Bjsessionid%3D#page=165
), entre otros tipos de marcas (por ejemplo, n-
gramas de caracteres, puntuación, etc.). Al mismo tiempo, en el marco de
los estudios orales, se ha partido también de otros tantos factores,
como el estudio de factores como la fonética segmental (Leemann et al., 2018Leemann,
A., Kolly, M.-J., Nolan, F. y Li, Y. (2018). The role of segments and
prosody in the identification of a speaker’s dialect. Journal of Phonetics, 68, 69-84. https://doi.org/10.1016/j.wocn.2018.02.001
), las pausas llenas (Cicres i Bosch, 2014Cicres i Bosch, J. (2014). Comparación forense de voces mediante el análisis multidimensional de las pausas llenas. Revista Signos: Estudios de Lingüística, 86, 365-384. http://dx.doi.org/10.4067/S0718-09342014000300002
), etc.; algunos autores incluso postulan la
importancia de tomar varios rasgos como conjunto o clúster: “in forensic
authorship attribution, the linguist`s task is to identify the writer’s
habitual choices and define them as a set” (McMenamin, 2002, p. 158McMenamin, G. R. (2002). Forensic Linguistics: Advances in Forensic Stylistics. Nueva York: CRC Press.
).
En
relación con la prosodia de los géneros discursivos, existen ya
trabajos que estudian las características prosódicas de diferentes
géneros discursivos, aunque en muchas ocasiones se estudia géneros de
una mayor preparación discursiva; por ejemplo, hay estudios sobre la
radio o las noticias en televisión (de la Mota y Rodero, 2010De
la Mota, C., y Rodero, E. (2010). La demarcación entonativa y el
énfasis en la locución de los editores de boletines informativos
radiofónicos. En Sociedad Española de Lingüística (Ed.), XXXIX Simposio Internacional de la Sociedad Española de Lingüística (pp. 1-69). https://dialnet.unirioja.es/servlet/articulo?codigo=5412029
; Rodero, 2012Rodero, E. (2012). A comparative analysis of speech rate and perception in radio bulletins. Text & Talk, 32(3), 391-411. https://doi.org/10.1515/text-2012-0019
). También estudios fónicos sobre otros géneros
discursivos, como la retransmisión deportiva, el discurso político o la
conversación coloquial (Cabedo, 2007Cabedo, A. (2007). Caracterización prosódica del estilo directo de habla en la conversación coloquial. Estudios de Lingüística de la Universidad de Alicante, 21, 53-64. http://dx.doi.org/10.14198/ELUA2007.21.04
, 2009Cabedo, A. (2009). La segmentación prosódica en español coloquial. Valencia: Quaderns de Filologia de la Universidad de Valencia.
; Hidalgo, 2019Hidalgo, A. (2019). Sistema y uso de la entonación en español hablado. Santiago de Chile: Universidad Andrés Hurtado.
).
Estudios más recientes sobre la entrevista, la conversación y el
monólogo de humor han determinado la importancia del grado de
planificación discursiva en el tipo de factor prosódico alterado: “los
[géneros] menos planificados presentan una mayor polarización, sobre
todo centrada en el descenso de la intensidad y en el aumento de la
velocidad de habla” (Cabedo, 2018, pp. 234-235Cabedo,
A. (2018). Atenuación con disminución prosódica significativa en
géneros con distinto grado de planificación discursiva. Spanish in Context, 15(2), 219-237.
).
3. METODOLOGÍA
⌅La
metodología del presente estudio está basada en el análisis
cuantitativo de datos lingüísticos extraídos de material sonoro de habla
y de sus respectivas transcripciones, así como de los datos prosódicos (f0 e intensidad) extraídos de PRAAT (Boersma y Weenink, 2021Boersma, P. y Weenink, D. (2021). PRAAT (Version 6.1.53) [Computer software]. http://www.praat.org/
). Si bien el sistema utilizado para la
explotación de los datos (Oralstats, desarrollado en la Sección 3.2)
permite analizar grandes cantidades de información, funciona mejor con
cantidades medias, en una horquilla variable de 1000 a 10000 registros.
Al
mismo tiempo, cabe señalar que la perspectiva de análisis es
exploratoria; es decir, aunque algunas pruebas realizadas por el sistema
arrojan valores de significación estadística, estos deben completarse
en la medida de lo posible con un análisis valorativo por parte del
investigador (López Serena, 2019López Serena, A. (2019). La lingüística como ciencia humana: Una incursión desde la filosofía de la ciencia. Madrid: Arco/Libros-La Muralla.
). En este sentido, incidimos en el hecho de que, en modo similar a como sucede en algunos estudios de Lingüística Forense (Cicres i Bosch, 2011Cicres i Bosch, J. (2011). Transcripció i autenticació de gravacions en contextos judicials. Llengua, Societat i Comunicació: Revista de Sociolingüística de La Universitat de Barcelona, 9, 26-32.
),
los audios analizados en esta investigación proceden de entornos de
habla espontánea y eso puede condicionar el comportamiento de algunas
variables fonéticas específicas, como valores de f0 o intensidad.
No obstante, el sistema desarrollado para este estudio permite observar
posibles datos anómalos o alterados mediante diagramas de caja y
procedimientos de estadística descriptiva, así como filtrar casos
extremos para las diferentes variables de análisis.
3.1. Datos recogidos
⌅Con finalidad exploratoria, hemos recogido un conjunto de datos procedente de cuatro políticos españoles (Pablo Casado, Rafael Hernando, Pablo Iglesias e Íñigo Errejón). Todos ellos han participado en eventos discursivos de distinta índole que han sido publicados posteriormente en Youtube. De esta manera, los fragmentos analizados proceden de mítines, tertulias, ruedas de prensa y entrevistas. Normalmente, se ha transcrito una breve porción de estos archivos, alrededor de un minuto o dos minutos por género y hablante.
La elección de figuras de la política española se debe a que precisamente su labor ciudadana motiva que participen en múltiples actos comunicativos, con diferentes requisitos y correspondientes expectativas discursivas. Al mismo tiempo, la voluntad pública de su trabajo, el hecho de querer conectar con la ciudadanía facilita que puedan encontrarse muestras de habla de variada tipología en plataformas audiovisuales como Youtube. Los archivos de vídeo procesados en Youtube suelen proceder de fragmentos extraídos de noticiarios o de las propias páginas web de los partidos políticos. Esto suele asegurar que la calidad del audio sea adecuada, dado que las grabaciones se han recogido mediante micrófono y muchas veces en entorno cerrado, a excepción de los mítines o de algunas ruedas de prensa. Por otro lado, en este estudio se han elegido cuatro géneros discursivos: dos de ellos, las tertulias y las entrevistas, son dialógicos, mientras que los otros dos, los mítines y las ruedas de prensa, son monológicos.
De
cada archivo de vídeo se ha extraído un archivo de audio para ser
posteriomente transcrito en grupos entonativos mediante el programa ELAN (Max Planck Institute for Psycholinguistics, The Language Archive, 2021)ELAN (version 6.2) [Computer software] (2021). Nimega: Max Planck Institute for Psycholinguistics. https://archive.mpi.nl/tla/elan
. La identificación de los grupos entonativos se
ha determinado básicamente mediante el uso de pausas superiores a 300
milisegundos, aunque también se ha prestado atención, en ocasiones, a
otros criterios como el reajuste entonativo, siguiendo pautas
establecidas previamente en la bibliografía (Cabedo, 2011Cabedo,
A. (2011). Hacia un modelo predictivo para la segmentación prosódica
del discurso oral coloquial: MESTEL (Modelo Estadístico para la
selección de Términos Entonativos Ligados). Oralia: Análisis del discurso oral, 14, 85-104.
; Hidalgo, 2019Hidalgo, A. (2019). Sistema y uso de la entonación en español hablado. Santiago de Chile: Universidad Andrés Hurtado.
). Con la ayuda de PRAAT (Boersma y Weenink, 2021Boersma, P. y Weenink, D. (2021). PRAAT (Version 6.1.53) [Computer software]. http://www.praat.org/
), las palabras y los diferentes alófonos de esta
transcripción manual en grupos entonativos se han alineado de manera
semiautiomática al tiempo. También con el uso de PRAAT se han recogido,
además, los datos acústicos de frecuencia fundamental e intensidad
(archivos PitchTier e IntensityTier).
Así pues, para cada fragmento susceptible de análisis hemos dispuesto de diferente material audiovisual y textual:
-
Vídeo procedente de Youtube.
-
Audio extraído del vídeo.
-
Archivo eaf (del programa ELAN) con la transcripción alineada al audio.
-
Archivo TextGrid con la transcripción alineada al audio en grupos entonativos, palabras y alófonos.
-
Archivo tabulado extraído del archivo eaf. En él se incorporan varias columnas: hablante, tiempo de inicio, tiempo final, duración, texto y nombre del archivo.
-
Archivo Pitchtier de PRAAT con valores de pitch recogidos para cada 0.001 segundos y guardados en formato tabulado sin encabezado.
-
Archivo Intensitytier de PRAAT con valores de pitch recogidos para cada 0.001 segundos y guardados en formato tabulado sin encabezado.
Las frecuencias de los grupos entonativos recogidos y transcritos quedan reflejados en la Tabla 1:
sp_g | time_used | time_max | ip | words | words_ip | phon |
---|---|---|---|---|---|---|
e_e | 43500 | 67010 | 27 | 179 | 6.63 | 830 |
e_m | 46400 | 152790 | 29 | 184 | 6.34 | 729 |
e_r | 54560 | 93330 | 39 | 201 | 5.15 | 923 |
e_t | 44710 | 181030 | 39 | 168 | 4.31 | 783 |
pc_e | 52110 | 81040 | 22 | 210 | 9.55 | 952 |
pc_m | 42460 | 1441060 | 22 | 144 | 6.55 | 648 |
pc_r | 48050 | 174890 | 27 | 161 | 5.96 | 768 |
pc_t | 52830 | 60910 | 28 | 226 | 8.07 | 913 |
pi_e | 32290 | 61950 | 16 | 122 | 7.62 | 572 |
pi_m | 55160 | 159200 | 37 | 137 | 3.70 | 679 |
pi_r | 48870 | 61570 | 27 | 147 | 5.44 | 721 |
pi_t | 51250 | 273740 | 30 | 179 | 5.97 | 817 |
rh_e | 40590 | 93440 | 21 | 125 | 5.95 | 593 |
rh_m | 56510 | 181130 | 21 | 181 | 8.62 | 834 |
rh_r | 47520 | 65170 | 17 | 156 | 9.18 | 678 |
rh_t | 74650 | 197590 | 35 | 257 | 7.34 | 1080 |
total | 791460 | 1441060 | 437 | 2777 | 6.35 | 12520 |
En general, tal y como se observa en la Tabla 1, hay un cierto equilibrio entre los grupos entonativos recogidos. Debe tenerse en cuenta que los marcos de tiempo han sido los mismos para todas las muestras de los distintos géneros discursivos; es decir, las frecuencias de la Tabla 1 son los grupos entonativos emitidos por los hablantes durante dos minutos de grabación de cada archivo. De hecho, las propias frecuencias ya señalan posibles características idiosincrásicas de los hablantes. Por ejemplo, Rafael Hernando emite una media de 8.5 a 9 palabras por grupos entonativos para el mitin y la rueda de prensa, muy por encima de los mítines o las ruedas de prensa del resto de políticos. Ello indica, a falta de un análisis más específico, que sus enunciados son mucho más amplios. Curioso es también el dato en la dirección inversa de Pablo Iglesias, con una media de 3.7 palabras para el mitin político; es decir, sus grupos entonativos son habitualmente más breves.
A modo de ejemplificación de lo comentado sobre la duración de los grupos entonativos de Pablo Iglesias y Rafael Hernando, podemos ver algunos ejemplos, con sus valores de duración medios en la Tabla 2:
sp_g | text | duration |
---|---|---|
pi_m | nunca más | 0.92 |
pi_m | una España sin su gente nunca | 1.81 |
pi_m | nunca más una España sin sus pueblos | 2.06 |
pi_m | nunca más | 0.69 |
pi_m | una españa sin ternura | 1.47 |
pi_m | buenas tardes- madrid | 1.24 |
rh_m | y este es el gran cambio al que algunos se niegan a reconocer | 3.24 |
rh_m | el de pasar de la recesión a la recuperación | 2.80 |
rh_m | en la locomotora del crecimiento | 2.16 |
rh_m | este gran cambio es también el resultado de la suma de historias de superación de millones de españoles | 5.49 |
rh_m | capaz de superar grandes dificultades cuando tiene un buen gobierno con la visión y la ambición | 5.20 |
rh_m | de afrontar con valentía los problemas que es lo que hace nuestro partido en este caso con Mariano Rajoy al frente | 6.48 |
3.2. Descripción general de Oralstats
⌅Con el nombre de Oralstats (Cabedo 2021Cabedo, A. (2021). Oralstats. A tool to visualize and explore transcriptions and phonic data. https://github.com/acabedo/oralstats
) designamos un conjunto de scripts desarrollados
en R que permiten dos operaciones básicas: en primer lugar, la
transformación de datos textuales procedentes de transcripciones
(etiquetado morfosintáctico, transcripción de grupos entonativos,
palabras o alófonos, etc.) y su combinación con datos de frecuencia
fundamental, duración y de intensidad. Todos estos scripts se encuentran
a disposición de cualquier investigador de manera gratuita en https://github.com/acabedo/oralstats.
Normalmente, las transcripciones proceden de la exportación en texto tabulado realizada desde el programa ELAN (Max Planck Institute for Psycholinguistics, The Language Archive, 2021)ELAN (version 6.2) [Computer software] (2021). Nimega: Max Planck Institute for Psycholinguistics. https://archive.mpi.nl/tla/elan
y los datos fónicos proceden del programa PRAAT (Boersma y Weenink, 2021Boersma, P. y Weenink, D. (2021). PRAAT (Version 6.1.53) [Computer software]. http://www.praat.org/
). En segundo lugar, Oralstats permite una
visualización de los datos en un formato exploratorio mediante gráficos
básicos (círculos, diagramas de caja) y, también, mediante la aplicación
de algunas técnicas de visualización estadística más avanzada, como
mapas de calor o árboles de decisiones.
Las variables que genera el módulo de conversión de Oralstats son las siguientes:
-
Columnas de identificación id para los alófonos, palabras, grupos entonativos, archivos y hablantes.
-
Variables prosódicas: máximo, mínimo, mediana y media de f0, así como rango tonal (en Hz y St), mediana y media de intensidad, duración media y duración de las pausas previas y posteriores. También se calcula la diferencia de la unidad fónica analizada con la media de la unidad fónica previa y con la media del hablante. Además, se computa una versión básica y experimental de codificación TOBI y de las diferencias porcentuales según el análisis melódico del habla (Cantero Serena y Font Rotchés, 2009Cantero Serena, F. J., y Font Rotchés, D. (2009). Protocolo para el análisis melódico del habla. Estudios de Fonética Experimental, XVIII, 17-32.
). Para estas últimas operaciones se toman como referencia valores de las vocales (primero, medio y final) y no de las sílabas, como se propone en sistemas de etiquetado fónico automático mucho más elaborados (Elvira-García et al., 2016Elvira-García, W., Roseano, P., Fernández Planas, A. M. y Martínez Celdrán, E. (2016). A tool for automatic transcription of intonation: Eti-ToBI a ToBI transcriber for Spanish and Catalan. Language Resources and Evaluation, 50(4), 767-792. https://doi.org/10.1007/s10579-015-9320-9
). -
Variables morfosintácticas: cantidad de verbos, sustantivos, adjetivos, numerales, adverbios y pronombres. Para ello se realiza un etiquetado morfosintáctico automático mediante la librería UDPipe (Straka, 2018Straka, M. (2018). UDPipe 2.0 prototype at CoNLL 2018 UD shared task. En Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (pp. 197-207). Bruselas: Association for Computational Linguistics. https://doi.org/10.18653/v1/K18-2020
). -
Variables posicionales: primera y última palabra del grupo entonativo, así como tonemas, estructura acentual de la palabra (aguda o no aguda) y posición de la palabra en el grupo (precuerpo, cuerpo o final).
Con Oralstats
pueden realizarse diferentes operaciones estadísticas; mientras que
algunas proceden de una visualización específica de los datos (gráfico
circular, diagrama de caja, mapa de calor…), otras aplican técnicas de
discriminación entre grupos, como los árboles de decisiones, la prueba
ANOVA o el análisis discriminante. Estas últimas técnicas ofrecen
valores de significación estadística, pero nuestro objetivo se articula
más como exploratorio que como validatorio. En contextos comunicativos
orales, sobre todo con material de habla espontánea, parece más sensato
considerar tendencias en los datos y no extrapolar validaciones
generales sin precaución o cautela. En todo caso, un valor p por debajo
del nivel de significación establecido siempre apuntará en direcciones
que deben explorarse de modo cualitativo por parte del investigador. Lo
cuantitativo y lo cualitativo deben necesariamente ir de la mano (López Serena, 2019López Serena, A. (2019). La lingüística como ciencia humana: Una incursión desde la filosofía de la ciencia. Madrid: Arco/Libros-La Muralla.
).
Una versión accesible del entorno computacional generado y del material utilizado para este estudio (sin incluir los audios), puede encontrarse en el siguiente enlace:<https://adrin-cabedo.shinyapps.io/oralstatsgenres/>. Por su parte, los scripts de transformación y visualización del programa se encuentran a disposición general en el siguiente repositorio de Github: <https://github.com/acabedo/oralstats>.
Actualmente, las versiones con las que se ha trabajado deben considerarse beta.
4. ANÁLISIS Y RESULTADOS
⌅Esta sección de análisis de las muestras orales recogidas incluye varios subapartados: mapa de calor, árbol de decisiones y diagramas de caja, ya que consideramos que es el orden que debería seguirse para realizar un análisis lingüístico del material utilizado.
En Oralstats la sección de Heatmap permite visualizar un gráfico con la media de las variables numéricas que consideremos de interés para ser estudiadas y una variable de agrupación. En la parte inferior del gráfico, así mismo, se añade una tabla con la media, mediana y desviación típica de las variables que se proyectan en el mapa de calor. Al mismo tiempo, la opción de heatmap permite establecer una agrupación basada en un análisis de clúster. Por eso mismo, la visualización por color y el análisis de clúster facilitan detectar variables que pueden ser relevantes para ser incorporadas en un modelo de explicación multivariable, como el que se observa en la sección de Árbol de decisiones o análisis discriminante (Sección 4.4), y los diagramas de caja para cada factor o categoría que reflejan la mediana y los cuartiles de una variable numérica. Por tanto, en el análisis con el que se opera en Oralstats se recomienda empezar por técnicas de visualización amplias y posteriormente por técnicas de clasificación más específicas.
Muchas técnicas de visualización
estadística, como los árboles de decisiones, tienen en la actualidad
muchos seguidores en el ámbito científico. Como señala Gries (2019, p. 644)Gries,
S. (2019). On classification trees and random forests in corpus
linguistics: Some words of caution and suggestions for improvement. Corpus Linguistics and Lingustic Theory, 16, 617-647. https://doi.org/10.1515/cllt-2018-0078
: “Treebased methods have become a welcome
alternative for data sets that defy regression-based methods especially
in noisy and unbalanced corpus data, and that, in and of itself, is
potentially a good thing.” En general, el uso de los árboles de
decisiones y de técnicas de visualización similares parece por lo tanto
adecuado para explorar y analizar relaciones entre variables de bases de
datos orales, donde el equilibrio o balance entre los datos no se
cumple siempre con la frecuencia esperada.
4.1. Mapa de calor
⌅En esta sección presentamos dos mapas de calor generados mediante Oralstats para el análisis de los grupos entonativos de los hablantes, tanto cuando se considera a estos hablantes como seres individuales, sin influencia del género discursivo, como cuando son tomados como sujetos discursivos diferentes según el género discursivo en el que participan.
Los análisis de clúster establecen dos grandes grupos con sucesivas bifurcaciones o subgrupos. Los dos primeros oponen los mítines políticos de los cuatro hablantes y las tertulias de todos menos la de Pablo Iglesias frente al resto de géneros, es decir, las entrevistas y las ruedas de prensa. Por su parte, los subgrupos son los siguientes:
-
Entrevista y rueda de prensa de Errejón y rueda de prensa de Pablo Casado
-
Entrevistas de Pablo Iglesias y Pablo Casado.
-
Rueda de prensa y tertulia de Pablo Iglesias y rueda de prensa y entrevista de Rafael Hernando.
-
Mítines de todos los políticos analizados.
-
Tertulias de todos los políticos, menos la de Pablo Iglesias.
En cuanto a la agrupación de las variables más importantes, la intensidad y la media tonal tomada en semitonos, junto con la cantidad de palabras y el rango tonal, también en semitonos, resultan ser las variables más relevantes en la agrupación de los grupos y subgrupos que hemos comentado con anterioridad.
Los resultados de la visualización
implican consideraciones totalmente esperables: los cuatro géneros se
dividen según el mayor énfasis comunicativo; en el caso de los mítines,
por la voluntad de ser enérgico en la comunicación con el público (Degand y Simon, 2009Degand,
L. y Simon, A. C. (2009). Mapping prosody and syntax as discourse
strategies: How basic discourse units vary across genres. En D.
Barth-Weingarten, N. Dehé y A. Wichmann (Eds.). Where Prosody Meets Pragmatics (pp. 79-105). Leiden: Brill.
; Estellés y Albelda, 2014Estellés, M., y Albelda, M. (2014). Evidentials, politeness and prosody in Spanish: A corpus analysis. Journal of Politeness Research: Language, Behaviour, Culture, XXX(1), 29-62.
), mientras que en las tertulias, debido a su entorno de conflicto, el interviniente tiende a subir tono de voz e intensidad (Cabedo, 2007Cabedo, A. (2007). Caracterización prosódica del estilo directo de habla en la conversación coloquial. Estudios de Lingüística de la Universidad de Alicante, 21, 53-64. http://dx.doi.org/10.14198/ELUA2007.21.04
). En el caso de la entrevista y de la rueda de
prensa, tanto la intensidad como las medias tonales son ciertamente
inferiores. Como dato anecdótico, y quizá puede percibirse en él una
marca idiolectal, llama la atención que Pablo Iglesias, a diferencia de
los otros políticos, mantenga un tono de voz y una intensidad más bajas
en la tertulia, donde el trasfondo confrontacional parece provocar lo
contrario.
Cabe recordar que este análisis preliminar no tiene en cuenta variables categóricas y que, en este caso, variables como la configuración melódica (recogida en sistema TOBI) todavía no se aplica y, por tanto, no podemos conocer en este momento su alcance para generar un modelo adecuado de clasificación.
Con el mapa de calor por hablante, en la Figura 2, sí parecen configurarse singularidades idiolectales, aunque el análisis de clúster, activado por defecto en la prueba, detecta que Pablo Casado e Íñigo Errejón tienen más cercanías en sus discursos que Pablo Iglesias. Pueden verse a continuación casos de Pablo Iglesias extraídos en este caso de la entrevista y del mitin; en ellos se observan valores relativamente bajos, tanto de intensidad como de rango tonal:
phon | PimnSt | PirSt | Imn | file |
---|---|---|---|---|
buenos días Pepa | 80.13 | 6.55 | 69.96 | pi_e |
yo creo que no debilita al gobierno de Pedro Sánchez la dimisión de Màxim Huerta o la dimisión de la | 76.99 | 9.02 | 69.53 | pi_e |
antigua ministra de sanidad al contrario | 77.14 | 5.87 | 69.85 | pi_e |
una España sin su gente nunca | 88.48 | 7.54 | 67.61 | pi_m |
nunca más una España sin sus pueblos | 89.48 | 6.17 | 68.77 | pi_m |
sonreíd | 87.25 | 5.41 | 66.69 | pi_m |
Por su parte, Rafael Hernando presenta una mayor cantidad de elementos morfosintácticos en sus enunciados, si bien debemos tener en cuenta la variable de la duración, notablemente más alta que la del resto de políticos. Al mismo tiempo, los valores globales de intensidad y tono son también menores. Este es sin duda un dato curioso, dado que aunque el tono global sea menor, el rango tonal es mucho mayor que para los otros políticos; los valores tonales amplios suelen implicar una mayor variación en los contornos melódicos empleados y un mayor énfasis en partes concretas del discurso.
4.2. Árbol de decisiones y análisis discriminante
⌅En la sección de árbol de decisiones podemos elegir un conjunto de variables numéricas o categóricas que sirvan de predictores para caracterizar grupos de otra variable de entrada. De esta manera, en esta sección exploraremos dos variables de entrada: la variable archivo que, en realidad, es la variable que cataloga a los datos por autor y por género; por otro lado, también analizaremos la variable hablante que aglutina los datos sin considerar el género discursivo y que, por tanto, permite observar el núcleo común denominador de un sujeto.
En el caso concreto de los dos árboles de decisiones que comentamos en
este apartado, hemos usado un conjunto amplio de variables como
predictores, aunque, como se vio en la sección del mapa de calor,
realmente son dos variables (media tonal e intensidad media)
las más concluyentes en la separación de datos. En este caso, además,
hemos podido introducir dos variables categóricas que aportan
configuraciones melódicas en sistema TOBI, tanto las anotaciones
melódicas de las últimas sílabas tónicas de los enunciados, como los
tonos de frontera. En todo caso, debemos recordar que este etiquetado no
es tan detallado ni específico como el propuesto por otros autores para
otros sistemas de etiquetado automático (Elvira-García et al., 2016Elvira-García,
W., Roseano, P., Fernández Planas, A. M. y Martínez Celdrán, E. (2016).
A tool for automatic transcription of intonation: Eti-ToBI a ToBI
transcriber for Spanish and Catalan. Language Resources and Evaluation, 50(4), 767-792. https://doi.org/10.1007/s10579-015-9320-9
).
En los dos árboles de las Figura 3 y 4, advertimos una singularidad que se observa en el eje de abscisas, donde aparecen los nombres abreviados de los hablantes y de los géneros discursivos. Dado que el gráfico es amplio y hay dieciséis categorías, el eje solo incluye algunas de ellas en la visualización (e_e, pc_r y pi_t). El eje de abscisas está ordenado alfabéticamente, por lo que las sucesivas líneas verticales se establecen siguiendo el presente orden: e_e, e_m, e_r, e_t, pc_e, pc_m, pc_r, pc_t, pi_e, pi_m, pi_r, pi_t, rh_e, rh_m, rh_r, rh_t. En general, se trata del nombre del hablante (e por Errejón, pc por Pablo Casado, pi por Pablo Iglesias y rh por Rafael Hernando) seguido del nombre del género discursivos (e por entrevista, m por mitin, r por rueda de prensa y t por tertulia). En la Figura 3, el orden es e, pc, pi y rh.
En el árbol expuesto en la Figura 3, observamos un núcleo amplio de 305 grupos entonativos en el nodo 6, caracterizados por una media tonal entre 80.13 y 90.97 semitonos y una intensidad media superior a 62.12 dB. El problema de esta clasificación, y que luego se contemplará aún mejor en el análisis discriminante, señala que la mayor parte de grupos entonativos se aglutinan bajo este marco de tono y de intensidad y, de esta manera, es difícil separarlos por categoría, es decir, discriminar mejor los géneros discursivos y los hablantes.
No obstante, sí hay datos que pueden resultar curiosos y llamativos; por ejemplo, en el nodo 2, con tonos bajos, aparecen unos diez grupos entonativos de la entrevista de Pablo Iglesias; en el nodo 5, con una intensidad relativamente baja, inferior a 62.12 dB, se observan otros tantos grupos entonativos de Rafael Hernando para la rueda de prensa; en el nodo 8, los grupos entonativos presentan un tono alto, superior a 90.97 semitonos pero una intensidad baja, inferior a 63.59 dB, y pertenecen en su mayoría al mitin de Pablo Casado; ello implica un aumento del énfasis tonal sin necesidad de aumentar la energía articulatoria de la voz. Finalmente, hay un conjunto amplio de 86 casos, en el nodo 9, que incluyen valores altos de tono e intensidad. Son sobre todo casos de mítines de Errejón y Pablo Iglesias, pero también de las tertulias de Pablo Casado.
En la Figura 4 se clasifican los hablantes sin atender a los géneros discursivos en los que participan. Los diferentes nodos generados pueden verse a continuación:
Tres variables son las más llamativas en la Figura 4, la Intensidad media, la media de f0 (en semitonos) y la diferencia de intensidad de los grupos entonativos en relación con la media general del hablante. A diferencia de la Figura 3, en este árbol de decisiones los grupos entonativos se subdividen frecuencialmente de un modo más repartido. En el nodo 6 se observan 9 casos de Pablo Casado con valores bajos de intensidad pero altos en tono: eso implica énfasis melódico pero energía articulatoria disminuida. El nodo 3, y concretamente el nodo 5, con intensidad medio baja y valores tonales también medios, discriminan básicamente casos de Rafael Hernando, casi 50 grupos entonativos en los que la diferencia de intensidad en relación con su media es superior a - -1.43 dB. Este factor indica básicamente o subidas de intensidad marcadas o un componente monótono, ya que los valores particulares de los grupos entonativos se asemejan a la media general. Por otro lado, el nodo 4 muestra casos de Pablo Iglesias. En este nodo se distribuyen grupos entonativos en los que la intensidad es más baja que la media del hablante. Es, por tanto, marca dialectal de Pablo Iglesias usar secuencias de habla marcadamente más bajas que sus secuencias habituales.
Siguiendo con la Figura 4, la parte derecha del gráfico distribuye valores más altos de intensidad, superiores a 65.81 dB. El nodo 10 es el más poblado. En él se distribuyen grupos entonativos de todos los políticos a excepción de valores residuales de Rafael Hernando. Son grupos con una intensidad media comprendida entre 68.53 y 72.99 dB. Muchos de los grupos de Rafael Hernando, sin embargo, aparecen en el nodo 12, con una media alta de intensidad superior a 72.99 dB y con una diferencia en relación con la media de 1 dB. Se trata esta de una subida menor, a diferencia de los casos del nodo 13, pertenecientes en su mayoría a Íñigo Errejón y Pablo Casado; en ellos hay una media superior a 72.99 dB y grupos entonativos con una diferencia de más de 1 dB en relación a la media. Este dato implica que algunos grupos entonativos suben marcadamente la intensidad probablemente para ser percibidos con mayor claridad o para disputar el espacio dialógico. Podemos encontrar ejemplos de ambos hablantes en la Tabla 4; los corchetes indican que se trata de fragmentos confrontacionales en los que hay solapamiento o lucha por el turno con otro hablante:
spk | phon | Imn |
---|---|---|
e | [esto] | 76.16 |
e | [Eduardo] | 77.10 |
e | [hablabas de las elecciones] | 75.80 |
e | [pero cuando multiplicas] | 76.75 |
En último término, para ampliar los resultados el árbol de decisiones, puede completarse el modelo de clasificación usando las mismas variables en el apartado de análisis discriminante de Oralstats. La diferencia es que mientras el árbol de decisiones restringe las variables de predicción a las más concluyentes, en el análisis discriminante podemos observar la importancia de cada variable dentro de la función de discriminación. En el presente caso, interesa estudiar sobre todo el porcentaje de clasificación de las funciones discriminantes generadas. En cuanto a la variable que separa por género y hablante, la clasificación correcta es de solo un 58 %; para la variable que únicamente identifica hablante, la clasificación correcta sube a un 73 %; las variables más priorizadas siguen siendo en ambos casos la media tonal y la media de intensidad.
Son en todo caso modelos de discriminación muy pobres y, seguramente, la información más concluyente que transmiten es que, dentro de la variación observable, hay un núcleo común amplio en cuanto a la configuración discursiva de los hablantes; dicho de otro modo, los hablantes, desde una perspectiva idiolectal, son más parecidos que distintos. Si se comparan a lo largo de géneros discursivos, donde muchas veces las convenciones discursivas están estereotipadas culturalmente, sus semejanzas aumentan y solo algún caso aislado, como el de Pablo Iglesias para las tertulias, establecen marcas de separación más amplias.
4.3. Diagramas de caja
⌅En las secciones anteriores hemos podido observar que dos variables son muy importantes en la discriminación de grupos entonativos por hablante y género discursivo: concretamente, se trata de las variables de media tonal y de intensidad. Por lo tanto, en las siguientes líneas, analizaremos la visualización en forma de diagrama de caja que proporciona Oralstats para estas dos variables. Así mismo, el sistema ofrece también como resultado una prueba de contraste de la varianza (ANOVA) y, en este caso, podemos ver las diferencias significativas entre grupos.
En la Figura 5,
los diagramas de caja muestran las medianas de intensidad para los
distintos hablantes a lo largo de los cuatro géneros discursivos
analizados. En general, la variación es patente, pero destacan los
valores más elevados de Rafael Hernando en la tertulia y los más bajos
de Pablo Casado en los mítines y de Rafael Hernando en las ruedas de
prensa. Pablo Iglesias presenta los valores más bajos de intensidad para
las tertulias discursivas, un discurso que, como manifiestan el resto
de políticos, precisa de una energía articulatoria amplia, sobre todo en
secuencias de disputa o mantenimiento del turno de habla. Esta podría
considerarse inicialmente una marca de autor, en línea similar a la que
indica McMenamin (1993)McMenamin, G. R. (1993). Forensic stylistics. En M. Coulthard y A. Johnson (Eds.), The Routledge Handbook of Forensic Linguistics. Londres: Routledge. https://doi.org/10.4324/9780203855607.ch32
.
En la Figura 6 se observa el diagrama de caja por hablante y género de la variable media de f0, tomada en semitonos:
El gráfico anterior, combinado con los resultados de la prueba ANOVA, sugiere una posible agrupación con un tono medio alto para el grupo entonativo, compuesto por los mítines de todos los políticos y la tertulia de Pablo Casado. En contraste con la Figura 5 anterior, donde el mitin de Pablo Casado, tenía los valores de intensidad más bajos, en este caso hay una compensación inversa mediante el uso de un tono más amplio. Llama la atención el tono más bajo utilizado por Pablo Iglesias en relación con los demás políticos. También hay una zona media compuesta por el resto de géneros discursivos, a excepción de las tertulias de Pablo Casado e Íñigo Errejón y la rueda de prensa de este último, que se situarían en unos valores medio altos.
5. CONCLUSIONES Y VALORACIONES FINALES
⌅A
partir de todo lo expuesto en los apartados anteriores, podemos
elaborar unas conclusiones generales sobre el trabajo de investigación
realizado. En general, se deduce que los hablantes analizados presentan
algunas diferencias pero no de una manera excesivamente amplia ni
precisa; una de las posibles explicaciones es la brevedad de la
muestras, si bien se han tomado muestras breves de habla en un modo
similar al que puede encontrarse para otras disciplinas, como la
Lingüística Forense (Cicres i Bosch, 2011Cicres i Bosch, J. (2011). Transcripció i autenticació de gravacions en contextos judicials. Llengua, Societat i Comunicació: Revista de Sociolingüística de La Universitat de Barcelona, 9, 26-32.
, 2014Cicres i Bosch, J. (2014). Comparación forense de voces mediante el análisis multidimensional de las pausas llenas. Revista Signos: Estudios de Lingüística, 86, 365-384. http://dx.doi.org/10.4067/S0718-09342014000300002
; Coulthard et al., 2011Coulthard, M., Grant, T. y Kredens, K. (2011). Forensic linguistics. In R. Wodak, B. Johnstone y P. E. Kerswill (Eds.), The SAGE Handbook of Sociolinguistics (pp. 529-544). Londres: SAGE Publications Ltd. https://doi.org/10.4135/9781446200957.n36
); en estas disciplinas las circunstancias pueden
propiciar una recogida de audios breves o de audios con una posible
malformación acústica producida por un contexto de habla real y
espontáneo.
Para poder analizar de manera sistemática, variada y
dinámica la base de datos acústica y textual, se ha generado un conjunto
de scripts en R (R Core Team, 2020R Core Team. (2020). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.R-project.org/
) llamado Oralstats que transforma los
datos en una primera fase y que, en segundo término, permite visualizar
en formato interactivo, mediante la adición o elisión de algunas
variables, estos mismos datos en forma de árbol de decisiones, mapas de
calor o diagramas de caja. La idea general es que la información de
alófonos, palabras y grupos entonativos, procedente de una transcripción
alineada en PRAAT (Boersma y Weenink, 2021Boersma, P. y Weenink, D. (2021). PRAAT (Version 6.1.53) [Computer software]. http://www.praat.org/
), pueda servir de entrada a un análisis
estadístico mediante la combinación de relaciones entre unidades
inferiores y unidades mayores; por ejemplo, la segmentación en alófonos
permite tomar datos de las vocales y obtener posteriormente valores de
reajuste o subida tonal, mayor o menor duración…, y también otro tipo de
catalogaciones, como la transformación en un sistema TOBI básico,
siguiendo los pasos de otros modelos computacionales mucho más
elaborados y depurados (Elvira-García et al., 2016Elvira-García,
W., Roseano, P., Fernández Planas, A. M. y Martínez Celdrán, E. (2016).
A tool for automatic transcription of intonation: Eti-ToBI a ToBI
transcriber for Spanish and Catalan. Language Resources and Evaluation, 50(4), 767-792. https://doi.org/10.1007/s10579-015-9320-9
). La base de datos generada, en el módulo de visualización de Oralstats, puede consultarse en el siguiente enlace: <https://adrin-cabedo.shinyapps.io/oralstatsgenres/>
La voluntad de este trabajo ha sido explorar, de manera computacional, en primer lugar, y valorativa, en último lugar, el comportamiento discursivo diferenciado de los mismos hablantes en distintos formatos o moldes discursivos. En el marco concreto de este artículo, se han analizado variables fónicas y morfosintácticas del habla de cuatro políticos españoles en muestras sonoras procedentes de cuatro géneros discursivos distintos (la tertulia discursiva, la rueda de prensa, la entrevista y el mitin). Los resultados generales, presentados en la Sección 4 en forma de diferentes técnicas de visualización estadística multivariable, indican que los géneros discursivos se diferencian entre ellos de manera más o menos esperable, es decir, los géneros confrontacionales, como el mitin o la tertulia, presentan valores medios de tono e intensidad más altos que otros géneros donde no se apela tanto a la atención del oyente o donde no hay polémica discursiva.
Sobre los políticos españoles analizados se han podido extraer datos curiosos sobre su correspondiente idiolecto (Bloch, 1948Bloch, B. (1948). A set of postulates for phonemic analysis. Language, 24(1), 3. https://doi.org/10.2307/410284
); en tal sentido, se apuntan marcas individuales
que, no de manera sistemática ni privativa, afectan a algunos hablantes.
Por ejemplo, llama la atención cómo Pablo Iglesias se sirve de un tono y
una intensidad bajas en géneros como la tertulia, donde el resto de
políticos enfatizan estos rasgos. También son relevantes los tonos y la
intensidad medio altos de Rafael Hernando que se combinan con una mayor
duración de los grupos entonativos y, como consecuencia, por una mayor
cantidad de riqueza léxica en su interior, en forma de más cantidad de
sustantivos, verbos, etc. Políticos como Íñigo Errejón o Pablo Casado,
por su parte, suben la intensidad de manera notable en géneros
confrontacionales como la tertulia y suben en ocasiones su media tonal
para enfatizar aspectos concretos de su discurso, no necesariamente
acompañados de incrementos de intensidad para estos casos.
Así pues, este artículo, a partir de un simple análisis de caso de cuatro hablantes en cuatros géneros discursivos distintos, plantea la necesidad de recurrir a una vertiente cuantitativa en primera instancia, es decir, a una mirada exploratoria sobre los datos de modo dinámico y ágil; posteriormente, esta visualización interactiva permite un estudio cualitativo de los datos.
Las vías de ampliación del presente trabajo pasan precisamente por explorar de qué manera esas variables determinantes o singulares pueden ampliarse y, de este modo, precisar su labor o tarea identificativa. Por ejemplo, consideramos que en el futuro puede ser enriquecedor añadir información posicional en los análisis realizados (lugar de la palabra en el grupo entonativo, posición más común de las subidas o descensos tonales sintomáticos en el nivel de la palabra…).
El uso concreto del lenguaje de programación R incrementa notablemente las posibilidades de construcción y explotación de una plataforma interactiva de consulta y análisis de los datos, tanto en construcción web como en la aplicación de pruebas estadísticas más complejas. El beneficio del sistema, por tanto, es que se trata de un entorno ampliamente escalable y que, en tal sentido, puede crecer en propiedades y recursos para realizar análisis discursivos más completos y sofisticados.