Loquens, Vol 3, No 1 (2016)

Frequency of occurrence of phonemes and allophones in contemporary Spanish as calculated by an automatic transcription system


https://doi.org/10.3989/loquens.2016.029

Iván Arias Rodríguez
Universidad Complutense de Madrid, Spain

Abstract


The frequency of occurrence of the different phonemes of the Spanish language has been the subject of several previous studies. However, most of those studies did not take into account the frequency of the allophones, or they did it only partially (many times there was not even a phonetic transcription, and the plain orthographic transcription was used instead). Moreover, in all those previous works the frequency of occurrence was calculated from the transcription of isolated words, without taking into account the phonetic changes produced by its insertion in the speech chain, especially that of resyllabification.
The present article calculates the frequency of occurrence of the phonemes and allophones of the Castilian Spanish dialect, as they are pronounced in the spoken language. The transcription of a corpus (consisting in 560 novels of modern Spanish writers) is done automatically thanks to a piece of software implemented for the purpose of this study. The article details the contents of the corpus as well as a detailed description of the design of the automatic transcriber. Finally, there is also a limited study of the syllable structure in terms of its type and frequency of occurrence.

Keywords


frequency of occurrence; phonemes; allophones; Spanish; speech chain

Full Text:


HTML PDF XML

References


Alameda, J. R., y Cuetos, F. (1995). Diccionario de frecuencias de las unidades lingüísticas del castellano. Oviedo: Servicio de Publicaciones de la Universidad de Oviedo.

Alarcos Llorach, E. (1965). Fonología española (4.ª ed.). Madrid: Gredos.

Álvarez, C. J., Carreiras, M., y de Vega, M. (1992). Estudio estadístico de la ortografía castellana: (1) La frecuencia silábica. Cognitiva, 4(1), 75-105.

Bonaventura, P., Giuliani, F., Garrido, J. M., y Ortín, I. (1998). Grapheme-to-phoneme transcription rules for Spanish, with application to automatic speech recognition and synthesis. Proceedings of the Workshop on Partially Automated Techniques for Transcribing Naturally Occurring Continuous Speech, 16th August 1998, Université de Montréal. Montréal: COLINGACL, 33-39. https://doi.org/10.3115/1628291.1628295

Castro, M. J., España, S., Salvador, I., y Marzalz, A. (2001). Transcriptor ortográfico-fonético para el castellano. Procesamiento del lenguaje natural, 27, 241-246.

Delattre, P. (1965). Comparing the phonetic features of English, German, Spanish and French. Heidelberg: Groos.

Fernández Planas, A. M., y Carrera Sabaté, J. (2001). Prácticas de transcripción fonética en castellano. Barcelona: Salvatella. PMid:11553819

Garrido, J.M., Laplaza, Y., Marquina, M., Schoenfelder, C., y Rustullet, S. (2012). TexAFon: A multilingual text processing tool for text-to-speech applications. Proceedings of IberSPEECH 2012. Séptimas Jornadas en Tecnología del Habla and 3rd Iberian SLTech Workshop, 281-289. http://iberspeech2012.ii.uam.es/IberSPEECH2012_OnlineProceedings.pdf

Gómez Torrego, L. (2011). Algunos compuestos sintagmáticos con el primer componente átono y algunas formas prefijadas con la preposición «sin». En M. V. Escandell Vidal, M. Leonetti y C. Sánchez López, 60 problemas de gramática (pp. 366-379). Madrid: AKAL.

González Rátiva, M. C., y Mejía Escobar, J. A. (2011). Frecuencia fonemática del español de Colombia. Forma y Función, 24(2), 69-102. http://www.bdigital.unal.edu.co/37067/

Goyal, K. (2016). Calibre (Versión 2.53) [software]. Obtenido de https://calibre-ebook.com/

Grefenstette, G., y Tapanainen, P. (1994). What is a word, What is a sentence? Problems of Tokenization. Third International Conference on Computational Lexicography, Budapest, 1994, 79–87.

Guerra, R. (1983). Estudio estadístico de la sílaba en español. En M. Esgueva y M. Cantarero, Estudios de fonética 1 (pp. 9-112). Madrid: Consejo Superior de Investigaciones Científicas e Instituto «Miguel de Cervantes».

Guirao, M., y Borzone de Manrique, A. M. (1972). Fonemas, sílabas y palabras en el español de Buenos Aires. Filología, 16, 135-165.

Guirao, M., y García, M. A. (1993). Estudio estadístico del español. Buenos Aires: Consejo Nacional de Investigaciones Científicas y Técnicas.

Hualde, J. I. (1989). Silabeo y estructura morfémica en español. Hispania, 72(4), 821-831. https://doi.org/10.2307/343560

Llisterri, J., y Mariño, J. B. (1993). Spanish adaptation of SAMPA and automatic phonetic transcription (informe SAM-A/ UPC/001/V1). ESPRIT Project 6819.

Lloyd, P. M., y Schnitzer, R. D. (1967). A statistical study of the structure of the Spanish syllable. Linguistics, 5(37), 58-72. https://doi.org/10.1515/ling.1967.5.37.58

Marcos Marín, F. (Dir.) (1992) Corpus Oral de Referencia de la Lengua Española CORLEC [corpus]. http://www.lllf.uam.es/ESP/Corlec.html

Martínez Celdrán, E., y Fernández Planas, A. M. (2000). Características fonéticas de la africada palatal sonora del español. Actas del IV Congreso de Lingüística General (Vol. 4). Universidad de Cádiz, pp. 1751-1761. PMid:10758307

Moreno Sandoval, A., Torre Toledano, D., Curto, N., y de la Torre, R. (2006). Inventario de frecuencias fonémicas y silábicas del castellano espontáneo y escrito. http://www.lllf.uam.es/ESP/ Publicaciones/LLI-UAM-4JTH.pdf

Moreno Sandoval, A., Toledano, D. T., de la Torre, R., Garrote, M., y Guirao, J. M. (2008). Developing a phonemic and syllabic frequency inventory for spontaneous spoken Castilian Spanish and their comparison to text-based inventories. Proceedings of the 6th Conference on Language Resources and Evaluation (LREC), pp. 1097-1100.

Mosterín, J. (1981). La ortografía fonémica del español. Madrid: Alianza Universidad.

Navarro Tomás, T. (1966). Escala de frecuencia de fonemas españoles. Estudios de fonología española (2.ª ed.), 15-30. New York: Las Américas.

Pérez, H. E. (2003). Frecuencia de fonemas. Revista Electrónica en Tecnologías del Habla, 1.

Pérez Tobarra, L. (2005). El acento en español. redELE: Revista Electrónica de Didáctica ELE, 4, 14-33.

Pineda, L. A., Villase-or, L., Cuétara, J., Castellanos, H., y López, I. (2004). DIMEx100: A new phonetic and speech corpus for Mexican Spanish. Advances in Artificial Intelligence-IBERAMIA 2004, 974-983. Berlin: Springer. https://doi.org/10.1007/978-3-540-30498-2_97

Quilis, A., y Esgueva, M. (1980). Frecuencia de fonemas en el español hablado. Lingüística Española Actual, 2(1), 1-25.

REAL ACADEMIA ESPAÑOLA, y ASOCIACIÓN DE ACADEMIAS DE LA LENGUA ESPAÑOLA (2005). Diccionario panhispánico de dudas. Madrid: Santillana.

Ríos Mestre, A. (1993). La información lingü.stica en la transcripción fonética automática del español. VIII Congreso de la SEPLN, Granada, 381-387. https://rua.ua.es/dspace/bitstream/10045/4619/1/PLN_13_28.pdf

Rojo Sánchez, G. (1991). Frecuencia de fonemas en español actual. En M. Brea y F. Fernández Rei (Coords.), Homenaxe ó Profesor Constantino García, vol. 1 (pp. 451-467). http://hdl.handle.net/10347/12469

Sebastián-Gallés, N., Martí, M. A., Carreiras, M. y Cuetos, F. (2000). LEXESP: Una base de datos informatizada del español [CD-ROM y libro]. Barcelona: Universitat de Barcelona.

Zipf, G. K., y Rogers, F. M. (1939). Phonemes and variphones in four present-day Romance languages and Classical Latin from the viewpoint of dynamic philology. Archives néerlandaises de phonétique expérimentale, 15, 111-147.




Copyright (c) 2016 Consejo Superior de Investigaciones Científicas (CSIC)

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.


Contact: loquens@cchs.csic.es

Technical support: soporte.tecnico.revistas@csic.es