
Fala e Linguagem na Criança (Speech and Language in Children)

Base de Dados de Preditores da Aquisição de Consoantes (PAC) [Predictors of the Age of Emergence of Consonants (PAC) Database]

Última versão [Latest version]: Versão 2.0 (Version 2.0) 15/7/2024

A base de dados Preditores da Aquisição de Consoantes (PAC) inclui a transcrição ortográfica, frequência, classificação, partes da fala e transcrições fonémicas dos 2000 lemas mais utilizados em português e árabe. Trinta por cento (30%) dos lemas árabes, que não fazem parte do vocabulário tunisino, não foram incluídos na base de dados. A lista de lemas foi compilada a partir de um corpus de 20 (português)/ 30 (árabe) milhões de palavras (10% de dados de fala espontânea; 90% de fontes escritas). Para a compilação do corpus foram utilizados dicionários de frequência das variedades europeia (10 milhões de palavras) e brasileira (10 milhões de palavras) da língua portuguesa, e das variedades tunisina, egípcia, levantina, iraquiana, do Golfo e da Argélia da língua árabe. As transcrições fonémicas foram produzidas utilizando o Alfabeto Fonético Internacional (IPA), de acordo com: Um algoritmo fornecido pelo FreP versão e ilustrações do IPA para o Português Europeu (PE); a ferramenta Converter para IPA e descrições fonéticas do árabe tunisino (AT). A razão pela qual afirmamos que a base de dados PAC fornece dados sobre PE e AT, está relacionada a essas transcrições fonémicas, únicas como um recurso de acesso aberto.

The Predictors of the Age of Emergence of Consonants (PAC) database includes the orthographic transcription, frequency, rank, parts of speech and phonemic transcriptions of the 2000 most frequently used lemmas in Portuguese and Arabic. Thirty percent (30%) of the Arabic lemmas, that are not part the Tunisian vocabulary, were not included in the database. The list of lemmas was compiled from a corpus of 20 (Portuguese)/ 30 (Arabic) million words (10% from spontaneous speech data; 90% from written sources). Frequency dictionaries of European (10 million words) and Brazilian (10 million words) Portuguese language varieties, and Tunisian, Egyptian, Levantine, Iraqi, Gulf and Algerian Arabic language varieties, were used to compile the corpus. The phonemic transcriptions were produced using the International Phonetic Alphabet (IPA), according to: An algorithm provided by FreP version and illustrations of the IPA for European Portuguese (EP); the Convert to IPA tool and phonetic descriptions of Tunisian Arabic (TA). The reason why we claim that the PAC database provides data on EP and TA, is related to these phonemic transcriptions, which are unique as an open access resource.

Citar da seguinte forma [Quote as]:

Jesus, L. e J. Trabelsi (2024). Base de Dados de Preditores da Aquisição de Consoantes (PAC). Disponível em Advanced Communication and Swallowing Assessment (ACSA)

Jesus, L. and J. Trabelsi (2024). Predictors of the Age of Emergence of Consonants (PAC) Database. Available from Advanced Communication and Swallowing Assessment (ACSA)

book.png PAC_DATABASE_2_0.xlsx Base de Dados [Database] book.png PAC_AC_AoE_1_0.xlsx De [From] Jesus and Trabelsi (2024)

Publicações resultantes deste projeto [Publications resulting from this project]

Jesus, L. and J. Trabelsi (2024). Predicting the Age of Emergence of Consonants: An Update Based on 2000 Lemmas. Advanced Communication and Swallowing Assessment (ACSA), University of Aveiro, Portugal.

Jesus, L. and J. Trabelsi (2024). Predicting the Age of Emergence of Consonants. In Proceedings of the 16th International Conference on Computational Processing of Portuguese (PROPOR 2024), Santiago de Compostela, Spain, pp. 238-246.