Automatic Evaluation of the Pataka Test Using Machine Learning and Audio Signal Processing

Automatic Evaluation of the Pataka Test

Författare

DOI:

https://doi.org/10.58986/al.2025.41035

Nyckelord:

Pataka test, speech motor control, machine learning, audio signal processing, Wav2Vec2

Abstract

Denna studie presenterar en automatiserad metod för att utvärdera Pataka-testet, en central bedömning av stavelserepetitionshastighet vid motoriska talstörningar. Det föreslagna systemet använder Wav2Vec2-modellen för funktionsextraktion och transkription, kompletterat med ljudförbearbetning (omprovtagning, konvertering till mono, normalisering) för att förbättra datakonsistensen. Sexton ljudinspelningar, innehållande upprepade stavelser från två deltagare, analyserades av det automatiserade verktyget och av tre logopeder. Referensmätningar fastställdes med hjälp av mel-spektrogram för att identifiera stavelsernas gränser, vilket gav tillförlitliga referenspunkter för repetitionshastigheter. Resultaten visade att maskininlärningsmodellen presterade avsevärt bättre än manuella bedömningar: medelkvadratfelet (MSE) var 0,07 för modellen jämfört med 1,18 för de mänskliga utvärderingarna. Dessa resultat belyser de kliniska fördelarna med automatiserade verktyg för att förbättra diagnostisk precision och minska variabilitet i talbedömningar. Framtida arbete bör adressera systemets tendens att missa enstaka stavelser och utöka datasetet för att inkludera en bredare demografisk representation. Sammanfattningsvis visar studien att integrationen av djupinlärning och ljudsignalbehandling erbjuder ett skalbart, objektivt alternativ till traditionella bedömningar av Pataka-testet.

Nedladdningar

Nedladdningsdata är inte tillgängliga än.

Referenser

Baevski, A., Zhou, Y., Mohamed, A. and Auli, M. 2020. Wav2Vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems 33, 12449–12460. https://doi.org/10.48550/arXiv.2006.11477

Eyben, F., Wöllmer, M. and Schuller, B. 2015. openSMILE – The Munich versatile and fast open-source audio feature extractor. In MM’10 – Proceedings of the 18th ACM International Conference on Multimedia, pp. 1459–1462. https://doi.org/10.1145/1873951.1874246

Hecker, P., Steckhan, N., Eyben, F., Schuller, B.W. and Arnrich, B. 2022. Voice analysis for neurological disorder recognition – A systematic review and perspective on emerging trends. Frontiers in Digital Health 4, 842301. https://doi.org/10.3389/fdgth.2022.842301

Hernström V, Josefsson V, Sartor H, Schmidt D, Larsson A-M, Hofvind S, et al. 2025. Screening performance and characteristics of breast cancer detected in the mammography screening with artificial intelligence trial (MASAI): A randomised, controlled, parallel-group, non-inferiority, single-blinded, screening accuracy study. Lancet Digit Health 7(3), e175–e183. https://doi.org/10.1016/S2589-7500(24)00267-X

Jain, A., Abedinpour, K., Polat, O., Çalışkan, M.M., Asaei, A., Pfister, F. M., ... and Cernak, M. 2021. Voice analysis to differentiate the dopaminergic response in people with Parkinson’s disease. Frontiers in Human Neuroscience 15, 667997. https://doi.org/10.3389/fnhum.2021.667997

Kumar, S., Datta, S., Singh, V., Datta, D., Singh, S. K. and Sharma, R. 2024. Applications, challenges, and future directions of human-in-the-loop learning. IEEE Access 12, 75735–75760. https://doi.org/10.1109/ACCESS.2024.3401547

Lancheros, M., Pernon, M. and Laganaro, M. 2022. Is there a continuum between speech and other oromotor tasks? Evidence from motor speech disorders. Aphasiology 37(5), 715–734. https://doi.org/ 10.1080/02687038.2022.2038367

Ong, Y.Q., Lee, J., Chu, S.Y., Chai, S.C., Gan, K.B., Ibrahim, N.M. and Barlow, S.M. 2024. Oral-diadochokinesis between Parkinson’s disease and neurotypical elderly among Malaysian-Malay speakers. International Journal of Language & Communication Disorders 59(5), 1701–1714. https://doi.org/10.1111/1460-6984.13025

Pinto, S., Cardoso, R., Atkinson-Clement, C., Guimarães, I., Sadat, J., Santos, H., Mercier, C., Carvalho, J., Cuartero, M.-C., Oliveira, P., Welby, P., Frota, S., Cavazzini, E., Vigário, M., Letanneux, A., Cruz, M., Brulefert, C., Desmoulins, M., Martins, I.P., Rothe-Neves, R., Viallet, F. and Ferreira, J.J. 2024. Do acoustic characteristics of dysarthria in people with Parkinson’s disease differ across languages? Journal of Speech, Language, and Hearing Research 67, 2822–2841. https://doi.org/10.1044/2024_JSLHR-23-00525

Rong, P. and Heidrick, L. 2021. Spatiotemporal control of articulation during speech and speechlike tasks in amyotrophic lateral sclerosis. American Journal of Speech-Language Pathology 30(3S), 1382–1399. https://doi.org/10.1044/2020_AJSLP-20-00136

Rozenstoks, K., Novotny, M., Horakova, D. and Rusz, J. 2024. Automated assessment of oral diadochokinesis in multiple sclerosis using a neural network approach: Effect of different syllable repetition paradigms. IEEE Transactions on Neural Systems and Rehabilitation Engineering 28(1), 32–40. https://doi.org/10.1109/TNSRE.2019.2943064

Rudzicz, F. 2010. Articulatory knowledge in the recognition of dysarthric speech. IEEE Transactions on Audio, Speech, and Language Processing 19(4), 947–960. https://doi.org/10.1109/TASL.2010.2072499

Solomon, N.P., Brungart, D.S., Wince, J.R., Abramowitz, J.C., Eitel, M.M., Cohen, J., Lippa, S.M., Brickell, T.A., French, L. M. and Lange, R.T. 2021. Syllabic diadochokinesis in adults with and without traumatic brain injury: Severity, stability, and speech considerations. American Journal of Speech-Language Pathology 30(4), 1400–1409. https://doi.org/10.1044/2020_AJSLP-20-00158

Tanchip, C., Guarin, D.L., McKinlay, S., Barnett, C., Kalra, S., Genge, A., Korngut, L., Green, J.R., Berry, J., Zinman, L., Yadollahi, A., Abrahao, A. and Yunusova, Y. 2021. Validating automatic diadochokinesis analysis methods across dysarthria severity and syllable task in amyotrophic lateral sclerosis. Journal of Speech, Language, and Hearing Research 65(3), 940–953. https://doi.org/10.1044/2021_JSLHR-21-00503

Xu, Q., Baevski, A. and Auli, M. 2022. Simple and effective zero-shot cross-lingual phoneme recognition. In Interspeech 2022, 18–22 September 2022, Incheon, South Korea. ISCA. https://doi.org/10.21437/Interspeech.2022-60

Downloads

Publicerad

2025-09-11

Referera så här

Moell, B., & Sand Aronsson, F. (2025). Automatic Evaluation of the Pataka Test Using Machine Learning and Audio Signal Processing: Automatic Evaluation of the Pataka Test. Acta Logopaedica, 2. https://doi.org/10.58986/al.2025.41035

Nummer

Sektion

Forskningsartiklar

Liknande artiklar

1 2 > >> 

Du kanske också starta en avancerad sökning efter liknande artiklar för den här artikeln.