Explorar una alternativa sencilla y reproducible para calcular la legibilidad de textos en español en R, sin dependencias externas complejas. Para ello se reune una serie de funciones para la extracción de características del texto.
get_words(text)
: Extrae y normaliza palabras desde un texto.count_words(text)
: Cuenta la cantidad de palabras.count_sentences(text)
: Estima la cantidad de oraciones en un texto.get_syllables(word)
: Segmenta palabras en sílabas usando reglas heurísticas del español.count_syllables(word)
: Cuenta la cantidad de sílabas en una palabra.index_fh(text)
: Calcula el índice de Fernández-Huerta, una métrica tradicional de legibilidad para español.analyze_complex_syllables(text)
: Detecta palabras que contienen sílabas complejas (con ataque, coda o ambos).
FH = 206.84 - 0.60 × P - 1.02 × F
Donde:
P
= promedio de sílabas por cada 100 palabrasF
= promedio de frases por cada 100 palabras
SZ = 206.835 - 62.3 × S/P - P/F
Donde:
S
= número de sílabas en el textoP
= número de palabras en el textoF
= número de oraciones en el texto
Este repositorio utiliza la licencia MIT. Equivale, en espíritu, a una licencia Creative Commons CC-BY para código: podés usar, modificar y compartir este código, siempre que cites a la autora original.