Entradas

Algoritmo de Porter

Imagen
El algoritmo de porter funciona un poco diferente. En este se siguen reglas léxicas para clasificar los sufijos y luego poder quitarlos.  Reglas: 1. La medida 2. Si termina en una letra "x" 3. Si termina en vocal 4. Si termina en doble consonante 5. Si termina con una secuencia consonante vocal consonante donde la última letra no es w, x, ni y. Después de clasificar el lema entonces se le aplican reglas léxicas secuencialmente y el lema solo va a encajar en una de ellas. Esas reglas remueven el lema de la palabra y la dejan sin sufijo. Podemos ver un ejemplo de como deja las palabras abajo.

N-Gramas

 Pasos del algoritmo de N-Gramas: 1. Calcular ngramas de las hileras:      Colaborador = Co ol la ab bo or ra  ad do or (tiene 10 bigramas y 9 unicos)      Colaboracion = Co ol la ab bo or ra ac ci io on (Tiene 11 bigramas y 11 unicos) 2. Calcular bigramas Unicos : Como dijimos anteriormente Coalborador tiene 9 bigramas únicos y Colaboración tiene 11. 3. Aplicar la formula: S = 2C/(A + B) Dónde A y B son los bigramas únicos en los términos 1 y 2 y C es el número compartido. En este caso C es 7. y la formula se convertiria en:  2*7 /  (9 + 11) = 0.7. Con estos números se va creando una matriz de similitud y luego se clusteriza para poder comparar.
¿Qué es lematización? Lematizar es reducir una palabra a su lema. Esto produce un texto que no necesariamente tenga significado para las personas, pero hace que sea más fácil de procesar y realizar comparaciones Un lema es un representante de todas las formas flexionadas (número gramatical, conjugación, género, afijos, etc.) de una palabra.