lunes, diciembre 05, 2005

El reto... actualización

Me avergüenza un poco decirlo, pero aún no tengo datos del reto de las 1000 palabras. El planteamiento parece tan sencillo que me ha sorprendido que me esté costando tanto sacarlo adelante. Lo cierto es que ya sabía que procesar automáticamente un idioma como el castellano no es tarea trivial. Está lleno de términos homógrafos que dificultan la tarea de clasificar de modo independiente del contexto y sin diccionarios, como yo quería, y la conjugación verbal es cualquier cosa excepto cómoda y regular. Pero no busco exactitud, sino poder coger un texto sencillo y decir, más o menos, qué verbos y qué sustantivos hay.

He hecho progresos, claro, pero el método sencillo que se me ocurrió se basa grosso modo en comparar palabras con máscaras preseleccionadas (expresiones regulares) para asignarles una etiqueta (en varios pasos encadenados, uno por cada categoría de palabra) y está dando resultados bastante pobres. Supongo que seguiré intentándolo un poco más, pero si en dos semanas no vuelvo a citar el tema es que lo he dejado de lado definitivamente.