
LangExtract de Google apunta al corazón de la extracción documental con IA
Google ha puesto sobre la mesa una de esas herramientas que, sin hacer demasiado ruido fuera del entorno desarrollador, pueden terminar teniendo impacto real en cómo se automatizan procesos documentales. Se llama LangExtract, es una librería open source de Python y su objetivo es convertir texto desordenado en datos estructurados, verificables y trazables hasta el punto exacto del documento original del que salen. Google la presentó oficialmente en julio de 2025 como una pieza pensada para extraer información desde documentos no estructurados usando modelos de lenguaje con instrucciones y ejemplos definidos por el usuario. La propuesta llega en un momento bastante concreto. Muchas empresas siguen dependiendo de expresiones regulares frágiles, modelos NER ajustados a mano o APIs cerradas y costosas