
Escribir un correo electrónico, publicar una entrada en un blog, o comentar una fotografía en una red social, son pequeños ejemplos cotidianos de nuestra contribución al crecimiento exponencial de los datos en la red, cuya fracción más significativa está constituida por un número creciente de textos y documentos.
Esta tendencia expansiva exige una evolución constante de las herramientas informáticas diseñadas para su análisis y procesado, que abarcan un amplio espectro de técnicas computacionales; todas ellas están cobrando cada vez mayor importancia, especialmente las empleadas en las áreas de procesamiento de lenguaje natural y extracción de información.
Hacia una tecnología multilingüe
El procesamiento de lenguaje natural tiene múltiples aplicaciones, entre las que figuran los traductores automáticos o el aprendizaje de idiomas online. En la actualidad, las técnicas utilizadas en este ámbito se encuentran ya en un estado muy avanzado para lenguas como el inglés, pero en el caso de otras –como el gallego, el portugués, o incluso el español -, la tecnología disponible hasta la fecha es mucho más limitada.
Con el objetivo de suplir estas carencias, el investigador del CiTIUS Marcos García ha dedicado su tesis doctoral al desarrollo de una serie de herramientas tecnológicas destinadas a mejorar la capacidad de procesamiento de estas tres lenguas, un trabajo enmarcado en la línea de investigación mixta en la que desde hace tiempo vienen colaborando el CiTIUS y el Grupo de Gramática del Español de la Universidad de Santiago de Compostela (USC).
Por su parte, lossistemas de extracción abierta permiten analizar la web para obtener y organizar automáticamente grandes cantidades de información, lo que resulta muy útil a la hora de discernir ideas o mensajes entre la maraña de datos de la red. Así, por ejemplo, los resultados de esta tesis permiten inferir de manera muy sencilla unidades semánticas fácilmente reconocibles, como «Santiago está en Galicia» o «la edad de Messi es 27 años», a partir de la información disponible en la web.
El sistema de extracción abierta presentado no sólo es el primero en funcionar en gallego, portugués y español, sino que ofrece resultados altamente competitivos con los mejores sistemas en lengua inglesa. Se trata, así, de la primera solución de este tipo disponible, un conjunto de herramientas lingüísticas desarrolladas bajo una licencia de software libre que pueden descargarse gratuitamente a través del enlace http://gramatica.usc.es/~marcos/phd.html#cap2.
Computación y lenguaje: una oportunidad para emprender
La línea de investigación que ampara este trabajo ha dado lugar también a la creación de una nueva empresa especializada en tecnologías del lenguaje: la spin-off del CiTIUS Cilenis Software, creada en 2011 y galardonada el mismo año con el Primer Premioal Proyecto Empresarial Innovador. En 2012, el empresario y analista económico Marc Vidal adquirió parte de Cilenis Software, a través de la compañía IDODI Labs.
Según los responsables del proyecto, Cilenis Software surgió como medio para hacer viables a nivel comercial los resultados de investigación del grupo; como afirma Pablo Gamallo, director de la tesis de Marcos García y co-fundador de Cilenis, lo que se pretende es «reducir el gap actual entre las herramientas disponibles para procesar la lengua inglesa, y las empleadas para el análisis de lenguas iberoamericanas».
____________________________________________
Estimaciones recientes han determinado que el volumen de información generado por la humanidad desde los albores de la civilización hasta el año 2003 equivaldría apenas a la cantidad de datos que los usuarios de Internet creamos en tan sólo 2 días. (fuente: http://techcrunch.com/2010/08/04/schmidt-data)
El próximo fin de semana del 8 y 9 de noviembre más de 250 estudiantes de la Escuela de Ingeniería de la UAB participarán en la segunda edición del UAB THE HACK! En esta hackhaton, que en la edición de este año bate récords de inscritos, los estudiantes tendrán que plantear soluciones a los retos ...
TECNIBERIA, la Asociación Española de Empresas de Ingeniería, Consultoría y Servicios Tecnológicos, y la OICE, la Asociación italiana de empresas de ingeniería, arquitectura y consultoría, han celebrado en Madrid el seminario ‘Spanish-Italian Engineering: Business Cooperation in the sectors of Energy, Water and Urban Planning’ con el objetivo de analizar futuras inversiones y oportunidades para ...
La Asociación de Ingenieros Navales de España y Navalia se unen para crear una zona dedicada a todos aquellos profesionales y startups que deseen presentar sus proyectos e innovaciones para el sector naval y la industria marítima a las empresas del sector y contactar con potenciales inversores para llevarlas a cabo.
La ROSCon España está organizada por Eurecat con el apoyo de Open Robotics y una decena de patrocinadores del sector, entre los cuales destacan PAL Robotics, ROBOTNIK y Camp Tecnológico.
Durante la jornada del 5 de noviembre, se llevarán a cabo ponencias que explorarán la aplicación de la inteligencia artificial en la ...
En las últimas semanas, Red Eléctrica como operador del sistema (OS), ha realizado las pruebas de habilitación de las primeras renovables que prestarán un servicio de control dinámico de tensión en línea con el nuevo P.O. 7.4 solicitado por el OS en 2020 y aprobado en junio por la CNMC. El operador del sistema está ...
En cumplimiento de la Ley de Servicios de la Sociedad de la Información y de Comercio Electrónico (LSSI) y en adecuación con la Directiva Europea 2009/136/CE, le informamos de la utilización de cookies en la presente web con el fin de facilitar y mejorar la navegación a los usuarios.
Una cookie es un fichero que se descarga en su ordenador al acceder a determinadas páginas web. Las cookies permiten a una página web, entre otras cosas, almacenar y recuperar información sobre los hábitos de navegación de un usuario o de su equipo y, dependiendo de la información que contengan y de la forma en que utilice su equipo, pueden utilizarse para reconocer al usuario.
Puede usted permitir, bloquear o eliminar las cookies instaladas en su equipo mediante la configuración de las opciones del navegador instalado en su ordenador.
Usted, una vez informado sobre la Política de Cookies, puede aceptar la utilización de las mismas por parte de esta web. Sin embargo, puede cambiar la configuración de cookies en cualquier momento, configurando su navegador para aceptar, o no, las cookies que recibe o para que el navegador le avise cuando un servidor quiera guardar una cookie.
Le informamos que en el caso de bloquear o no aceptar la instalación de cookies, es posible que ciertos servicios no estén disponibles sin la utilización de éstas o que no pueda acceder a determinados servicios ni tampoco aprovechar por completo todo lo que nuestras web le ofrece. Además del uso de cookies propias, permitimos a terceros establecer cookies y acceder a ellas en su ordenador.
Le agradecemos que consienta la aceptación de cookies, esto nos ayuda a obtener datos más precisos que nos permiten mejorar el contenido, así como mejorar la usabilidad de la web.
En caso de que este sitio web prestara algún tipo de servicio especial en el que determine unas previsiones específicas diferentes a éstas en lo relativo a la protección de datos personales y la utilización de cookies, prevalecerán las normas particulares indicadas para ese servicio en particular sobre las presentes.
Al acceder a este sitio web por primera vez verá una ventana donde se le informa de la utilización de las cookies, y donde puede consultar la presente "Política de cookies". Si usted acepta expresamente la utilización de cookies, continúa navegando o hace clic en algún link se entenderá que usted ha consentido nuestra política de cookies y por tanto la instalación de las mismas en su equipo o dispositivo.
Es posible que actualicemos la Política de Cookies de este sitio web, por ello le recomendamos revisar esta política cada vez que acceda al mismo con el objetivo de estar adecuadamente informado sobre cómo y para qué usamos las cookies. La Política de Cookies se actualizó por última vez el 02 de Septiembre de 2013.