Minería+de+Texto

Minería de texto Por: Marcial Contreras Barrera Resumen

La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. Las técnicas de minería de texto son utilizadas, para la extracción de información de los documentos digitales, indización, generación de resúmenes automáticos, clasificación y agrupamiento de documentos, visualización de información y sistemas de búsqueda.

Introducción La producción y crecimiento del volumen de información en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes de información, y al mismo tiempo, en la infraestructura de comunicaciones, anchos de banda del orden de los Mbits/s hasta los Gbits/s. Un área que ha experimentado este crecimiento exponencial ha sido el de la producción de información, que junto con las tecnologías de información han dado lugar a complejos sistemas de gestión y provisión de información para diversas tareas que se desarrollan en la sociedad contemporánea. En special, la educación superior precisa contar con eficaces herramientas de información para la enseñanza, el aprendizaje y la investigación.

La minería de texto es una herramienta para analizar elementos de texto con el fin de identificar, deducir y ampliar conocimiento a partir de cualquier organización de documentos (documentos electrónicos, bases de datos, etc.), puede entender semánticamente el contenido de uno o más documentos y crea un catálogo de los temas tratados. Su objetivo es también la categorización de texto, el procesamiento en lenguaje natural, la extracción y recuperación de información o el aprendizaje automático

Palabras clave:

flat



=Procesamiento automatizado de información=

El desarrollo y crecimiento masivo de las redes de computadoras y medios de almacenamiento a lo largo de los últimos años, ha motivado la aparición de un creciente interés por los sistemas de clasificación automática de documentos. Estos sistemas realizan diferentes operaciones de clasificación basándose en el análisis del contenido del texto de los documentos que procesan. La mayoría de las técnicas de análisis y representación de documentos utilizadas en la actualidad en los sistemas de clasificación, se basan en criterios fundamentalmente estadísticos, centrados en frecuencias de aparición de términos en documentos. Actualmente el procesamiento de la información se divide en: procesamiento de textos, procesamiento de voz y procesamiento de imágenes. Las técnicas más recientes aplicadas a el tratamiento de texto son la edición, el formateo, la compresión, generación de diccionarios, almacenamiento y recuperación (Salton, 1989, p 3-10).

= **Minería de texto** =

La minería de texto es el área más reciente de investigación del procesamiento automático de la información. Ella se define como el proceso de descubrimiento de patrones interesantes y nuevos conocimientos en una colección de textos, es decir, la minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos (Swanson, 1991, p. 280-289). Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos. La minería de texto es una herramienta para analizar elementos de texto con el fin de identificar, deducir y ampliar conocimiento a partir de cualquier organización de documentos (documentos electrónicos, bases de datos, etc.), puede entender semánticamente el contenido de uno o más documentos y crea un catálogo de los temas tratados. Su objetivo es también la categorización de texto, el procesamiento en lenguaje natural, la extracción y recuperación de información o el aprendizaje automático. Las tecnologías en el proceso de minería de texto incluyen extracción de información, seguimiento del tema, resúmenes, clasificación, agrupamiento, la vinculación conceptual, visualización de la información y respuesta a preguntas. Sus etapas de la minería de texto son: el pre procesamiento de la información y el descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados. En la primera etapa de la minería de texto, los textos se transforman a algún tipo de representación estructurada o semiestructurada que facilite su posterior análisis, mientras que en la segunda etapa las representaciones se analizan con el objetivo de descubrir en ellas algunos patrones interesantes. La información electrónica está contenida, en los libros, revistas, mensajes de correo electrónicos, discursos, artículos entre otros, los algoritmos de minería de textos pueden ser empleados para eliminar información duplicada y detectar información similar o relacionada con la existente, se pueden generar resúmenes automáticos, indizar, agrupar y organizar la información electrónica.

=Modelo vectorial=

Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n  y es representado de la siguiente manera: <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">En donde cada posición del vector representa una palabara del documento. <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">El procesamiento de texto se lleva en dos fases. Una fase de preprocesamiento, donde los textos son representados en estructuras que permitan su análisis automático y una fase de análisis donde se obtiene algún tipo de información importante como: la indexación, la agrupación, obtención de la temática de los documentos, estadísticas de palabras, resúmenes automáticos, etc.

=Indización automática=

<span style="font-family: 'Arial','sans-serif'; font-size: 16px;">El término proceso de indización automatica hace referencia al proceso de análisis de documentos para la obtención de una representación concreta de los mismos. <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">Existe una serie de elementos que se pueden utilizar para la definición de métodos de indexación y cálculo de similitud. En concreto, el modelo del espacio vectorial proporciona las bases para definir un método de representación y cálculo de similitud. <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">La tarea de indexación consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia. <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">Las fases de la indexación de acuerdo a Salton, <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término, I el número de documento <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">FREQ.  <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">b) Se calcula la frecuencia total del término K en todos los documentos <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">c) Se ordenan las frecuencias de las palabras en forma decreciente y se filtran, las frecuencias medias son utilizadas para indexar el documento.

<span style="font-family: 'arial','sans-serif'; font-size: 16px; text-align: justify;">La fórmula del coseno es una de las formulas utilizada para determinar la semejanza de documentos y está definida de la siguiente forma:

<span style="font-family: 'Arial','sans-serif'; font-size: 16px;">Si se tienen dos vectores en la forma TERM= (t, t,….. t), donde t indica el peso o valor de TERM dentro del documento i y asumiendo n documentos en una colección, una forma de ver la similitud entre estos es: (Salton, 1989, p 100-200)

<span style="font-family: 'Arial','sans-serif'; font-size: 16px;">reando la matriz de documentos, se obtienen los siguientes resultados

<span style="font-family: 'Arial','sans-serif'; font-size: 16px;">a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.  <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos. <span style="font-family: 'Arial','sans-serif'; font-size: 16px;">c) Por ultimo esta matriz de semejanza puede ser utilizada para agrupar los documentos en temas relacionados.

Bibliografía
= = Bordoni, L., & d"Avanzo, E. (19 de 06 de 2006). //Perspectivas para la integración de la minería de textos y la gestión del conocimiento//. (ENEA, Productor) Obtenido de []

Haykin, S. (1994). //Neuronal Networks: A comprehensive foundation.// New York: Macmillan,.

Salton, G. (1989). //Automatic text processing : The transformation, analysis, and retrieval of information by computer.// E.U.A: Eddison Wesley.

Swanson, D. R. (1991). Complementary structures in disjoint science literatures. //In Proceedings of the 14th Annual International ACM/SIGIR Conference//, 280-289.

Presentación PowerPoint