Ley+de+Zipf+y+AD

// Lilian Martínez Carrillo //
 * LA LEY DE ZIPF Y SUS APLICACIONES EN EL ANÁLISIS DOCUMENTAL: **  ** ANÁLISIS AUTOMÁTICO DE CONTENIDO Y LA GENERACIÓN DE TESAUROS **

**Resumen** En relación con el Análisis Documental la Ley de Zipf es una herramienta estadística para la representación sintética de los originales, ya que su utilización en los procesos automatizados de identificación de términos representativos y principalmente en el de filtrado para la obtención de descriptores, permite describir en forma concreta el contenido de uno o varios documentos mediante la jerarquización de los términos más significativos, con el fin de facilitar la organización, localización y utilización de éstos.

**Palabras clave**: Análisis de Contenido, Métodos Estadísticos, Análisis temático. Ley de Zipf

** INTRODUCCIÓN **
El Análisis Documental (AD) es una actividad profesional que tiene como finalidad responder a las necesidades de información de los usuarios en forma adecuada y oportuna. En relación a esto, el Análisis Documental es una forma de investigación que representa sintéticamente los originales, ya que describe bibliográficamente en forma concentrada las partes externas del documento (continente) así como la descripción del contenido pero en menos profundidad, mediante la jerarquización de los términos más significativos, con el fin de facilitar la organización, localización y utilización del Documento. El Análisis Documental tiene una función crucial en la recuperación y consulta del documento primario, y con esto da pie a que el análisis de Información cumpla su ciclo de “captación, evaluación, selección y síntesis de los mensajes subyacentes en el contenido de los documentos a partir del análisis de sus significados, a la luz de un problema determinado.” Dentro del Análisis Documental, el Análisis de Contenido es un nivel relevante, -de acuerdo a la jerarquización que se propone en el análisis que hace María Pinto Molina -, ya que es en éste que se hace la representación de conceptos de contenidos mediante la indización y la elaboración de resúmenes por un conocedor del tema, un experto en la elaboración de resúmenes o por el mismo autor. Las tareas relacionadas con la síntesis del contenido son de suma importancia para la elección de la información pertinente al investigador que consulta o para el profesional que hace un Análisis de Información, ya que la adecuada selección de los documentos puede disminuir en gran medida las fallas o deficiencias que se presentan en el proceso del Análisis de Información, tales como la elección de fuentes de dudosa calidad, la especulación a partir de preconceptos valóricos, al corpus difuso por contenidos contrapuestos Si analizamos las 8 tareas más abajo listadas que proponen Sánchez Díaz y Vega Valdés que se requieren para realizar el análisis de información podemos notar que el Análisis de Contenidos tiene relevante importancia en la realización de las actividades de búsqueda (4), puesto que es en esta etapa donde se obtiene la información requerida y se determina su oportunidad, utilidad y credibilidad. 1. Identificación de los requerimientos de información 2. Definición y orientación de los métodos de investigación 3. Agrupamiento de la información 4. Realización de las actividades de búsqueda 5. Procesamiento de la información 6. Integración de toda la información 7. Preparación del producto informativo <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">8. Diseminación del producto informativo <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">En esta misma tesitura el análisis automático de contenido abre una posibilidad muy amplia de acortar los tiempos de respuesta en la recuperación de información y en la generación de lenguajes controlados que representen el contenido intelectual de un documento o una serie de ellos. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La aplicación de métodos y técnicas de filtrado automatizados basados en modelos matemáticos como la ley de Zipf, dejan de relieve esta posibilidad, por lo que a continuación se describirán las bondades de ésta en el AD.

** LA LEY DE ZIPF **
<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La ley de Zipf fue formulada por George Kingsley Zipf en 1935, después de estudiar la ocurrencia de palabras en varios textos.

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Ésta establece que si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante:

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">**FxR=C**

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Este postulado lo podemos graficar con la siguiente tabla.


 * ** Rango ** || ** Palabras ** ||  ** Frecuencia **  ||  ** Porcentaje del Total **  ||  ** Constante **  ||
 * = R  ||=   ||=  F  ||=   ||=  (FxR=C)  ||
 * = 1  ||=  the  ||=  7.398.934  ||=  5.9  ||=  7.398.934  ||
 * = 2  ||=  of  ||=  3.893.790  ||=  3.1  ||=  7.787.580  ||
 * = 3  ||=  to  ||=  3.364.653  ||=  2.7  ||=  10.093.959  ||
 * = 4  ||=  and  ||=  3.320.687  ||=  2.6  ||=  13.282.748  ||
 * = 5  ||=  in  ||=  2.311.785  ||=  1.8  ||=  11.558.925  ||
 * = 6  ||=  is  ||=  1.559.147  ||=  1.2  ||=  9.354.882  ||
 * = 7  ||=  for  ||=  1.313.561  ||=  1  ||=  9.194.927  ||
 * = 8  ||=  The  ||=  1.144.860  ||=  0.9  ||=  9.158.880  ||
 * = 9  ||=  that  ||=  1.066.503  ||=  0.8  ||=  9.598.527  ||
 * = 10  ||=  said  ||=  1.027.713  ||=  0.8  ||=  10.277.130  ||

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Mientras mayor sea el rango de una palabra, menor será la frecuencia con la que aparece en el texto. Esto es claro, ya que mientras mayor sea su rango, más abajo estará la palabra en la lista, lo que significa que menor será su frecuencia. ¿Cómo depende la frecuencia del rango? Pues resulta que depende en forma inversa (porque disminuye a medida que el rango aumenta) de la primera potencia del rango).  <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos. Así por ejemplo, en un texto en español con un vocabulario de alrededor de 10 000 palabras, las frecuencias de las palabras de mayor rango, como "de", "el", "y", son 0.11, 0.06, 0.33, respectivamente.

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La ley de Zipf se aplica de acuerdo con esta metodología:


 * <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Ordenación decreciente de las palabras
 * <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Multiplicación de la frecuencia por el rango
 * <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Obtención de la media para términos de frecuencias iguales, que tiene cómo efecto disponerlos en orden alfabético
 * <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Se elegirían como palabras de indización aquellas que tuviesen una frecuencia de aparición superior a la constante C determinada por esta ley.

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">A la hora de aplicar esta ley hay que considerar que los textos científicos presentan menor diversidad de vocabulario que los textos literarios, y que un aumento en el tamaño del texto supone un comportamiento en el que la magnitud <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">(F x R) se aleja de la constante. Es útil recordar que cuando se trabaja con raíces de palabras se reduce considerablemente el tamaño del texto a tratar, con una paralela reducción del tamaño de la estructura de los índices, ya que las raíces son más frecuentes que las palabras, lo que facilita la búsqueda.

<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La aplicación de la Ley de Zipf en los procesos del Análisis Documental tiene dos funciones primordiales: la recuperación de información y la indización automática. A continuación se describen sucintamente ésta última en particular.

** LA INDIZACIÓN AUTOMÁTICA Y LA GENERACIÓN DE TESAUROS **
<span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">La generación automática de tesauros se realiza en base a la implementación de sistemas informáticos y estadísticos así como de inteligencia artificial. Los avances en esta área son significativos, sin embargo aún hay mucho que hacer puesto que el lenguaje es un ente vivo en constante cambio y crecimiento, por lo que la intervención humana aún sigue siendo un factor necesario. <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Anteriormente la desestimación de nuevos términos era una práctica común en la formación de los tesauros en un campo de conocimiento, esto es una restricción ya que no se incorpora nueva información y por tanto representa una limitante en la recuperación de la misma. <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">La generación automática de tesauros consiste en dos etapas primordiales: la identificación y adquisición de componentes representativos de un dominio y la obtención de relaciones entre componentes. A continuación se describen sus 2 principales etapas:
 * 1) <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Identificación y adquisición de componentes representativos de un dominio
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Análisis léxico
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Tratamiento de palabras vacías
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Tratamiento de términos flexionados
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Tratamiento de palabras compuestas
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Filtrado de términos
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Obtención de relaciones jerárquicas
 * <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Agrupación de clases
 * 1) <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Obtención de relaciones entre componentes

<span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">La etapa de identificación y adquisición de componentes representativo de un dominio esta integrado por cinco procesos y es el último, el filtrado de términos, dónde la Ley de Zipf es aplicada. A continuación se describen cada uno de estos procesos. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">//Análisis léxico// <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Es la primera etapa automática y su objetivo primordial es la adquisición de componentes, o sea de términos (//posibles descriptores//) que representan un significado colectivo, éstos después de ser filtrados se convertirán en descriptores. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">//Tratamiento de palabras vacías// <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Las palabras vacías son todas aquellas: artículos, conjunciones y adverbios (para todo tipo de dominios); y adjetivos y pronombres (en determinadas situaciones). <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La eliminación de palabras vacías se puede hacer de dos formas y en dos etapas diferentes del proceso de identificación y adquisición de componentes según convenga, la primera consiste en la confrontación previa con una lista de palabras vacías construida anticipadamente, o se puede hacer posteriormente del proceso de filtrado. En cualquiera de los dos casos es necesario determinar que clase de descriptores queremos recuperar: simples o compuestos, ya que sólo en la obtención de descriptores simples las palabras vacías son descartadas, ya que para la obtención de descriptores compuestos, éstas más que palabras vacías son consideradas partículas de unión. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">//Tratamiento de términos flexionados// <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Los términos flexionados son todos aquellos relacionados morfológicamente entre sí, es decir, presentan entre ellos variaciones de género, número o tiempo verbal y pueden tener un significado común. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">El tratamiento de éstos consiste en su reducción a su término canónico, el objetivo de este proceso es potencializar la recuperación efectiva de información y reducir el tamaño de los resultados de adquisición de componentes. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Esta etapa es fundamental en el filtrado y creación de relaciones ya que permite identificar aquellos términos que son viables para agrupar. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">//Tratamiento de palabras compuestas// <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">En el tratamiento automático de palabras compuestas es necesario diseñar un algoritmo para poder incluir palabras compuestas como componentes del dominio. Para esto se utiliza un autómata de estados finitos que trabaja conjuntamente con el proceso de referenciación de descriptores. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">//Filtrado de términos// <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Identificados los términos representativos (//posibles descriptores//) es necesario filtrarlos para reducirlos y buscar sus relaciones. Es en esta etapa dónde la Ley de Zipf se aplica mediante el sistema de filtrado IDF o Indización Estadística de Términos de Frecuencia, ya que éste basa sus procedimientos en esta ley. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La técnica de IDF establece un sistema de pesos en función de la frecuencia relativa de cada término en cada documento. En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de los documentos, se tomará como descriptor. En el momento que se tome como descriptor para un documento será considerado como tal en el resto del documento, es decir, no es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor. Se aplica la Ley de Zipf para el calculo de la zona de transición y después el método IDF para ponderar por documentos.



<span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">En el proceso de obtención de relaciones entre componentes la clasificación de la información obtenida es indispensable para poder establecer las relaciones jerárquicas entre los componentes que la definen y describen, se proporcionan además las asociaciones temáticas mediante un proceso de clusterización que agrupa en clases aquellos descriptores que responden a una serie de características comunes. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">La construcción de la representación del dominio se hace mediante aproximaciones top-down en la jerarquía. A partir del total de descriptores filtrados se irá formando la jerarquía desde el más general hasta el más específico. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">El primer paso consiste en encontrar la raíz o raíces de la jerarquía. Se utilizan técnicas de extracción de componentes principales. Se intenta encontrar el concepto más significativo utilizando diferentes grados de pertenencia al cluster. <span style="font-family: Arial,Helvetica,sans-serif; font-size: 16px;">Este proceso de clusterización proporciona implícitamente el primer nivel de clasificación temática. Cada cluster representa una aproximación a la formación de nodos del árbol de áreas temáticas, identificándose directamente en muchos casos con un nodo específico.

** CONSIDERACIONES FINALES **
<span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">En conclusión puedo finalizar comentando que el proceso de análisis es una actividad profesional que requiere el desarrollo de habilidades y metodologías que integran una variedad de técnicas (automatizadas y no automatizadas) que permiten la obtención de información tanto para hacer la descripción de contenidos como la investigación y/o el análisis de información pertinente y oportuna. <span style="display: block; font-family: Arial,Helvetica,sans-serif; font-size: 16px; text-align: justify;">Los procesos automatizados permiten reducir tiempos, sin embargo la intervención humana aún es indispensable para el tratamiento del lenguaje ya que éste no es un ente sin movimiento ni cambio.

** BIBLIOGRAFÍA **
Dulzaides Iglesias, María Elinor. Análisis documental y de información: dos componentes de un mismo proceso. Disponible en: []

García Ros, Juan. El concepto de Documentación en la doctrina española. Disponible en: []

Garrido Arilla, María Rosa. Ponderación ontológica del origen del análisis documental. Disponible en:http://revistas.ucm.es/byd/11321873/articulos/RGID9393120029A.PDF

Lafuente López R. “Reflexiones en torno a la enseñanza de la Bibliotecología”. Revista Investigación Bibliotecológica: archivonomía, bibliotecología e información, 12, pp.25.33 viewed 12 August 2011.

López Yepes, J 2010, “Aportaciones a una investigación teórica en el ámbito de la Comunicación. ¿Qué es Bibliotecología/Documentación/Ciencia de la Información? (Spanish)”', Revista de Comunicacion, 9, pp. 95-110, Academic Search Complete, EBSCOhost, viewed 12 August 2011.

López Yepes, J 2010, “El concepto de ciencia de la documentación: unidad en la diversidad o diversidad en la unidad”, Revista Investigación Bibliotecológica: archivonomía, bibliotecología e información, 10, pp. 4-6, viewed 14 August 2011.

Moreiro González, José Antonio. Aplicaciones al análisis autmático de contenido provenientes de la teoría matemática de la información. Anales de Documentación. No.5, 2002

Pinto Molina, María. Introducción al análisis documental y sus niveles : el análisis de contenido. Disponible en: []

Sánchez Díaz, M, & Carlos Vega Valdés, J 2003, 'Algunos aspectos teórico-conceptuales sobre el análisis documental y el análisis de información. (Spanish)', Ciencias de la Información, 34, 2, pp. 49-60, Academic Search Complete, EBSCOhost, viewed 18 August 2011.

Velasco, I. Algoritmo de filtrado multi-término para la obtención de relaciones jerárquicas en la construcción automática de un tesauro. Rev. Esp. Doc. Cient. 22, 1, 1999.

Velasco, Manuel. Hacia la Generación automática de Tesauros.