Ingeniería Documental Asistida por Computador (C.A.D.E.)

 

 

José Ramón HILERA GONZÁLEZ, José Manuel MARTÍNEZ SÁNCHEZ

Departamento de Ciencias de la Computación

Facultad de Ciencias de la Documentación

Universidad de Alcalá

28871 Alcalá de Henares (Madrid)

Fax: (91) 885 47 90    E-mail: ccjrhg, ccjmms@cc.alcala.es

 

 

 

RESUMEN:

 

     El concepto Ingeniería Documental se introduce por los autores para hacer referencia al conjunto de métodos, técnicas y herramientas para el diseño, construcción y utilización de documentos. La conveniencia de abordar el desarrollo de documentos como un proceso de ingeniería se justifica cuando la complejidad de éstos, y de su tratamiento, exija la aplicación de un método sistemático y riguroso que garantice un adecuado nivel de calidad. Se describen las facilidades que debe ofrecer un entorno automatizado de producción y explotación de documentos para servir de soporte tecnológico a una metodología de Ingeniería Documental. Se define el término C.A.D.E. (Computer Aided Document Engineering) para hacer referencia a las herramientas de este tipo.

 

 

PALABRAS CLAVE:

 

Ingeniería Documental, Modelado de Sistemas, Documentación Automatizada, Sistema de Gestión Documental, Sistema de Información Documental, Groupware.

 

 

 

1. INTRODUCCIÓN

 

       El concepto Ingeniería Documental hace referencia al conjunto de métodos, técnicas y herramientas para el diseño, construcción y utilización de documentos. La conveniencia de abordar el desarrollo de documentos como un proceso de ingeniería se justifica cuando la complejidad de éstos, y de su tratamiento, exija la aplicación de un método sistemático y riguroso que garantice un adecuado nivel de calidad. Éste sería el caso, por ejemplo, del desarrollo de documentación de tipo hipermedial, que puede conducir a un auténtico laberinto de hiper-enlaces entre sus diferentes componentes, lo que se conoce como el “efecto espagueti”, si no se dedica un esfuerzo previo para el diseño de la estructura de navegación por los documentos. Otro caso que también requiere del rigor de un método de ingeniería sería la producción y explotación de la documentación utilizada en el proceso de negocio de una organización, ya que, en este caso, los documentos contienen la información necesaria para el correcto desarrollo de la actividad de la misma.

 

       La aplicación de una metodología de Ingeniería Documental no será realmente efectiva si no se dispone de un entorno automatizado que sirva de soporte para la realización de las actividades documentales establecidas, como la planificación, el diseño, la producción, la indización, la explotación o el mantenimiento de la documentación (figura 1). Es impensable, por ejemplo, realizar modelos de diseño de la estructura de los documentos y sus relaciones sin una herramienta preparada para ello que permita, entre otras funciones, la verificación del diseño y la generación automática de documentos según la estructura definida.

 

 

Figura 1. Actividades de la Ingeniería Documental

 

 

       La tecnología que ofrezca soporte a una metodología de este tipo, la denominamos C.A.D.E. (Computer Aided Document Engineering), acrónimo similar al utilizado en otras ingenierías, como C.A.S.E en Ingeniería del Software o C.A.I. en Ingeniería Industrial. Un entorno CADE debe ser un Sistema de Gestión Documental, en cierta manera, como los que existen en la actualidad, en el ámbito del groupware, para la producción y explotación de documentos en el trabajo corporativo (Martínez e Hilera, 1997), pero mejorando los mecanismos de recuperación de documentos que ofrecen, e incorporando facilidades para abordar también la planificación y el diseño de la gestión de los documentos, utilizando las técnicas necesarias en cada fase del proceso documental. Estas técnicas son las que se describen en los siguientes apartados.

 

 

2. MODELADO DE LA ESTRUCTURA DOCUMENTAL

 

       Un entorno CADE debe permitir la definición de la estructura y organización de los documentos mediante alguna técnica de representación similar a las utilizadas en el ámbito de los Sistemas de Información, donde existe actualmente una tendencia a considerar la orientación a objetos como paradigma de desarrollo (Rumbaugh et al., 1998). Este enfoque también es aplicable al caso de los documentos, ya que éstos pueden considerarse formando parte también de un Sistema de Información, pero, en este caso, Documental (SID)[1]. Siguiendo este enfoque, la estructura documental consistiría en una representación de las  clases de objetos documentales implicados en el sistema, de su propiedades o atributos, de las operaciones que se pueden realizar sobre ellos y de las relaciones semánticas entre tipos de documentos.

 

       En este contexto, se entiende por objeto documental un documento o estructura de documentos concretos (por ejemplo, un ejemplar del Quijote o del diccionario de la Real Academia de la Lengua compuesto de varios volúmenes) y por clase la representación de un grupo de objetos documentales con propiedades, estructura, funcionalidad y relaciones similares (por ejemplo, en la figura 2, la clase “Libro”, a la que pertenecería “El Quijote”, o la clase “Diccionario multivolumen” a la que pertenecería el de la Real Academia). Según esto, un objeto no será sino una instancia o ejemplar de una determinada clase.

 

       En cuanto a los atributos y operaciones asociadas a una clase, los primeros representan propiedades de los objetos de esa clase, que asumirán un valor concreto para cada objeto en particular (por ejemplo, Autor podría ser un atributo de la clase “Libro”, con un valor Cervantes para el caso concreto de “El Quijote”), mientras que las operaciones representan todo lo que se puede hacer con un objeto de esa clase (por ejemplo, Abrir un “Libro” o Buscar término en un “Diccionario multivolumen”).

 

       Por otro lado, las relaciones entre clases hacen referencia a posibles vinculaciones entre determinados objetos de esas clases (por ejemplo, podría existir una relación llamada se cita en entre la clase “Diccionario multivolumen” y “Libro”, para indicar que algunos libros pueden citarse en algunos diccionarios, como sería el caso de una referencia a “El Quijote” desde el “Diccionario de la Real Academia de la Lengua”). Las relaciones entre objetos documentales también pueden utilizarse para representar que algunas clases de documentos son, en realidad, versiones refinadas de otras (por ejemplo, un “Diccionario multivolumen” podría ser un caso particular de “Diccionario”).

 

 

 

Figura 2. Ejemplo de modelo de estructura documental[2]

 

 

 

3. MODELADO DE LA DINÁMICA DOCUMENTAL

 

       Además del aspecto estructural de la documentación, una herramienta CADE debe también ofrecer la posibilidad de modelar el aspecto dinámico de la gestión documental, bien desde el punto de vista del trabajo documental a realizar en el seno de una organización, bien adoptando un enfoque orientado a las interacciones que se producen entre los documentos durante la realización de una tarea documental, o bien modelando la “vida” o “estados” por los que puede pasar cada documento en particular. Se trata de enfoques complementarios que pueden ayudar a comprender mejor las actividades relacionadas con la documentación.

 

       En el primer caso, se representaría la evolución temporal prevista en la realización del trabajo de producción y utilización de documentos, contemplando, tanto las tareas que se deben ejecutar, como la secuencia de ejecución y el personal encargado de llevarlas a cabo. De esta forma, si se dispone de un entorno CADE apropiado, se puede realizar (“ejecutar”) el trabajo controlando en cada momento que se cumple el esquema previsto, o adaptándolo de forma dinámica a los imprevistos que puedan surgir. La técnica para representar el flujo de trabajo (workflow) documental debería basarse en las recomendaciones existentes al respecto por parte de organismos internacionales, como la Workflow Management Coalition (WfMC, 1996), o nacionales, como el Consejo Superior de Informática del Ministerio para las Administraciones Públicas (CSI, 1996). En la figura 3 se muestra, como ejemplo, un posible modelo correspondiente al trabajo documental implicado en una transacción comercial en la que participan: un vendedor, un cliente y el jefe de éste, el cual debe conceder el permiso para la realización de la compra de determinados productos. En el diagrama, los documentos aparecen representados como círculos.

 

 

Figura 3. Ejemplo de modelo de flujo de trabajo documental

 

       Otra alternativa para mostrar el aspecto dinámico de la gestión documental consistiría en una representación de las actividades, pero desde el punto de vista de los documentos, mostrando los objetos documentales implicados y la descripción de cómo interactúan entre si para realizar una determinada tarea. En la figura 4 se representa, en forma de diagrama basado en la interacción entre documentos, una tarea de tramitación de una orden de compra en una transacción comercial similar a la que aparecía en la figura 3.

 

 

Figura 4. Ejemplo de modelo de interacción documental[3]

 

 

       Un último enfoque para modelar la dinámica documental es el que considera que el comportamiento dinámico de un documento constituye su ciclo de vida, durante el que pasará por una serie de estados en función de las operaciones que se realicen con él. Por ello, un entorno CADE debería ofrecer la posibilidad de representar la secuencia de estados atravesados por un documento a lo largo de su vida, mostrando las transiciones entre los diferentes estados, incluyendo los sucesos que las provocan y las acciones a las que dan lugar[4]. Un posible ejemplo de diagrama de estados podría ser el mostrado en la figura 5 para un documento Solicitud de Compra como el utilizado en los ejemplos de las figuras 3 y 4.

 

Figura 5. Ejemplo de diagrama de ciclo de vida o de estados

 

 

4. MODELADO DE LA PRESENTACIÓN DOCUMENTAL

 

       La definición de la forma en que la audiencia de los documentos va a percibir su contenido, en formato impreso o mediante una interface gráfica en la pantalla del computador, también debe poder hacerse desde un entorno CADE, por lo que ha de incluir facilidades que permitan modelar, tanto la disposición espacial del contenido, como su sincronización temporal, especialmente importante cuando se trata de documentación multimedia. Si la tecnología sobre la que se implementarán los documentos es de tipo hipermedial, la herramienta CADE debe permitir modelar también las posibilidades de navegación, para facilitar el control y mantenimiento del elevado número de hiper-enlaces que existen en estos casos.

 

       Se han propuesto diferentes técnicas para el diseño de las interfaces gráficas que permitan acceder al contenido de los documentos, como ADV (Abstract Data View) (Rossi et al., 1996), o DPD (Diagrama de Presentación de Documentos) (Hilera, 1997). Con estas técnicas se establece el aspecto de una presentación en forma de bloques anidados, en cuyo interior se registrarán, en el futuro, los contenidos correspondientes. La realización de los modelos de estructura (apartado 2) y de presentación en un mismo entorno CADE permite garantizar la consistencia entre ellos, ya que se ha de verificar que los elementos de presentación deben estar vinculados a clases de objetos documentales incluidos en el modelo de estructura, lo cual podría hacerse fácilmente y de forma automática .

 

       Para modelar la sincronización de elementos de presentación (sonido, secuencias de vídeo, fotografías, etc.) se puede utilizar una técnica basada en grafos dirigidos, cuyos nodos representen los contenidos que deben mostrarse y los arcos la secuencia en que deben aparecer ante la audiencia. Dos técnicas posibles son: OCPN (Object Composition Petri Net) de Little y Ghafoor (1990), y DSM (Diagrama de Sincronización Multimedia), una extensión de la anterior que permite representar de una manera más intuitiva la secuencia de aparición de elementos en una presentación (Martínez e Hilera, 1998).

 

       Cuando se trabaja con documentación hipermedia, un entorno CADE debe ofrecer también la posibilidad de diseñar un mapa general del hiperespacio de navegación que, además del mantenimiento de los documentos, facilite la tarea del usuario que accede al contenido, evitando su desorientación al conocer su situación en cada momento. Como en el caso de la sincronización, estos mapas también pueden modelarse mediante grafos orientados, donde los nodos representen documentos y los arcos las posibilidades de navegación (Martínez e Hilera, 1998).

 

 

5. SERVICIOS DE BÚSQUEDA DOCUMENTAL

 

       Una herramienta CADE, además de facilidades para el diseño de los documentos, debe ofrecer la posibilidad de realizar búsquedas sobre los documentos que constituyen un Sistema de Información Documental, y que fueron desarrollados utilizando ese entorno. Para poder llevar a cabo las búsquedas, debe permitir previamente la indización de los documentos e, incluso, la creación del lenguaje de indización que se utilizará para ello (por ejemplo, un tesauro de descriptores), mediante la incorporación, en ese lenguaje, del vocabulario del dominio conceptual en el que se usarán los documentos (los directamentes relacionado con la actividad de la organización que utiliza el Sistema de Información Documental), los términos específicos que hagan referencia a componentes del entorno de trabajo (por ejemplo, los nombres de los participantes en la actividad de la organización), y otros elementos que faciliten la recuperación de los documentos con la mayor precisión posible (como puntos de vista, áreas temáticas o asociaciones de términos).

 

       En cuanto al lenguaje de búsqueda documental que puedan utilizar los interesados en la realización de consultas, y que pueda interpretar el Sistema de Información Documental para localizar y ofrecer al usuario los documentos que precisa, se ha de basar en la técnica utilizada para la indización de los documentos. En realidad, se plantean dos necesidades de información diferentes a los usuarios que deberán ser contempladas por este lenguaje. Por una parte, la localización de los propios documentos, que deberá solucionarse mediante consultas que se formularán utilizando, como términos de búsqueda, los incluidos en el lenguaje de indización (por ejemplo, tesauro) que se usó para crear los índices. Por otra parte, existirá la necesidad de averiguar precisamente qué términos incluye este lenguaje relacionados con el tema objeto de la consulta antes de formularla.

 

       En general, en cuanto a su facilidad de uso por parte del usuario, el lenguaje de búsqueda que ofrezca un entorno CADE puede ser de tres tipos: natural, gráfico o de comandos. El lenguaje de comandos es el de más bajo nivel y, por lo tanto, el que más dificultad ofrece al usuario. Se trata de un lenguaje muy simple en su estructura gramatical, que facilita el procesamiento automático de las consultas, que se deberán expresar de acuerdo a unas reglas básicas de composición. ISO ha publicado la norma 8777 sobre la definición mínima de un lenguaje de este tipo y de sus componentes (ISO, 1993), que incluye un conjunto básico de comandos: FIND, para formular consultas; RELATE, para buscar términos en un tesauro de descriptores; SCAN, para comprobar el índice asociado a un documento, etc. Este estándar también establece diferentes formas de combinar términos en las consultas,  como los clásicos operadores booleanos (AND, NOT, OR), los de comparación (GT, LT, TO, etc.) o los operadores de proximidad, que permiten localizar documentos en cuyo contenido aparecen términos con un máximo número de palabras entre ellos en el texto. Un lenguaje de comandos que asume estas recomendaciones y añade, entre otras facilidades, la posibilidad de ponderar la importancia de cada término o de permitir la propagación de las búsquedas a otros términos relacionados a través de un lenguaje de indización, se define en (Hilera, 1997).

 

       El principal inconveniente de un lenguaje de comandos es el esfuerzo que requiere la elaboración de complejas expresiones de búsqueda, algo que puede evitarse, en parte, utilizando un lenguaje gráfico o dirigido, ya que, en este caso, el usuario se limitaría a introducir los términos de búsqueda y a seleccionar, en menús preparados para ello, las diferentes formas de combinar dichos términos. Otra alternativa consistiría en la utilización de un lenguaje natural que permitiera expresar las consultas en el propio lenguaje del usuario, con las ventajas que ello supone, ya que éste no debería conocer más reglas de construcción que las del idioma que emplee, siendo la herramienta CADE la encargada de realizar un proceso de transformación a través de un análisis sintáctico, morfológico y semántico, como el descrito por Arenas (1993), hasta obtener la expresión equivalente en el lenguaje normalizado (orientado a comandos) que utilice el sistema en la búsqueda de los documentos.

 

 

6. CONCLUSIONES

 

       Como ocurre en otras ingenierías, para que la aplicación de un método de ingeniería documental sea realmente efectiva, es preciso disponer de un entorno CADE que permita realizar los modelos propuestos y controlar la ejecución del trabajo documental, por ejemplo, programando autómatas para controlar las transiciones de estados de cada uno de los documentos y generar los mensajes adecuados a los interesados para conocer en todo momento su situación.

 

       Además del control dinámico, el entorno CADE debe ofrecer también facilidades para la elaboración de unos documentos en función del contenido de otros de forma automática, el modelado de la presentación de los documentos ante la audiencia, la sincronización de los componentes multimedia de los documentos, la elaboración de un lenguaje de búsqueda documental a partir de una gramática establecida por el usuario, etc. La construcción de una herramienta de este tipo implica también una investigación de las diferentes formas de integrar coherentemente todas las técnicas soportadas, además de posibles mejoras y ampliaciones de estas técnicas, así como su formalización algebraica para facilitar la valoración de la calidad de los diferentes modelos documentales.

 

       En el futuro, estos entornos podrían evolucionar hasta convertirse en herramientas “inteligentes” capaces, por ejemplo, de realizar la indización de los documentos de forma automática. Para ello, incluirían un sistema experto para asignar a los documentos los términos de indización extraídos de un lenguaje documental. También sería susceptible de automatización la indización asociativa, mediante otro sistema experto que generase los hiper-enlaces de navegación entre documentos. En este sentido, la tecnología CADE debe aprovechar los resultados obtenidos al respecto en los últimos años, consecuencia de la gran actividad investigadora llevada a cabo en este campo, como se recoje en (Gil y Rodríguez, 1996), (Díaz et al., 1996) y (Salminen et al., 1995).

 

 

7. BIBLIOGRAFÍA

 

ARENAS, Lourdes (1993): “Tratamiento automático del Documento en un Centro especializado”, NOVATICA, 102 (1993), 63-67.

CSI (1996): Especificaciones para el Tratamiento de Flujos Automatizados (ESTROFA). Ministerio para las Administraciones Públicas, Consejo Superior de Informática, 1996.

DÍAZ, Paloma; CATENAZZI, Nadia y AEDO, Ignacio (1996): De la Multimedia a la Hipermedia. Madrid, RA-MA, 1996, 288 pp.

GIL LEIVA y RODRÍGUEZ, J.V. (1996): “Tendencia en los sistemas de indización automática. Estudio evolutivo”, Revista Española de Documentación Científica, vol. 19, 3 (1996), 273-291.

GUTIÉRREZ DE MESA, José A.; HILERA, José R. y CERRATO, Vicente (1996): “Generación de autómatas para el control del comportamiento dinámico de los documentos”. Actas de las III Jornadas Nacionales de Información y Documentación Empresarial, INDOEM’96, Universidad de Murcia, 1996.

HILERA, José Ramón (1997): Aportes Metodológicos para la Gestión Documental en el Desarrollo de Software. Tesis Doctoral, Universidad de Alcalá, 1997.

ISO (1993): ISO 8777, Information and Documentation - Commands for interactive text searching”. Ginebra (Suiza), International Standards Organization, 1993. 

JACOBSON, Ivar; BOOCH, Grady y RUMBAUGH, James (1998): The Objetory Software Development Process. Menlo Park (EE.UU.), Addison-Wesley, 1998.

LITTLE, Thomas y GHAFOOR, Arif (1990): “Synchronization and Storage Models for Multimedia Objects”, IEEE Journal on Selected Areas in Communications, vol. 85, 3 (1990), 413-427.

MARTÍNEZ, José Manuel e HILERA, José Ramón (1997): “Los Sistemas de Gestión Documental en el Ámbito del Trabajo Corporativo”. Revista General de Información y Documentación, vol. 7, 2 (1997), 237-255.

MARTÍNEZ, José Manuel e HILERA, José Ramón (1998): “Modelado de Documentación Multimedia e Hipermedia”. Cuadernos de Documentación Multimedia, No. 6/7 (1998).

MARTÍNEZ, José Manuel; HILERA, José Ramón; et al. (1995): Metodología de Desarrollo de Sistemas de Información, Universidad de Alcalá, 1995.

ROSSI, Gustavo; SCHWABE, Daniel, y COWAN, D. (1996), “An Object Oriented Model for Designing the Human-Computer Interface of Hypermedia Applications”, Proceedings of the International Workshop on Hypermedia Design. Montpellier, Francia, 1-2 Junio, 1995, 123-143, Springer-Verlag, 1996.

SALMINEN, Airi; TAGUE-SUTCLIFFE, Jean y MCCLELLAN, Charles (1995): “From Text to Hypertest by Indexing”, ACM Transactions on Information Systems, vol. 13, 1 (1995), 69-99.

UML (1997): Unified Modeling Language - UML. Rational Software Corporation, 1997. 

WfMC (1996): “WfMC, la Coalición para la Gestión del Flujo de Tareas” (traducción y adaptación de J. Marcelo), NOVATICA, 120 (1996), 7-9.

 



[1] En inglés, Document-based Information System (DIS).

[2] Se ha utilizado en la representación una notación basada en el estándar internacional UML (Unified Modeling Language), adoptado recientemente por el OMG (Object Management Group) para el modelado conceptual de sistemas con un enfoque de orientación a objetos (UML, 1997).

[3] Como en el apartado 2, aquí también se utiliza una notación basada en el estándar UML (1997).

[4] En (Gutiérrez et al., 1996) se propone, precisamente, un método de generación de autómatas para el control dinámico de los documentos a partir de sus diagramas de ciclo de vida (o diagramas de estado), en el que podría basarse una herramienta CADE.