Ingeniería Documental
Asistida por Computador (C.A.D.E.)
José Ramón
HILERA GONZÁLEZ, José Manuel MARTÍNEZ SÁNCHEZ
Departamento
de Ciencias de la Computación
Facultad de
Ciencias de la Documentación
Universidad de
Alcalá
28871 Alcalá
de Henares (Madrid)
Fax: (91) 885
47 90 E-mail: ccjrhg,
ccjmms@cc.alcala.es
RESUMEN:
El concepto Ingeniería Documental se introduce por
los autores para hacer referencia al conjunto de métodos, técnicas y
herramientas para el diseño, construcción y utilización de documentos. La
conveniencia de abordar el desarrollo de documentos como un proceso de
ingeniería se justifica cuando la complejidad de éstos, y de su tratamiento,
exija la aplicación de un método sistemático y riguroso que garantice un
adecuado nivel de calidad. Se describen las facilidades que debe ofrecer un
entorno automatizado de producción y explotación de documentos para servir de
soporte tecnológico a una metodología de Ingeniería Documental. Se define el
término C.A.D.E. (Computer Aided Document
Engineering) para hacer
referencia a las herramientas de este tipo.
PALABRAS
CLAVE:
Ingeniería
Documental, Modelado de Sistemas, Documentación Automatizada, Sistema de
Gestión Documental, Sistema de Información Documental, Groupware.
1. INTRODUCCIÓN
El concepto Ingeniería Documental hace referencia al conjunto de métodos,
técnicas y herramientas para el diseño, construcción y utilización de
documentos. La conveniencia de abordar el desarrollo de documentos como un
proceso de ingeniería se justifica cuando la complejidad de éstos, y de su
tratamiento, exija la aplicación de un método sistemático y riguroso que
garantice un adecuado nivel de calidad. Éste sería el caso, por ejemplo, del
desarrollo de documentación de tipo hipermedial, que puede conducir a un
auténtico laberinto de hiper-enlaces entre sus diferentes componentes, lo que
se conoce como el “efecto espagueti”, si no se dedica un esfuerzo previo para
el diseño de la estructura de navegación por los documentos. Otro caso que
también requiere del rigor de un método de ingeniería sería la producción y
explotación de la documentación utilizada en el proceso de negocio de una
organización, ya que, en este caso, los documentos contienen la información
necesaria para el correcto desarrollo de la actividad de la misma.
La aplicación de una metodología de
Ingeniería Documental no será realmente efectiva si no se dispone de un entorno
automatizado que sirva de soporte para la realización de las actividades
documentales establecidas, como la planificación, el diseño, la producción, la
indización, la explotación o el mantenimiento de la documentación (figura 1).
Es impensable, por ejemplo, realizar modelos de diseño de la estructura de los
documentos y sus relaciones sin una herramienta preparada para ello que permita,
entre otras funciones, la verificación del diseño y la generación automática de
documentos según la estructura definida.
Figura 1.
Actividades de la Ingeniería Documental
La tecnología que ofrezca soporte a una
metodología de este tipo, la denominamos C.A.D.E. (Computer Aided Document Engineering), acrónimo similar al utilizado
en otras ingenierías, como C.A.S.E en Ingeniería del Software o C.A.I. en
Ingeniería Industrial. Un entorno CADE debe ser un Sistema de Gestión
Documental, en cierta manera, como los que existen en la actualidad, en el
ámbito del groupware, para la producción y explotación de
documentos en el trabajo corporativo (Martínez e Hilera, 1997), pero mejorando
los mecanismos de recuperación de documentos que ofrecen, e incorporando
facilidades para abordar también la planificación y el diseño de la gestión de
los documentos, utilizando las técnicas necesarias en cada fase del proceso
documental. Estas técnicas son las que se describen en los siguientes apartados.
2.
MODELADO DE LA ESTRUCTURA DOCUMENTAL
Un entorno CADE debe permitir la
definición de la estructura y organización de los documentos mediante alguna
técnica de representación similar a las utilizadas en el ámbito de los Sistemas
de Información, donde existe actualmente una tendencia a considerar la orientación a objetos como paradigma de
desarrollo (Rumbaugh et al., 1998).
Este enfoque también es aplicable al caso de los documentos, ya que éstos
pueden considerarse formando parte también de un Sistema de Información, pero,
en este caso, Documental (SID)[1].
Siguiendo este enfoque, la estructura documental consistiría en una
representación de las clases de objetos documentales
implicados en el sistema, de su propiedades o atributos, de las operaciones que
se pueden realizar sobre ellos y de las relaciones semánticas entre tipos de
documentos.
En este contexto, se entiende por objeto documental un documento o
estructura de documentos concretos (por ejemplo, un ejemplar del Quijote o del
diccionario de la Real Academia de la Lengua compuesto de varios volúmenes) y
por clase la representación de un
grupo de objetos documentales con propiedades, estructura, funcionalidad y
relaciones similares (por ejemplo, en la figura 2, la clase “Libro”, a la que
pertenecería “El Quijote”, o la clase “Diccionario multivolumen” a la que
pertenecería el de la Real Academia). Según esto, un objeto no será sino una instancia o ejemplar de una determinada
clase.
En cuanto a los atributos y operaciones
asociadas a una clase, los primeros representan propiedades de los objetos de
esa clase, que asumirán un valor concreto para cada objeto en particular (por
ejemplo, Autor podría ser un atributo
de la clase “Libro”, con un valor Cervantes
para el caso concreto de “El Quijote”), mientras que las operaciones representan todo lo que se
puede hacer con un objeto de esa clase (por ejemplo, Abrir un “Libro” o Buscar
término en un “Diccionario multivolumen”).
Por otro lado, las relaciones entre clases hacen referencia a posibles vinculaciones
entre determinados objetos de esas clases (por ejemplo, podría existir una
relación llamada se cita en entre la
clase “Diccionario multivolumen” y “Libro”, para indicar que algunos libros
pueden citarse en algunos diccionarios, como sería el caso de una referencia a
“El Quijote” desde el “Diccionario de la Real Academia de la Lengua”). Las
relaciones entre objetos documentales también pueden utilizarse para
representar que algunas clases de documentos son, en realidad, versiones
refinadas de otras (por ejemplo, un “Diccionario multivolumen” podría ser un
caso particular de “Diccionario”).
Figura 2. Ejemplo de modelo de
estructura documental[2]
3.
MODELADO DE LA DINÁMICA DOCUMENTAL
Además del aspecto estructural de la
documentación, una herramienta CADE debe también ofrecer la posibilidad de
modelar el aspecto dinámico de la gestión documental, bien desde el punto de
vista del trabajo documental a realizar en el seno de una organización, bien
adoptando un enfoque orientado a las interacciones que se producen entre los
documentos durante la realización de una tarea documental, o bien modelando la
“vida” o “estados” por los que puede pasar cada documento en particular. Se
trata de enfoques complementarios que pueden ayudar a comprender mejor las
actividades relacionadas con la documentación.
En el primer caso, se representaría la
evolución temporal prevista en la realización del trabajo de producción y
utilización de documentos, contemplando, tanto las tareas que se deben
ejecutar, como la secuencia de ejecución y el personal encargado de llevarlas a
cabo. De esta forma, si se dispone de un entorno CADE apropiado, se puede
realizar (“ejecutar”) el trabajo controlando en cada momento que se cumple el
esquema previsto, o adaptándolo de forma dinámica a los imprevistos que puedan
surgir. La técnica para representar el flujo de trabajo (workflow) documental debería basarse en las recomendaciones
existentes al respecto por parte de organismos internacionales, como la Workflow Management Coalition (WfMC,
1996), o nacionales, como el Consejo Superior de Informática del Ministerio
para las Administraciones Públicas (CSI, 1996). En la figura 3 se muestra, como
ejemplo, un posible modelo correspondiente al trabajo documental implicado en
una transacción comercial en la que participan: un vendedor, un cliente y el
jefe de éste, el cual debe conceder el permiso para la realización de la compra
de determinados productos. En el diagrama, los documentos aparecen
representados como círculos.
Figura 3. Ejemplo de modelo de flujo de
trabajo documental
Otra alternativa para mostrar el aspecto
dinámico de la gestión documental consistiría en una representación de las
actividades, pero desde el punto de vista de los documentos, mostrando los
objetos documentales implicados y la descripción de cómo interactúan entre si
para realizar una determinada tarea. En la figura 4 se representa, en forma de
diagrama basado en la interacción entre documentos, una tarea de tramitación de
una orden de compra en una transacción comercial similar a la que aparecía en
la figura 3.
Figura 4. Ejemplo de modelo de
interacción documental[3]
Un último enfoque para modelar la
dinámica documental es el que considera que el comportamiento dinámico de un
documento constituye su ciclo de vida, durante el que pasará por una serie de
estados en función de las operaciones que se realicen con él. Por ello, un
entorno CADE debería ofrecer la posibilidad de representar la secuencia de
estados atravesados por un documento a lo largo de su vida, mostrando las
transiciones entre los diferentes estados, incluyendo los sucesos que las
provocan y las acciones a las que dan lugar[4].
Un posible ejemplo de diagrama de estados podría ser el mostrado en la figura 5
para un documento Solicitud de Compra
como el utilizado en los ejemplos de las figuras 3 y 4.
Figura 5. Ejemplo de diagrama de ciclo
de vida o de estados
4.
MODELADO DE LA PRESENTACIÓN DOCUMENTAL
La definición de la forma en que la
audiencia de los documentos va a percibir su contenido, en formato impreso o
mediante una interface gráfica en la pantalla del computador, también debe
poder hacerse desde un entorno CADE, por lo que ha de incluir facilidades que
permitan modelar, tanto la disposición espacial del contenido, como su
sincronización temporal, especialmente importante cuando se trata de
documentación multimedia. Si la tecnología sobre la que se implementarán los
documentos es de tipo hipermedial, la herramienta CADE debe permitir modelar
también las posibilidades de navegación, para facilitar el control y
mantenimiento del elevado número de hiper-enlaces que existen en estos casos.
Se han propuesto diferentes técnicas para
el diseño de las interfaces gráficas que permitan acceder al contenido de los
documentos, como ADV (Abstract Data View)
(Rossi et al., 1996), o DPD (Diagrama de
Presentación de Documentos) (Hilera, 1997). Con estas técnicas se establece
el aspecto de una presentación en forma de bloques anidados, en cuyo interior
se registrarán, en el futuro, los contenidos correspondientes. La realización
de los modelos de estructura (apartado 2) y de presentación en un mismo entorno
CADE permite garantizar la consistencia entre ellos, ya que se ha de verificar
que los elementos de presentación deben estar vinculados a clases de objetos
documentales incluidos en el modelo de estructura, lo cual podría hacerse
fácilmente y de forma automática .
Para
modelar la sincronización de elementos de presentación (sonido, secuencias de
vídeo, fotografías, etc.) se puede utilizar una técnica basada en grafos
dirigidos, cuyos nodos representen los contenidos que deben mostrarse y los
arcos la secuencia en que deben aparecer ante la audiencia. Dos técnicas
posibles son: OCPN (Object Composition
Petri Net) de Little y Ghafoor (1990), y DSM (Diagrama de Sincronización Multimedia), una extensión de la
anterior que permite representar de una manera más intuitiva la secuencia de
aparición de elementos en una presentación (Martínez e Hilera, 1998).
Cuando se trabaja con documentación
hipermedia, un entorno CADE debe ofrecer también la posibilidad de diseñar un
mapa general del hiperespacio de navegación que, además del mantenimiento de
los documentos, facilite la tarea del usuario que accede al contenido, evitando
su desorientación al conocer su situación en cada momento. Como en el caso de
la sincronización, estos mapas también pueden modelarse mediante grafos
orientados, donde los nodos representen documentos y los arcos las
posibilidades de navegación (Martínez e Hilera, 1998).
5.
SERVICIOS DE BÚSQUEDA DOCUMENTAL
Una herramienta CADE, además de
facilidades para el diseño de los documentos, debe ofrecer la posibilidad de
realizar búsquedas sobre los documentos que constituyen un Sistema de
Información Documental, y que fueron desarrollados utilizando ese entorno. Para
poder llevar a cabo las búsquedas, debe permitir previamente la indización de
los documentos e, incluso, la creación del lenguaje de indización que se
utilizará para ello (por ejemplo, un tesauro de descriptores), mediante la
incorporación, en ese lenguaje, del vocabulario del dominio conceptual en el
que se usarán los documentos (los directamentes relacionado con la actividad de
la organización que utiliza el Sistema de Información Documental), los términos
específicos que hagan referencia a componentes del entorno de trabajo (por
ejemplo, los nombres de los participantes en la actividad de la organización),
y otros elementos que faciliten la recuperación de los documentos con la mayor
precisión posible (como puntos de vista, áreas temáticas o asociaciones de
términos).
En cuanto al lenguaje de búsqueda
documental que puedan utilizar los interesados en la realización de consultas,
y que pueda interpretar el Sistema de Información Documental para localizar y
ofrecer al usuario los documentos que precisa, se ha de basar en la técnica
utilizada para la indización de los documentos. En realidad, se plantean dos
necesidades de información diferentes a los usuarios que deberán ser
contempladas por este lenguaje. Por una parte, la localización de los propios
documentos, que deberá solucionarse mediante consultas que se formularán
utilizando, como términos de búsqueda, los incluidos en el lenguaje de
indización (por ejemplo, tesauro) que se usó para crear los índices. Por otra
parte, existirá la necesidad de averiguar precisamente qué términos incluye
este lenguaje relacionados con el tema objeto de la consulta antes de
formularla.
En general, en cuanto a su facilidad de
uso por parte del usuario, el lenguaje de búsqueda que ofrezca un entorno CADE
puede ser de tres tipos: natural, gráfico o de comandos. El lenguaje de
comandos es el de más bajo nivel y, por lo tanto, el que más dificultad ofrece
al usuario. Se trata de un lenguaje muy simple en su estructura gramatical, que
facilita el procesamiento automático de las consultas, que se deberán expresar
de acuerdo a unas reglas básicas de composición. ISO ha publicado la norma 8777
sobre la definición mínima de un lenguaje de este tipo y de sus componentes
(ISO, 1993), que incluye un conjunto básico de comandos: FIND, para formular
consultas; RELATE, para buscar términos en un tesauro de descriptores; SCAN,
para comprobar el índice asociado a un documento, etc. Este estándar también
establece diferentes formas de combinar términos en las consultas, como los clásicos operadores booleanos (AND,
NOT, OR), los de comparación (GT, LT, TO, etc.) o los operadores de proximidad,
que permiten localizar documentos en cuyo contenido aparecen términos con un
máximo número de palabras entre ellos en el texto. Un lenguaje de comandos que
asume estas recomendaciones y añade, entre otras facilidades, la posibilidad de
ponderar la importancia de cada término o de permitir la propagación de las
búsquedas a otros términos relacionados a través de un lenguaje de indización,
se define en (Hilera, 1997).
El principal inconveniente de un lenguaje
de comandos es el esfuerzo que requiere la elaboración de complejas expresiones
de búsqueda, algo que puede evitarse, en parte, utilizando un lenguaje gráfico
o dirigido, ya que, en este caso, el usuario se limitaría a introducir los
términos de búsqueda y a seleccionar, en menús preparados para ello, las
diferentes formas de combinar dichos términos. Otra alternativa consistiría en
la utilización de un lenguaje natural que permitiera expresar las consultas en
el propio lenguaje del usuario, con las ventajas que ello supone, ya que éste
no debería conocer más reglas de construcción que las del idioma que emplee,
siendo la herramienta CADE la encargada de realizar un proceso de
transformación a través de un análisis sintáctico, morfológico y semántico,
como el descrito por Arenas (1993), hasta obtener la expresión equivalente en el
lenguaje normalizado (orientado a comandos) que utilice el sistema en la
búsqueda de los documentos.
6.
CONCLUSIONES
Como ocurre en otras ingenierías, para
que la aplicación de un método de ingeniería documental sea realmente efectiva,
es preciso disponer de un entorno CADE que permita realizar los modelos
propuestos y controlar la ejecución del trabajo documental, por ejemplo,
programando autómatas para controlar las transiciones de estados de cada uno de
los documentos y generar los mensajes adecuados a los interesados para conocer
en todo momento su situación.
Además del control dinámico, el entorno
CADE debe ofrecer también facilidades para la elaboración de unos documentos en
función del contenido de otros de forma automática, el modelado de la presentación
de los documentos ante la audiencia, la sincronización de los componentes
multimedia de los documentos, la elaboración de un lenguaje de búsqueda
documental a partir de una gramática establecida por el usuario, etc. La
construcción de una herramienta de este tipo implica también una investigación
de las diferentes formas de integrar coherentemente todas las técnicas
soportadas, además de posibles mejoras y ampliaciones de estas técnicas, así
como su formalización algebraica para facilitar la valoración de la calidad de
los diferentes modelos documentales.
En el futuro, estos entornos podrían
evolucionar hasta convertirse en herramientas “inteligentes” capaces, por
ejemplo, de realizar la indización de los documentos de forma automática. Para
ello, incluirían un sistema experto para asignar a los documentos los términos
de indización extraídos de un lenguaje documental. También sería susceptible de
automatización la indización asociativa, mediante otro sistema experto que
generase los hiper-enlaces de navegación entre documentos. En este sentido, la
tecnología CADE debe aprovechar los resultados obtenidos al respecto en los
últimos años, consecuencia de la gran actividad investigadora llevada a cabo en
este campo, como se recoje en (Gil y Rodríguez, 1996), (Díaz et al., 1996) y (Salminen et al., 1995).
7.
BIBLIOGRAFÍA
ARENAS,
Lourdes (1993): “Tratamiento automático del Documento en un Centro
especializado”, NOVATICA, 102 (1993),
63-67.
CSI (1996): Especificaciones para el Tratamiento de Flujos Automatizados (ESTROFA).
Ministerio para las Administraciones Públicas, Consejo Superior de Informática,
1996.
DÍAZ,
Paloma; CATENAZZI, Nadia y AEDO, Ignacio (1996): De la Multimedia a la Hipermedia. Madrid, RA-MA, 1996, 288 pp.
GIL
LEIVA y RODRÍGUEZ, J.V. (1996): “Tendencia en los sistemas de indización
automática. Estudio evolutivo”, Revista
Española de Documentación Científica, vol. 19, 3 (1996), 273-291.
GUTIÉRREZ
DE MESA, José A.; HILERA, José R. y CERRATO, Vicente (1996): “Generación de
autómatas para el control del comportamiento dinámico de los documentos”. Actas de las III Jornadas Nacionales de
Información y Documentación Empresarial, INDOEM’96, Universidad de Murcia,
1996.
HILERA,
José Ramón (1997): Aportes Metodológicos
para la Gestión Documental en el Desarrollo de Software. Tesis Doctoral,
Universidad de Alcalá, 1997.
ISO (1993): ISO
8777, Information and Documentation - Commands for interactive text searching”.
Ginebra (Suiza), International Standards Organization, 1993.
JACOBSON, Ivar;
BOOCH, Grady y RUMBAUGH, James (1998): The
Objetory Software Development Process. Menlo Park (EE.UU.), Addison-Wesley,
1998.
LITTLE, Thomas y GHAFOOR, Arif (1990):
“Synchronization and Storage Models for Multimedia Objects”, IEEE Journal on Selected Areas in Communications,
vol. 85, 3 (1990), 413-427.
MARTÍNEZ, José Manuel e HILERA, José
Ramón (1997): “Los Sistemas de Gestión Documental en el Ámbito del Trabajo
Corporativo”. Revista General de
Información y Documentación, vol. 7, 2 (1997), 237-255.
MARTÍNEZ, José Manuel e HILERA, José
Ramón (1998): “Modelado de Documentación Multimedia e Hipermedia”. Cuadernos de Documentación Multimedia,
No. 6/7 (1998).
MARTÍNEZ,
José Manuel; HILERA, José Ramón; et al.
(1995): Metodología de Desarrollo de
Sistemas de Información, Universidad de Alcalá, 1995.
ROSSI, Gustavo; SCHWABE, Daniel, y
COWAN, D. (1996), “An Object Oriented Model for Designing the Human-Computer
Interface of Hypermedia Applications”, Proceedings
of the International Workshop on Hypermedia Design. Montpellier, Francia,
1-2 Junio, 1995, 123-143, Springer-Verlag, 1996.
SALMINEN, Airi; TAGUE-SUTCLIFFE, Jean y MCCLELLAN,
Charles (1995): “From Text to Hypertest by Indexing”, ACM Transactions on Information Systems, vol. 13, 1 (1995), 69-99.
UML (1997): Unified
Modeling Language - UML. Rational Software Corporation, 1997.
WfMC
(1996): “WfMC, la Coalición para la Gestión del Flujo de Tareas” (traducción y
adaptación de J. Marcelo), NOVATICA,
120 (1996), 7-9.
[1]
En inglés, Document-based Information
System (DIS).
[2] Se ha utilizado en la representación una notación basada en el estándar internacional UML (Unified Modeling Language), adoptado recientemente por el OMG (Object Management Group) para el modelado conceptual de sistemas con un enfoque de orientación a objetos (UML, 1997).
[3] Como en el apartado 2, aquí también se utiliza una notación basada en el estándar UML (1997).
[4] En (Gutiérrez et al., 1996) se propone, precisamente, un método de generación de autómatas para el control dinámico de los documentos a partir de sus diagramas de ciclo de vida (o diagramas de estado), en el que podría basarse una herramienta CADE.