Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (S
Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 1 3 SISTEMES D’INDEXACIÓ (MOTORS DE CERCA) Sumari 1 Introducció .................................................................................................... 2 2 Estructura i funcionament ............................................................................. 2 2.1 Administració de la base de dades ........................................................ 2 2.2 Manteniment (Entrada de dades) ........................................................... 2 2.3 Indexació ................................................................................................ 3 2.4 Recuperació ........................................................................................... 3 2.5 Ordenació ............................................................................................... 3 2.6 Presentació dels resultats ...................................................................... 4 2.6.1 Filtratge dels resultats per característiques ..................................... 4 2.6.2 Presentació gràfica (visual) dels resultats ....................................... 4 2.6.3 Agrupacions temàtiques dels resultats ............................................ 4 2.7 Difusió .................................................................................................... 5 2.8 Comparació amb SGD ........................................................................... 5 3 Aplicacions .................................................................................................... 5 3.1 En portals web ....................................................................................... 5 3.2 Col·leccions de documents .................................................................... 5 4 Mercat ........................................................................................................... 7 4.1 Indexadors ............................................................................................. 7 4.2 Cerca federada (metacerca) .................................................................. 8 4.3 Recol·lecció de metadades .................................................................... 8 5 Càlcul de la precisió .................................................................................... 10 5.1 Freqüència d’aparició dels termes als documents [Principi de Luhn] .. 10 5.2 Ponderació segons la zona en què es trobin els termes [Principi de Salton] ............................................................................................................ 10 5.3 Raresa a l’índex global (freqüència inversa) ........................................ 10 5.4 Nombre d’enllaços (“popularitat”) ......................................................... 11 Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 2 1 Introducció Objectiu: recuperació del text complet de grans volums d’informació. “Un motor de indización y búsqueda es una herramienta que permite extraer de una información, principalmente textual, las palabras o términos que mejor la representan para almacenarlas en un índice. Esta misma herramienta es la que después recorre todo el índice, a fin de identificar los términos más relevantes en relación con la pregunta del usuario, y escoge las informaciones que le suministrará como respuesta”. (Leloup, 1998: 17) - Denominacions Motors de cerca, indexadors o sistemes d'indexació. En anglès s'utilitza el terme text retrieval software, juntament amb full-text retrieval system o text information management system, entre d'altres. En francès fan servir moteurs d'indexation et de recherche. - Molt populars amb la puixança del web i amb la popularització dels buscadors de recursos web (com ara Google, etc.). - Antecedents en les primeres bases de dades de text complet (Lexis, etc.). 2 Estructura i funcionament 2.1 Administració de la base de dades Una col·lecció (o base de dades) està formada per dos tipus de dades: els fitxers amb els documents i els índexs que remeten a aquests documents. Mentre que els índexs sí que han de trobar-se a la màquina on hi ha l'aplicació, en molts casos, els documents no hi són sinó que, a diferència del que passa amb els SGD estàndard, poden estar ubicats en els seus llocs d'origen. Encara que moltes de les aplicacions no estructuren els documents, és cada cop més freqüent l'ús de camps o d'etiquetes que permeten donar estructura de camps a la base de dades i faciliten l'accés a parts concretes del document, ja sigui un títol, una matèria o el nom dels autors (metadades). De tota manera, no tenen les facilitats dels SGD clàssics per a definir un diccionari de dades. 2.2 Manteniment (Entrada de dades) L’entrada de dades al sistema no s’acostuma a fer des del teclat perquè, normalment, es disposa dels fitxers informàtics amb la informació que s'ha de processar. Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 3 Possible problema: diversitat de formats en què poden estar els documents que han de formar part de la base de dades (col·lecció), que poden ser de tots tipus (doc, odt, rtf, html, xls, pdf, tiff, etc.). En qualsevol cas, els programes estan preparats per a indexar els documents creats amb els formats més habituals. Aquests fitxers es conserven en el seu format original i l'únic que necessita el sistema és saber on es troben i amb quina aplicació estan generats per tal de poder facilitar la visualització quan sigui necessari. 2.3 Indexació El programa indexa el text complet dels documents que formen part de la base de dades o col·lecció i, a més, els indicadors i marques de camp si és que hi són presents. D’aquesta manera es poden acotar consultes a una part determinada del registre. Es tracta del mòdul més potent i desenvolupat. 2.4 Recuperació En general, el procés de consulta a les bases de dades de text complet es fa de manera similar a la consulta de bases de dades de tipus bibliogràfic, és a dir, es fa ús de l'àlgebra booleana, i es disposa d'una sèrie d'operadors complementaris (truncament, proximitat, etc.). A part, els motors de cerca disposen de d’altres tipus d'opcions per a la recuperació: cerca per patrons (per reconeixement de forma), cerca semàntica. — Cerca per patrons: La cerca per patrons, o per reconeixement de forma, permet buscar no tan sols el terme exacte que s'introdueix en la consulta sinó tots aquells termes que comparteixen el mateix patró. P.e. Google, Yahoo (suggereixen altres formes properes als termes entrats) — Cerca semàntica: ampliar la consulta d’un terme a tots aquells que estiguin relacionats d’alguna manera amb ell. P.e. “mal de cap” (cefalea, cefalalgia, etc.) Hi ha pocs exemples de portals amb aquesta prestació degut a les dificultats per parametritzar-ho bé i per la confusió que pot causar a l’usuari. (Antics exemples: Diario médico, V/lex, etc.). 2.5 Ordenació Com que es tracta de sistemes en els que normalment es recuperen un nombre molt alt de documents, cal disposar d'eines que ajudin a determinar quins són els més rellevants. És per això que la majoria de programes disposen de mecanismes de ponderació dels termes que permeten ordenar els resultats en funció de la pertinença dels documents. (v. apartat 5) Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 4 2.6 Presentació dels resultats 2.6.1 Filtratge dels resultats per característiques És cada cop més freqüent disposar de la possibilitat de filtrar els resultats trobats per tipus de document (llibres, articles, vídeos, etc.), per data, idioma, autors, etc. Exemples: –Triangle Research Libraries Network http://search.trln.org/ https://www.flickr.com/photos/morville/sets/72157623085918037/ 2.6.2 Presentació gràfica (visual) dels resultats Pretén fer més fàcil, simple i intuïtiva la presentació dels resultats. Tot i això, es tracta d’un àmbit en el qual s’ha investigat molt de fa anys i d’on s’han obtingut pobres resultats. Exemple: – Liveplasma (http://www.liveplasma.com/) Consulta de música i cinema. Els resultats apareixen en esferes interrelacionades. 2.6.3 Agrupacions temàtiques dels resultats En alguns casos, els motors de cerca són capaços d’agrupar els resultats en base a categories temàtiques generades automàticament. Clustering: es tracta d’algorismes que tracten d’agrupar objectes/documents similars. En el cas de la RI, creen classificacions automàtiques dels resultats obtinguts. Exemples: (Van canviant molt sovint. Això s’explica pel seu carácter experimental) - iBoogie (http://www.iboogie.com) Presenta els grups en els què es divideixen els resultats en funció de la co- ocurrència dels termes. Les jerarquies se subdivideixen. – Yippy (http://yippy.com/) Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 5 2.7 Difusió Poden informar de forma automàtica als usuaris sobre els documents que es va incorporant a la base de dades que coincideixi amb les consultes que, prèviament, s'hagin establert. P.e. V-lex disposa de l’opció “Crear una alerta” (cal indicar la periodicitat de recepció dels missatges i una adreça-e), el “Recercador” del CRAI de la UB té una prestació similar (definir “alertes”), etc. 2.8 Comparació amb SGD Característiques diferencials amb els mòduls d'un SGD clàssic: - mòdul definició base de dades (poc desenvolupat) - manteniment (només cal indicar en quins directoris o servidors es troben els fitxers que s'han d'incorporar a la base de dades) - mòdul d’indexació (molt desenvolupat) - recuperació (més prestacions) - ordenació i agrupació de resultats (molt desenvolupat). 3 Aplicacions Els primers cercadors es van dedicar a explorar recursos web i a ajudar els usuaris a trobar pàgines web del seu interès. A partir d’aquí es van aplicar a col·leccions més petites de documents (no pas tota la web). 3.1 En portals web Tots els portals web disposen d’un motor de cerca per complementar la navegació i localitzar un determinat contingut de forma directa. – WhiteHouse (http://www.whitehouse.gov/) (requadre “What are you looking for?””) Utilitza Drupal i Apache Solr – Generalitat de Catalunya (http://www.gencat.cat, http://cercador.gencat.cat) 3.2 Col·leccions de documents Algunes estan estructurades en camps i altres, no. — Premsa Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 6 Mynews <http://www.mynewsonline.com> La vanguardia (http://www.lavanguardia.es/hemeroteca/) El mundo <http://www.elmundo.es/hemeroteca/> — Revistes acadèmiques Ariadne (http://www.ariadne.ac.uk/search/) Information Research <http://informationr.net/ir/search.html> — Fons editorials Ocenet (http://oceanodigital.oceano.com). Fons de l’editorial Océano. Accessible des de la xarxa biblioteques Diputació. V-lex (http://vlex.com/). Base de dades de legislació. Conté més de 60 milions de documents de 130 països. Acotacions de la cerca segons col·lecció, jurisdicció, data, temàtica (segons tesaurus), etc. Grau d’Informació i Documentació Sistemes de Gestió Digital de la Informació (SGDI) I - Semipresencial Professor: Josep-M. Rodríguez-Gairín 7 4 Mercat Es considera una triple orientació: - Indexadors - Cerca federada (metacerca) - Recol·lecció metadades Directori (bastant exhaustiu) Search uploads/s1/3-motors-cerca 1 .pdf
Documents similaires










-
40
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jan 01, 2022
- Catégorie Administration
- Langue French
- Taille du fichier 0.2327MB