Information Retrieval
Information Retrieval (IR) (Informationswiedergewinnung, gelegentlich Informationsbeschaffung) ist ein Fachgebiet, das sich mit computergestützten inhaltsorientierten Suche beschäftigt. Es ist ein Teilgebiet der Dokumentationswissenschaft.
Wie der Begriff retrieval (deutsch Wiedergewinnung, Auffindung) sagt, sind Informationen in großen Datenbeständen zunächst verloren und müssen wiedergewonnen bzw. wiedergefunden werden. Zwei Konzepte prägen das IR und grenzen es von der Suche in herkömmlichen Datenbanken ab:
- Vagheit: Der Benutzer kann sein "diffuses" Informationsbedürfnis nicht präzise und formal (wie z. B. in SQL in relationalen Datenbanken) ausdrücken. Die Anfrage enthält daher vage Bedingungen.
- Unsicherheit: Dem System fehlen Kenntnisse über den Inhalt der Dokumente (die Texte, Bilder, Video etc. enthalten können). Dies führt zu fehlerhaften und fehlenden Antworten. Probleme bei Texten bereiten z. B. Homonyme (Worte, die gleich geschrieben werden; z. B. Bank - Geldinstitut, Sitzgelegenheit) und Synonyme (Bank und Geldinstitut).
Ein Information Retrieval System IRS ist eine Spezialisierung eines Informationssystems und kann formal als 7-Tupel beschrieben werden (ohne Berücksichtigung von Relevanz-Feedback):
IRS = (AIR(D), W, Q, AIR(Q), E, ret(.), rank(.)), mit
- AIR(D): Dokument-Indexierungsfunktion als Abbildung eines Dokumentes Di auf eine Dokumentrepräsentation xi.
- W: Menge aller möglichen Dokumentrepräsentationsmengen.
- Q: Menge aller zugelassenen Suchfragen Qj.
- AIR(Q): Query-Indexierungsfunktion als Abbildung einer Anfrage Qj auf eine Queryrepräsentation qj.
- E: Menge aller möglichen Outputmengen (Potenzmenge der Dokumentmenge) bzw. Outputlisten (beim Ranking).
- ret(.): Retrievalfunktion als Abbildung einer indexierten Suchfrage qj auf eine Teilmenge der Dokumentrepräsentationsmenge.
- rank(.): Rankingfunktion als Abbildung der ermittelten Dokumentrepräsentationsteilmenge auf eine Liste der Dokumentrepräsentationen.
Methoden des Information Retrieval werden in Internetsuchmaschinen (z. B. Google), aber auch in Digitalen Bibliotheken (z. B. zur Literatursuche), in Bildsuchmaschinen usw. verwendet. Auch Antwortsysteme oder Spamfilter verwenden IR-Technologien.
Im Bereich "Information Retrieval" sind in den letzten Jahrzehnten verschiedene Modelle entwickelt worden:
Information Retrieval hat Querbezüge zu verschiedenen anderen Gebieten, z. B. Wahrscheinlichkeitstheorie der Computerlinguistik.
Siehe auch: Recall und Precision , Information Extraction
Literatur
Websites:
Tagoror |
Guajara |
Tacoronte Guia |
Todo Gomera |
Deranet |
Radioaficionados |
Cinebso |
Mi Buscador
Enciclopedia On Line:
GNU FDL.