KERMIT - Forschung an der USTP – University of Applied Sciences St. Pölten

Wissensextraktion und -abfrage mit modellgesteuerten Informationstechnologien.

Projektinhalt und Projektziele

Kleine und mittelständische Unternehmen (KMU) stehen vor großen Herausforderunger: Immer mehr Wissen geht verloren, weil die Belegschaft altert und erfahrene Mitarbeiter*innen in den Ruhestand gehen. Gleichzeitig müssen Unternehmen effizienter arbeiten, um wettbewerbsfähig zu bleiben.

Das Forschungsprojekt KERMIT („Knowledge Extraction and Retrieval with Model-Driven Information Technologies“) setzt genau hier an. Es nutzt moderne digitale Technologien und künstliche Intelligenz, um den Zugang zu firmeninternem Wissen zu verbessern. Folgende Technologien kommen zum Einsatz:

Large Language Models (LLMs) – KI-Modelle, die Sprache verstehen und verarbeiten können.
Retrieval-Augmented Generation (RAG) – eine Methode, die KI mit gezielter Informationssuche verbindet.
Optische Zeichenerkennung (OCR) – um handschriftliche Notizen und ältere Dateiformate zu digitalisieren.

Auf diese Weise werden schwer zugängliche und unstrukturierte Datenquellen nutzbar gemacht, und der Wissensverlust durch ausscheidende Mitarbeiter*innen wird reduziert. Gleichzeitig erschließen die aufbereiteten Daten neues Wissen und machen verborgene Zusammenhänge sichtbar. Das unterstützt fundierte Entscheidungen und fördert Innovationen. Die Unternehmen stärken ihre Wettbewerbsfähigkeit und werden resilienter.

Vorgehensweise und wesentliche Arbeitsschritte

Analyse der Anforderungen & Sammlung von Datenquellen: Strukturen und Voraussetzungen der beteiligten Unternehmen werden erhoben und eine Anforderungsanalyse durchgeführt. Darauf aufbauend werden Use Cases für die KMUs definiert.
Datenaufbereitung, Datenmodell und Schnittstellenkonzept: Die gesammelten Daten werden bereinigt und in ein Format gebracht, das für Large Language Models lesbar ist. Verfahren der Optischen Zeichenerkennung (OCR) werden genutzt, um unstrukturierte Datenquellen wie handschriftliche Notizen und alte digitale Formate nutzbar zu machen.
Entwicklung eines Demonstrators: Ein Prototyp wird entwickelt, der die Sprachmodelle mit Vektordatenbanken oder Wissensgraphen kombiniert. Wichtig ist dabei die spezifischen Anforderungen der Use Cases zu berücksichtigen und die Modelle darauf abzustimmen.
Validierung und Transfer: Die Anwender*innen testen das entwickelte Modell. Das Feedback aus den Tests fließt in Verbesserungen des Modells. So wird sichergestellt, dass das System den Anforderungen entspricht.
Akzeptanz, Verantwortlichkeit und Erklärbarkeit: Die Nutzer*innen werden an das System herangeführt und seine Funktionsweise wird transparent dargestellt. Das stärkt das Vertrauen in das System und schafft Klarheit, auch was Verantwortlichkeiten betrifft.