Workbench with laptop, soldering iron and duct tape

GenAI Praxis: Dokumente zähmen (Einheit 2.1.5)

Slogan: Warum "Read it for me" erst funktioniert, wenn man die 4-3-3 Regel kennt.

Hinweis: Dies ist das offizielle Handout zum Training "AI in Business Processes & Engineering". Wir fassen hier die Inhalte der Einheit 2.1.5 zusammen – vom schnellen Überblick bis zur harten Projektarbeit. Dieser Post dient als Begleitmaterial zum Kurs, hilft aber auch Stand-alone dabei, die Tücken der KI-Dokumentenarbeit zu verstehen.

1. Einheit: Dokumente zusammenfassen und analysieren

In der Praxis arbeiten wir selten mit isolierten Texten. Ob Angebote, Verträge oder Protokolle – oft müssen wir große Mengen an Informationen in kürzester Zeit verdauen. Moderne Chatbots erlauben den Upload dieser Dateien, wobei das Dokument technisch gesehen einfach in den Kontext des Modells geladen wird – wie ein extrem langer Prompt.

Der Upload als Kontext: Wie die KI "liest"

Sobald du ein PDF oder Word-Dokument hochlädst, "sieht" die KI diesen Text als Teil deiner aktuellen Anfrage. Sie kann Inhalte zusammenfassen, gezielte Fragen beantworten oder basierend auf dem Dokument neuen Text generieren.

Token-Limits: Der Unterschied zwischen Pro und Gratis

Ein "Token" entspricht ca. 0,7 Wörtern. Hier zeigt sich, warum die Pro-Versionen ihr Geld wert sind:

ChatGPT Free: Ca. 8.192 Tokens (~18 Seiten).
ChatGPT Pro: Ca. 128.000 Tokens (~300 Seiten).
Gemini Pro: Bis zu 2 Mio. Tokens (~3000 Seiten).

Die Degradation: Wenn die Qualität schmilzt

Die hässliche Wahrheit: Nur weil 1500 Seiten "reinpassen", heißt das nicht, dass die KI alles versteht. Je mehr Kontext du hineingibst, desto weniger "Gewicht" hat die einzelne Information. Die Qualität der Antworten degradiert oft schnell, Informationen in der Mitte des Dokuments werden übersehen ("Lost in the Middle").

Übung 1: Zusammenfassung testen

Lade ein kleines Dokument hoch und teste die Fähigkeiten:

Prompt: Fasse die Kernaussagen dieses Dokuments in 5 prägnanten Stichpunkten für die Geschäftsleitung zusammen.

Reflektion: Sind die Antworten hilfreich oder zu generisch? Teste ein zweites Dokument, falls das Limit es zulässt.

2. Einheit: Informationen extrahieren

LLMs können gezielt Daten aus Dokumenten ziehen, um sie für KI-Systeme oder Toolchains vorzubereiten. Das spart massiv Zeit bei der Routinearbeit.

Dateitypen im Check

Einfach: Fließtexte (Word, .rtf, Markdown, HTML). Strukturierung durch Tags wird exzellent verstanden.
Schwierig: PDFs. Ein PDF ist kein zusammenhängender Text, sondern eine "Leinwand". Kopf- und Fußzeilen zerschneiden den Textfluss oft mitten im Satz.

Diagramme & Skizzen

Moderne Multimodale Modelle (vLMs) verstehen heute sogar Architektur-Diagramme oder Prozess-Skizzen. Sie können Abläufe beschreiben (z.B. "Nutzer stellt Frage -> Input-Prüfung -> Reasoning -> Antwort").

Tabellen-Falle

Tabellen funktionieren gut, solange sie nicht zu groß sind oder über mehrere PDF-Seiten umbrechen. Da Tabellen für Menschen-Lesbarkeit optimiert sind, verlieren KI-Modelle bei Seitenumbrüchen oft den Bezug der Spaltenköpfe.

Übung 2: Daten-Extraktion

Szenario: Du hast ein Angebot oder eine Einladung.

Prompt: Extrahiere alle genannten Fristen, Preise und Ansprechpartner aus diesem Dokument und gib sie als saubere Liste aus.

3. Einheit: Grenzen beim ChatBot

Wer die Grenzen kennt, baut keine instabilen Prozesse. Chatbots haben spezifische Schwachstellen bei der Dokumentenarbeit.

Kontextfenster & Verwässerung

Wichtige Informationen gehen durch "Verdünnen" verloren, wenn das Dokument zu groß wird. Die KI priorisiert oft den Anfang und das Ende des bereitgestellten Textes.

Fehlende Quellen & Zitierfehler

LLMs zitieren oft keine echten Quellen oder geben falsche Seitenzahlen an. Manchmal werden Inhalte schlicht "halluziniert", wenn die KI die Antwort im Text nicht findet, aber "hilfsbereit" sein will.

Inhalts-Voodoo

Wenn mehrere Dokumente gleichzeitig geladen werden, vermischt die KI häufig die Inhalte. Informationen aus Dokument A werden fälschlicherweise Dokument B zugeordnet.

Projektaufgabe: Experimente mit Dokumenten

Jetzt wird es ernst. Wir provozieren Fehler, um die Belastbarkeit der Systeme zu testen.

Der Jaguar-Stresstest (Inhalts-Vermischung)

Lade zwei sehr ähnliche Artikel von Wikipedia hoch: Das Tier Jaguar und das Auto Jaguar F-Type.

Test-Prompt 1: Vergleiche die Höchstgeschwindigkeit und die Nahrungsgewohnheiten beider Objekte.

Test-Prompt 2 (Fangfrage): Welche Lederausstattung hat das Tier Jaguar und wie viele Kalorien verbraucht der Jaguar F-Type pro Kilometer beim Jagen von Antilopen?

LLM-Antwort-Check: Beobachte, ob die KI die Daten vermischt (z.B. dem Auto biologische Eigenschaften zuschreibt).

Bild-Check

Lasse komplexe Diagramme beschreiben. Klappt die Interpretation bei technischen Skizzen besser als bei abstrakter Kunst?

Das 10-Fragen-Audit (4-3-3 Methode)

Erstelle ein Audit für ein komplexes Dokument deiner Wahl:

4 Einfache Fragen: Fakten, die explizit im Text stehen.
3 Schwierige Fragen: Schlussfolgerungen, die Transferwissen über mehrere Absätze erfordern.
3 Fragen mit falschen Annahmen: Behaupte etwas, das nicht im Text steht, und schau, ob die KI dich korrigiert oder halluziniert.

Nächste Schritte im Training

Interner Link: Zurück zur Tutorial-Übersicht
Ausblick: Vorschau: RAG – Die Lösung für zu kleine Kontextfenster