GenAI Praxis: Dokumente zähmen (Einheit 2.1.5)
Slogan: Warum "Read it for me" erst funktioniert, wenn man die 4-3-3 Regel kennt.
Hinweis: Dies ist das offizielle Handout zum Training "AI in Business Processes & Engineering". Wir fassen hier die Inhalte der Einheit 2.1.5 zusammen – vom schnellen Überblick bis zur harten Projektarbeit. Dieser Post dient als Begleitmaterial zum Kurs, hilft aber auch Stand-alone dabei, die Tücken der KI-Dokumentenarbeit zu verstehen.
1. Einheit: Dokumente zusammenfassen und analysieren
In der Praxis arbeiten wir selten mit isolierten Texten. Ob Angebote, Verträge oder Protokolle – oft müssen wir große Mengen an Informationen in kürzester Zeit verdauen. Moderne Chatbots erlauben den Upload dieser Dateien, wobei das Dokument technisch gesehen einfach in den Kontext des Modells geladen wird – wie ein extrem langer Prompt.
Der Upload als Kontext: Wie die KI "liest"
Sobald du ein PDF oder Word-Dokument hochlädst, "sieht" die KI diesen Text als Teil deiner aktuellen Anfrage. Sie kann Inhalte zusammenfassen, gezielte Fragen beantworten oder basierend auf dem Dokument neuen Text generieren.
Token-Limits: Der Unterschied zwischen Pro und Gratis
Ein "Token" entspricht ca. 0,7 Wörtern. Hier zeigt sich, warum die Pro-Versionen ihr Geld wert sind:
- ChatGPT Free: Ca. 8.192 Tokens (~18 Seiten).
- ChatGPT Pro: Ca. 128.000 Tokens (~300 Seiten).
- Gemini Pro: Bis zu 2 Mio. Tokens (~3000 Seiten).
Die Degradation: Wenn die Qualität schmilzt
Die hässliche Wahrheit: Nur weil 1500 Seiten "reinpassen", heißt das nicht, dass die KI alles versteht. Je mehr Kontext du hineingibst, desto weniger "Gewicht" hat die einzelne Information. Die Qualität der Antworten degradiert oft schnell, Informationen in der Mitte des Dokuments werden übersehen ("Lost in the Middle").
Übung 1: Zusammenfassung testen
Lade ein kleines Dokument hoch und teste die Fähigkeiten:
Prompt: Fasse die Kernaussagen dieses Dokuments in 5 prägnanten Stichpunkten für die Geschäftsleitung zusammen.
Reflektion: Sind die Antworten hilfreich oder zu generisch? Teste ein zweites Dokument, falls das Limit es zulässt.
2. Einheit: Informationen extrahieren
LLMs können gezielt Daten aus Dokumenten ziehen, um sie für KI-Systeme oder Toolchains vorzubereiten. Das spart massiv Zeit bei der Routinearbeit.
Dateitypen im Check
- Einfach: Fließtexte (Word, .rtf, Markdown, HTML). Strukturierung durch Tags wird exzellent verstanden.
- Schwierig: PDFs. Ein PDF ist kein zusammenhängender Text, sondern eine "Leinwand". Kopf- und Fußzeilen zerschneiden den Textfluss oft mitten im Satz.
Diagramme & Skizzen
Moderne Multimodale Modelle (vLMs) verstehen heute sogar Architektur-Diagramme oder Prozess-Skizzen. Sie können Abläufe beschreiben (z.B. "Nutzer stellt Frage -> Input-Prüfung -> Reasoning -> Antwort").
Tabellen-Falle
Tabellen funktionieren gut, solange sie nicht zu groß sind oder über mehrere PDF-Seiten umbrechen. Da Tabellen für Menschen-Lesbarkeit optimiert sind, verlieren KI-Modelle bei Seitenumbrüchen oft den Bezug der Spaltenköpfe.
Übung 2: Daten-Extraktion
Szenario: Du hast ein Angebot oder eine Einladung.
Prompt: Extrahiere alle genannten Fristen, Preise und Ansprechpartner aus diesem Dokument und gib sie als saubere Liste aus.
3. Einheit: Grenzen beim ChatBot
Wer die Grenzen kennt, baut keine instabilen Prozesse. Chatbots haben spezifische Schwachstellen bei der Dokumentenarbeit.
Kontextfenster & Verwässerung
Wichtige Informationen gehen durch "Verdünnen" verloren, wenn das Dokument zu groß wird. Die KI priorisiert oft den Anfang und das Ende des bereitgestellten Textes.
Fehlende Quellen & Zitierfehler
LLMs zitieren oft keine echten Quellen oder geben falsche Seitenzahlen an. Manchmal werden Inhalte schlicht "halluziniert", wenn die KI die Antwort im Text nicht findet, aber "hilfsbereit" sein will.
Inhalts-Voodoo
Wenn mehrere Dokumente gleichzeitig geladen werden, vermischt die KI häufig die Inhalte. Informationen aus Dokument A werden fälschlicherweise Dokument B zugeordnet.
Projektaufgabe: Experimente mit Dokumenten
Jetzt wird es ernst. Wir provozieren Fehler, um die Belastbarkeit der Systeme zu testen.
Der Jaguar-Stresstest (Inhalts-Vermischung)
Lade zwei sehr ähnliche Artikel von Wikipedia hoch: Das Tier Jaguar und das Auto Jaguar F-Type.
Test-Prompt 1: Vergleiche die Höchstgeschwindigkeit und die Nahrungsgewohnheiten beider Objekte.
Test-Prompt 2 (Fangfrage): Welche Lederausstattung hat das Tier Jaguar und wie viele Kalorien verbraucht der Jaguar F-Type pro Kilometer beim Jagen von Antilopen?
LLM-Antwort-Check: Beobachte, ob die KI die Daten vermischt (z.B. dem Auto biologische Eigenschaften zuschreibt).
Bild-Check
Lasse komplexe Diagramme beschreiben. Klappt die Interpretation bei technischen Skizzen besser als bei abstrakter Kunst?
Das 10-Fragen-Audit (4-3-3 Methode)
Erstelle ein Audit für ein komplexes Dokument deiner Wahl:
- 4 Einfache Fragen: Fakten, die explizit im Text stehen.
- 3 Schwierige Fragen: Schlussfolgerungen, die Transferwissen über mehrere Absätze erfordern.
- 3 Fragen mit falschen Annahmen: Behaupte etwas, das nicht im Text steht, und schau, ob die KI dich korrigiert oder halluziniert.
Nächste Schritte im Training
- Interner Link: Zurück zur Tutorial-Übersicht
- Ausblick: Vorschau: RAG – Die Lösung für zu kleine Kontextfenster