KI-basierte Chatbots im ESG-Alltag: Erfahrungsbericht

KI-Chatsysteme sind in der regelmäßigen Arbeit von ESG-Bereichen längst nicht mehr wegzudenken. Der Autor nutzt KI-basierte Chatbots im ESG-Alltag – konkret ChatGPT, Perplexity und Le Chat. Und zwar nicht als Ersatz für die klassische Suchmaschine, sondern im täglichen Doing: wenn Texte entstehen müssen, wenn Workshops stehen sollen und wenn Risiko-Logiken strukturiert werden.

Dieser Artikel ist bewusst als Erfahrungsbericht geschrieben: mit klaren Stärken, klaren Schwächen und einem Fokus auf das, welche Erkenntnisse in der Zusammenarbeit mit Nachhaltigkeitsmanager:innen gewonnen wurden. „Stärke“ bedeutet hier: spürbare Zeitersparnis und/oder neue, brauchbare Antworten (neu im Sinne von = der Autor hätte das auf Basis seiner Erfahrung nicht ohne Weiteres selbst konzipiert). „Schwäche“ bedeutet: Qualitätsprobleme, keine Zeitersparnis oder menschliche Effekte wie Cognitive Offloading – also das Risiko, Denken auszulagern und dadurch im entscheidenden Moment schlechter zu steuern.

Themen rund um Datenschutz und Informationssicherheit bei KI-Anwendungen werden in diesem Artikel nicht separat thematisiert. Hierzu gibt es sehr gute Ausarbeitungen von den Landesbeauftragten für Datenschutz und den Industrie- und Handelskammern.

Die beschriebenen Beobachtungen stammen aus Projekterfahrungen des Autors und aus Rückmeldungen von Nachhaltigkeitsmanager:innen in gemeinsamen Vorhaben. Um auch den Blickwinkel der KI-Expert*innen von Softwareanbietern kennenzulernen, empfehlen wir ihnen unseren anderen Artikel.

Inhalt

1. Kurzvorstellung des Autors
2. KI-basierte Chatbots im ESG-Alltag beim Nachhaltigkeitsbericht
3. Stärken und Schwächen bei der Workshopkonzeption und -durchführung
4. Stärken und Schwächen bei der Nachhaltigkeitsrisikobewertung
5. Handlungsempfehlungen: Was hat geholfen, Schwächen zu begrenzen?
6. Fazit

1. Kurzvorstellung des Autors

Der Autor ist 40 Jahre alt, hat einen Master mit den Schwerpunkten Finanzwissenschaft und Verhaltensökonomie, ist zertifizierter Kreditanalytiker und hat interne Weiterbildungen im KI-Prompting absolviert. Der Autor hat in rund 100 Projekten Unternehmen zu Nachhaltigkeitsberichterstattung, Nachhaltigkeitsrisikobewertung und Strategieentwicklung begleitet – inklusive einer Vielzahl an Workshops.

Wichtig für die Einordnung: Die Schwelle für die Definition einer Stärke oder Schwäche hängt stets stark von der jeweiligen Vergleichsgröße ab. In diesem Artikel , welcher sich auf zeitliche Ressourcen, Ergebnisqualität und menschliche Bias konzentriert, ist die Beurteilung demnach wesentlich vom Wissensstand und zeitlichen Effizienz des Autors ohne Einsatz von KI abhängig. Um dies für alle Leser*innen besser einzuordnen, werden nachfolgend drei konkrete Anwendungssituationen dargestellt: Nachhaltigkeitsberichte, Workshops und Risikomanagement.

2. KI-basierte Chatbots im ESG-Alltag beim Nachhaltigkeitsbericht

Ausgangssituation: Erstellung von Nachhaltigkeitsberichten nach ESRS und VSME. ESRS sind die europäischen Berichtsstandards im CSRD-Umfeld; VSME ist der europäische, freiwillige Standard für nicht-CSRD-pflichtige Unternehmen.

Stärken: Textentwürfe, Varianten, Tonalität – in Minuten statt Tagen

These: KI liefert im Reporting den größten Hebel bei der Textproduktion.
Begründung: Wenige Stichpunkte reichen, und innerhalb von Sekunden entsteht ein gut lesbarer Entwurf. Feedbackschleifen sind im Reporting ohnehin Standard – der Review eines KI-Entwurfs ist deshalb kein „Zusatzaufwand“, sondern ein früherer Start in die Qualitätssicherung.
Beispiel: Aus „Klimareduktionsplan, THG-Neutralität 2040, Zielvereinbarung Top-Management“ wird ein strukturiertes Kapitel, das fachlich geprüft und konkretisiert werden kann.

Der Autor sieht einen klaren Qualitäts-Booster, wenn der Prompt nicht nur Inhalt liefert, sondern die Zielgruppe und den Nutzungszweck des Berichts detailliert beschreibt:

EcoVadis-Logik: Wenn der Bericht als Nachweisdokument dienen soll, funktionieren evidenzorientierte Texte (Prozess + Belege + Zuständigkeit + Review-Rhythmus) deutlich besser als „Corporate Storytelling“.
Banken-/ESG-Risikoprüfung: Wenn der Bericht als Input für kreditbezogene ESG-Prüfungen genutzt wird, sollten Texte risiko- und steuerungsorientiert sein (Kriterien, Kontrollen, Pläne, Zeithorizonte). Hier passt die Erwartungslogik aus den EBA-Guidelines sehr gut als „Tonalitätsfilter“.

Zusatznutzen, den der Autor regelmäßig im ESG-Reporting sieht:

Konsistenz-Checks: KI kann Widersprüche markieren (Zeithorizonte, Definitionen, Rollen), wenn „Fakten“ als Bullet-Liste mitgegeben werden.
Executive Summary: Die Verdichtung für Geschäftsführung/Board gelingt schnell, ohne dass das Team „den Bericht nochmal neu schreibt“. Wahlweise kann auch schnell eine kurze Summary-Präsentation aus den Berichtsinhalten generiert werden.

Schwächen: Regulatorik-Auslegung – plausibel, aber oft nicht belastbar

Die größte Schwäche in der Berichtserstellung entsteht bei regulatorischen Detailfragen. Sobald es um konkrete Auslegung einzelner Passagen geht – plus Querverweise zu anderen Vorgaben – liefern Chatbots häufig Antworten, die stichhaltig klingen, aber sich im Regelwerk nicht sauber belegen lassen (Halluzinationsrisiko).

Im ESG-Alltag zeigte sich dies besonders, wenn ESRS-/VSME-Fragen mit weiteren Regelwerken vermischt werden (z. B. SFDR oder Taxonomie-Kontexte). Beispielsweise hatten Antworten dazu, ob Datenpunkte in verschiedenen Regelwerken der selben oder unterschiedlichen Definitionen folgen, gehäuft Fehler oder waren unvollständig.

Der zeitliche Vorteil einer schnellen und oft auch logisch klingenden Antwort, stand dann schnell einem erhöhten Prüfaufwand gegenüber. Für Teams mit hoher Regelwerksroutine ist die Fehlererkennung schnell möglich, weshalb mit angemessener Review Netto ein Zeitgewinn bleibt. Für weniger erfahrene Teams erzeugt das einen deutlichen Mehraufwand, weil praktisch jede rechtliche Aussage gegengeprüft werden muss – und damit der Zeitvorteil nicht mehr gegeben ist.

Deep Research: weniger Fehler, mehr Aufwand

Deep-Research-Modi reduzieren Halluzinationen spürbar, weil Recherche, Quellenbewertung und Zitate stärker integriert sind – allerdings auf Kosten von Zeit und Ressourcen (= physischer Ressourcenverbrauch einer KI-Recherche). Gerade bei “harten” regulatorischen Fragestellung, lohnt sich der Blick in Regelwerke, da so oft auch spätere Änderungen oft leichter und schneller adaptiert werden können. Bestes Beispiel hierfür ist der Umgang mit den Änderungen der ESRS aus den Entwürfen im Jahr 2025.

Praxisregel des Autors fürs Reporting: KI darf strukturieren, formulieren und Varianten liefern. Bei Regulatorik gilt: Primärquelle schlägt KI.

3. Stärken und Schwächen bei der Workshopkonzeption und -durchführung

Ausgangssituation: Konzeption und Moderation von Workshops im Rahmen von Strategieentwicklungsprozessen – oft über Monate, teilweise über Jahre, mit wechselnden Stakeholdern, politischer Dynamik und Zielkonflikten.

Stärken: Konzeption neuer Workshops wird drastisch schneller

Der Autor sieht KI-Chatbots besonders stark, wenn ein Workshopformat neu ist oder schnell Varianten benötigt werden:

Agenda-Design (Minutenraster, Logik, Übergänge)
Methoden-Mix (kreativ vs. analytisch vs. hybrid)
Moderationsleitfäden (Einleitung, Leitfragen, Entscheidungslogik)
Arbeitsdokumente (Matrizen, Canvas, Bewertungsraster, Ergebnis-Templates)

Die Qualität der Methodenvorschläge ist nach Erfahrung des Autors oft erstaunlich stimmig – aber nur, wenn der Prompt die Realität abbildet: Teilnehmendenprofil (Funktionen, Wissensstand, Interessen), Zielbild (Output-Format, Entscheidung vs. Input) und gewünschte Charakteristik (tempo-, daten- oder konsensorientiert). Die Ergebnisqualität für KI-basierte Chatbots im ESG-Alltag steht und fällt mit einem durchdachten und umfänglichen Prompt.

Schwäche 1: Kontextlast frisst den Zeitgewinn

Workshops sind selten isoliert. Ein guter Workshop baut auf Erkenntnissen aus vorigen Schritten auf und zahlt auf nächste Schritte ein. Will der Autor diese gesamte Prozesslogik in einem KI-Prompt abbilden, wird der Prompt schnell zur Projektakte. Gerade in fortgeschrittenen Strategieprozessen ist die Zeitersparnis gegenüber einer erfahrenen menschlichen Konzeption dann häufig geringer als erwartet.

Konkretes Muster: Je mehr Vorarbeiten, Konfliktlinien, Kennzahlenstände, Stakeholder-Sensitivitäten und bereits getroffene Entscheidungen berücksichtigt werden sollen, desto mehr „Fütterung“ braucht der Chatbot – und desto kleiner wird der Netto-Vorteil.

Schwäche 2: Cognitive Offloading – das Risiko entsteht im Menschen

Die kritischste Schwäche entsteht laut Autor nicht zwingend aus schlechter KI-Qualität, sondern aus dem Zusammenspiel von KI-Output und Moderationskompetenz:

Je länger ein Workshop dauert, desto wahrscheinlicher wird die Notwendigkeit einer intuitiven Umkonzeption während der Durchführung (Widerstände durch Teilnehmende, Zeitplan geht nicht auf, Workshopziel ändert sich Just-in-Time, etc.).
Je stärker die Hauptkonzeption an ein KI-System ausgelagert ist und je weniger erfahren die Moderation, desto höher das Risiko, dass diese Umkonzeption ausbleibt oder zu schwach ausfällt.

Dieses Muster passt zu Cognitive Offloading: mentale Arbeit wird ausgelagert, kurzfristig fühlt sich das entlastend an, langfristig sinkt aber die Fähigkeit zur situativen Steuerung – besonders bei Unerfahrenheit.

Handlungsempfehlung des Autors: Je länger der Workshop, je sensibler das Thema und je weniger erfahren die Moderation, desto stärker muss die menschliche Vorbereitung dominieren. KI bleibt ein sehr gutes Sparring – aber nicht der Autopilot.

Mini-Template: Prompt, der bei mehreren Workshopkonzeptionen funktioniert

Der Autor nutzt für Workshopkonzeption häufig diesen Aufbau (kurz, aber wirksam):

 Zielgruppe: [Rollen, Seniorität, Vorwissen, Konfliktlinien] Ziel des Workshops: [konkreter Output, Entscheidung/Abstimmung/Ideen] Rahmen: [Dauer, Format, Anzahl, remote/onsite] Charakter: [datengetrieben/kreativ/konfliktsensibel/tempohoch] No-Gos: [z. B. keine Bloßstellung, keine Bewertung ohne Daten] Lieferung: Agenda, Methoden, Moderationsleitfaden, Arbeitsdokumente + Bitte 2 Alternativpfade für "Zeit fehlt" und "Konflikt eskaliert"

4. Stärken und Schwächen bei der Nachhaltigkeitsrisikobewertung

Ausgangssituation: Integration von Nachhaltigkeitsrisiken in ein bestehendes betriebliches Risikomanagementsystem bei KMU. Die Relevanz steigt, weil Erwartungen an die Integration von ESG-Risiken in Steuerung und Risikoorganisation weiter konkretisiert werden – unter anderem durch die EBA-Guidelines für Finanzinstitute, durch welche indirekt auch die Anforderungen an Unternehmen steigen.

Stärken: Gap-Analyse und strukturierte Risikolisten – schnell, klar, nachvollziehbar

Der Autor berichtet hier von sehr stabilen Produktivitätsgewinnen:

Gap-Analyse bestehender Risikolisten in Hinblick auf ESG-Risiken gelingt schnell, insbesondere wenn Kategorien getrennt betrachtet werden (z. B. Klimarisiken, Biodiversitätsrisiken, menschenrechtsbezogene Lieferkettenrisiken).
Bewertung nach Kriterien (bspw. hohes Schadenpotential ist anzunehmen bei Umsatzreduktion über 2,5% oder Materialkostensteigerung über 5%) liefert nachvollziehbare Vorschläge. Diese dienten in den Anwendungsfälle als Input für interne Expert:innen, nicht als finale Entscheidung über die Risikobewertung.

Die Qualität steigt sichtbar, wenn ein klarer Kontextaufbau (Geschäftsmodell, Finanzstruktur, etc.) vorgenommen wurde. Der zuletzt veröffentlichte Geschäftsbericht, ergänzt um Informationen zu Lieferketten und Strategie, kann als hervorragende Basis verwendet werden, um KI-basierten Chatbots im ESG-Alltag ein umfangreiches Bild über das für die Risikobewertung relevante Unternehmen zu liefern.

Schwäche 1: Maßnahmen zur Risikosteuerung bleiben oft zu oberflächlich

Der Autor sieht eine wiederkehrende Schwäche bei der Entwicklung von Maßnahmen: Die Chatbots liefern häufig richtige, aber generische Vorschläge („Policy“, „Training“, „Monitoring“, „Lieferantenkodex“). Selbst nach einer Vielzahl von Iterationsrunden entsteht oft kein Maßnahmenportfolio, das neuartiger oder hochwertiger ist als das, was unternehmensinterne Fachleute im gleichen Zeitbudget entwickeln. Mit dem Unterschied, dass die von internen Expert*innen entwickelten Maßnahmen in der Regel deutlich mehr Akzeptanz im Unternehmen genießen.

Warum das plausibel ist: Gute Risikosteuerung ist hochkontextuell: Budget, Verantwortliche, Prozess- und Systemlandschaft, Vertragsmacht, CAPEX/OPEX-Logik, interne Kontrollen – all das steckt selten vollständig im Prompt. KI kann diese Lücke nicht „seriös“ schließen, ohne in Halluzinationen zu rutschen.

Schwäche 2: Kontext-Limitierung – „Vergessen“ in langen Risiko-Threads

Bei vertiefender Arbeit an Risiko-Clustern kommt es laut Autor spürbar vor, dass der Chatbot Informationen vom Anfang nicht mehr konsistent berücksichtigt. Das ist in der Praxis kein Drama, aber es erfordert ein Arbeitsmuster, das viele Teams erst lernen müssen:

Zwischenstände zusammenfassen (1 Seite „Projektgedächtnis“)
Neuen Chat starten (saubere Kontextbasis)
Versionieren wie ein Arbeitspapier (V1, V2, V3)

Es ist „genau wie beim menschlichen Sparring“ – nur dass der Chatbot nicht automatisch nachfragt, wenn Kontext kippt.

5. Handlungsempfehlungen: Was hat geholfen, Schwächen zu begrenzen?

Nachfolgende sind die einige einfache Handlungsempfehlungen aus den Vorkapiteln zusammengefasst.

5.1 Die 10 wirksamsten Guardrails (Kurzliste)

Zielgruppe und Zweck immer zuerst: EcoVadis, Bank, Audit, Vorstand – der Prompt startet mit „Wofür?“ und „Für wen?“.
Regulatorik nie ohne Primärquelle: KI darf strukturieren, aber Auslegung wird in ESRS/VSME/SFDR verifiziert.
Deep Research gezielt einsetzen: für komplexe Recherche mit Quellen, nicht für Standardtext.
Annahmen markieren lassen: Im Prompt „Wenn du nicht sicher bist, markiere Annahme/Unsicherheit statt zu raten.“ eingeben.
Red-Team-Frage verpflichtend: „Was wäre falsch, wenn das Gegenteil gilt?“ (30 Sekunden, großer Effekt).
Cognitive-Offloading-Selbstschutz: Je weniger Erfahrung mit einem Thema oder einer Situation besteht, je intensiver Zeit in eigenen Denkprozesse investieren und nicht zu sehr auf die “süße Frucht” der schnellen KI-Lösung setzen.
Kontext managen: zusammenfassen, neu starten, versionieren – statt Endlos-Chat.
Risiko-Maßnahmen immer „im Unternehmen erden“: Owner, Budget, Systeme, Meilensteine – ohne das bleibt es generisch.

5.2 Übersicht: Stärken, Schwächen, Gegenmaßnahmen (auf einen Blick)

Anwendungsfall	Stärken	Schwächen	Was begrenzt die Schwächen?
Nachhaltigkeitsbericht (ESRS/VSME)	Sehr schnelle Textentwürfe, Varianten, Executive Summary, bessere Lesbarkeit	Regulatorik-Auslegung fehleranfällig; Querverweise riskant	Zielgruppe präzise; Primärquellenpflicht; Deep Research nur bei Bedarf
Workshopkonzeption & -durchführung	Neuartige Abläufe schnell; Methodenmix; Leitfäden & Templates	Kontextlast frisst Zeit; Cognitive Offloading bei Unerfahrenheit	Kontext verdichten; menschliche Vorbereitung hochfahren
Nachhaltigkeitsrisikobewertung (KMU)	Gap-Analyse stark; modularer Risikoaufbau; Scoring als Input	Maßnahmen oft generisch; Kontext-Limitierung in langen Threads	Risikokategorien einzeln behandeln; Maßnahmen im Fachteam finalisieren; Zusammenfassen & Neustart

5.3 Drei schnelle Schritte, die der Autor ESG-Teams empfiehlt

Damit KI-basierte Chatbots im ESG-Alltag zuverlässig nutzenstiftend werden, empfiehlt der Autor drei Schritte, die in einer Woche realistisch umsetzbar sind:

Weiterbildungsformate etablieren: Formate mit bereits erfahrenden internen Nutzer*innen schaffen und einfach externe Angebote allen Nutzer*innen zur Verfügung stellen (bspw. AINAUTEN)
Prompt-Templates standardisieren: Zielgruppe + Zweck + Outputformat + Qualitätsregeln (Annahmen markieren, Quellen nennen).
Review-Workflow definieren: Wer prüft Fakten? Wer prüft Regulatorik? Wer verantwortet final?

6. Fazit

KI-basierte Chatbots im ESG-Alltag liefern nach Erfahrung des Autors den größten Nutzen, wenn sie als Turbo für Vorarbeit und Sparringspartner genutzt werden: Texte schneller starten, Workshopdesign schneller variieren, Risikolisten schneller strukturieren. Der entscheidende Punkt ist nicht „KI oder nicht“, sondern: wo KI eingesetzt wird und welche Guardrails/Leitplanken parallel laufen.

Die größten Risiken entstehen dort, wo Outputs „seriös“ klingen, aber nicht belastbar sind (Regulatorik), oder dort, wo menschliche Kompetenz zu stark ausgelagert wird (Cognitive Offloading). Mit klarer Zielgruppenlogik, Primärquellenpflicht, modularer Arbeitsweise und sauberem Kontextmanagement bleibt KI ein Produktivitätshebel – ohne Qualitätsverlust.

Sie möchten Ihr Unternehmen strategisch nachhaltig aufstellen?

Sprechen Sie uns an – wir begleiten Sie mit fundierter Erfahrung und konkreten Lösungen.

Michael Jenkner
Sparringspartner für Nachhaltigkeitstransformation und Resilienz

E-Mail schreiben