KI-Umfragefragen für Performance Reviews: Vorlage 2026 für Mitarbeitende & Führungskräfte

By Jürgen Ulbrich

Diese Vorlage mit KI-Umfragefragen für Performance Reviews misst systematisch, wie Mitarbeitende und Führungskräfte den KI-Einsatz in Leistungsbeurteilungen erleben — von Vertrauen und Fairness bis zu Datenschutz und Governance. Sie erkennen früh, ob Transparenz, Qualität oder DSGVO-Konformität kippen, und erhalten klare Schwellenwerte, ab wann Ihr Team pausieren, nachschulen oder Guardrails nachschärfen sollte. Die Vorlage deckt 84 Aussagen (5-Punkt-Likert), 6 Gesamtbewertungen (0–10) und 12 offene Fragen für Mitarbeitende, Führungskräfte und beide Gruppen gemeinsam ab.

Warum diese Umfrage 2026 wichtig ist

KI-gestützte Performance-Reviews verbreiten sich schnell — mit erheblichen rechtlichen und kulturellen Konsequenzen. 58 Prozent der Führungskräfte betrachten KI-Nutzung inzwischen als unausgesprochene Leistungserwartung, aber nur 29 Prozent der Mitarbeitenden teilen diese Einschätzung. Diese Wahrnehmungslücke ist gefährlich: Wer Mitarbeitende anhand von Maßstäben bewertet, die sie nicht kennen, riskiert Vertrauensverlust, rechtliche Risiken und Fluktuation.

In DACH kommen drei Rechtsrahmen hinzu, die spezifische Pflichten schaffen:

  • DSGVO Art. 22 — verbietet Entscheidungen, die ausschließlich auf automatisierter Verarbeitung basieren und erhebliche Auswirkungen haben. Das umfasst KI-generierte Rating-Vorschläge, die ohne echte menschliche Prüfung übernommen werden. Betroffene haben das Recht auf menschliche Überprüfung, Darstellung ihres Standpunkts und Anfechtung. Wichtig: Ein Mensch, der KI-Ergebnisse nur formal „absegnet", ohne sie inhaltlich zu prüfen, erfüllt die Anforderung laut EDPB-Guidance nicht.
  • EU-KI-Verordnung (AI Act) — klassifiziert KI-Systeme zur Leistungsbeurteilung als Hochrisiko-KI (Anhang III). Für Deployer (also den Arbeitgeber, nicht den Softwareanbieter) gelten ab August 2026 Pflichten zu Risikomanagement, technischer Dokumentation, automatisiertem Logging, menschlicher Aufsicht und Grundrechte-Folgenabschätzung. Hinweis: Ein provisorisches Politikpaket sieht eine mögliche Verschiebung der Hochrisiko-Frist auf Dezember 2027 vor — bis zur formellen Verabschiedung gilt jedoch die ursprüngliche August-2026-Frist.
  • Betriebsrat (BetrVG) — § 87 Abs. 1 Nr. 6 BetrVG begründet ein Mitbestimmungsrecht bei technischen Einrichtungen, die geeignet sind, das Verhalten oder die Leistung der Arbeitnehmer zu überwachen. KI-gestützte Review-Systeme fallen regelmäßig darunter. § 95 Abs. 2a BetrVG konkretisiert die Mitbestimmung bei KI-gestützten Personalentscheidungen. Laut Art. 26 (7) des AI Acts sind Arbeitgeber zudem verpflichtet, Arbeitnehmervertreter vor dem Einsatz zu konsultieren.

Diese Umfrage hilft Ihnen, den Einführungsstatus in all diesen Dimensionen messbar zu machen — und bietet eine dokumentierbare Grundlage für den Betriebsrat und den Datenschutzbeauftragten.

So nutzen Sie diese Vorlage

Nutzen Sie für die Aussagen eine 5-Punkt-Likert-Skala (1 = Stimme gar nicht zu, 5 = Stimme voll zu). Die Nummerierung dient Analyse und Follow-up: E = Mitarbeitende, M = Führungskräfte, S = gemeinsam.

Wählen Sie eines der vier Blueprints weiter unten und laden Sie nur die jeweils passenden Items. Für den Einstieg reichen 18–22 Fragen; ein Deep-Dive sollte in ≤8 Minuten beendbar sein.

Umfragefragen: Mitarbeitende

Mitarbeitende (E1–E6) — Awareness & Transparenz

  • (E1) Ich verstehe, wann KI in meinem Performance-Review-Prozess eingesetzt wird.
  • (E2) Ich weiß, welche Teile meines Reviews KI-generierten Text enthalten können (Entwürfe, Zusammenfassungen, Formulierungsvorschläge).
  • (E3) Mir wurde erklärt, was die KI in Performance Reviews kann — und was nicht.
  • (E4) Ich weiß, wer für den finalen Review-Inhalt verantwortlich ist (nicht die KI).
  • (E5) Ich wurde informiert, falls KI Ratings, Calibration-Inputs oder Performance-Labels beeinflusst hat.
  • (E6) Das Unternehmen hat den Grund für den KI-Einsatz in Reviews verständlich erklärt.

Mitarbeitende (E7–E12) — Qualität & Nutzen

  • (E7) Das KI-unterstützte Feedback in meinem Review war spezifisch für meine tatsächliche Arbeit.
  • (E8) Das Feedback enthielt konkrete Beispiele oder Belege — nicht nur allgemeine Floskeln.
  • (E9) Das Feedback passte zu dem, was ich während des Zyklus in 1:1s gehört habe.
  • (E10) Das Feedback trennte Fakten, Interpretationen und Erwartungen klar voneinander.
  • (E11) Das Feedback hat mir geholfen, Prioritäten für die nächsten 3–6 Monate zu verstehen.
  • (E12) Der Ton des Feedbacks war respektvoll und professionell.

Mitarbeitende (E13–E18) — Fairness & Bias-Wahrnehmung

  • (E13) KI-unterstütztes Feedback hat das Review für mich fairer gemacht als rein manuelles Feedback.
  • (E14) Ich sorge mich, dass die KI Bias verstärken kann (z. B. Proximity Bias, Similarity Bias, Stereotype).
  • (E15) Das KI-unterstützte Feedback spiegelte meine Beiträge korrekt wider — nicht nur „sichtbare" Arbeit.
  • (E16) Ich hatte das Gefühl, dass derselbe Performance-Standard auf mich angewendet wurde wie auf vergleichbare Peers.
  • (E17) Ich sorge mich, dass KI Kontext falsch interpretiert (z. B. Elternzeit, Teilzeit, Projektwechsel).
  • (E18) Die Review-Sprache hat „codierte" oder mehrdeutige Begriffe vermieden (z. B. „nicht durchsetzungsfähig genug").

Mitarbeitende (E19–E24) — Psychologische Sicherheit & Vertrauen

  • (E19) Ich konnte problemlos nachfragen, ob KI in meinem Review verwendet wurde.
  • (E20) Ich konnte KI-beeinflusste Formulierungen im Mitarbeitergespräch gut hinterfragen.
  • (E21) Meine Führungskraft war offen dafür, Fehler im Review-Inhalt zu korrigieren.
  • (E22) Ich vertraue darauf, dass KI-Nutzung meine Chance, als Person gehört zu werden, nicht verringert hat.
  • (E23) Ich glaube, dass meine Führungskraft das finale Feedback geprüft und verantwortet hat — kein „Copy-Paste".
  • (E24) Ich weiß, wie ich Bedenken eskalieren kann, wenn KI-unterstütztes Feedback falsch oder unfair wirkt.

Mitarbeitende (E25–E30) — Datenschutz & Einwilligung

  • (E25) Ich verstehe, welche Datenquellen im Review-Prozess potenziell als KI-Input genutzt werden.
  • (E26) Ich verstehe, ob Chat-Eingaben, Notizen oder 360°-Kommentare als KI-Input verwendet werden können.
  • (E27) Ich vertraue darauf, dass sensible personenbezogene Daten nicht in KI-Prompts für Reviews eingegeben werden.
  • (E28) Ich verstehe auf hoher Ebene, wo Daten verarbeitet und gespeichert werden (z. B. EU/EWR).
  • (E29) Ich glaube, dass KI-Nutzung in Reviews DSGVO-Prinzipien folgt (Datenminimierung, Zweckbindung).
  • (E30) Ich kenne die Aufbewahrungsdauer für KI-bezogene Review-Artefakte (Entwürfe, Logs, Zusammenfassungen).

Mitarbeitende (E31–E36) — Gesamtwirkung & Präferenz

  • (E31) KI-unterstützte Reviews haben die Erwartungsklarheit für mich verbessert.
  • (E32) KI-unterstütztes Feedback hat Reviews im Unternehmen konsistenter gemacht.
  • (E33) KI-unterstütztes Feedback hat das Review für mich weniger persönlich wirken lassen.
  • (E34) Ich würde bevorzugen, dass KI nur zum Formulieren genutzt wird — nicht für Rating-Vorschläge.
  • (E35) Ich würde bevorzugen, dass KI nur mit klaren menschlichen Review-Checkpoints eingesetzt wird.
  • (E36) Insgesamt hat KI-Nutzung mein Review-Erlebnis in diesem Zyklus verbessert.

Umfragefragen: Führungskräfte

Führungskräfte (M1–M6) — Onboarding & Training

  • (M1) Ich habe Training dazu erhalten, wo KI in Reviews genutzt werden darf — und wo nicht.
  • (M2) Das Training hat abgedeckt, wie ich KI-Outputs mit Belegen prüfe (Projekte, Ergebnisse, Verhaltensbeobachtungen).
  • (M3) Das Training hat DSGVO-sicheres Prompting abgedeckt — welche Daten nicht eingegeben werden dürfen.
  • (M4) Ich weiß, wie ich KI-Nutzung transparent gegenüber Mitarbeitenden erkläre.
  • (M5) Ich weiß, was ich tue, wenn Mitarbeitende KI-beeinflusste Formulierungen hinterfragen.
  • (M6) Ich fühle mich vorbereitet, KI zu nutzen, ohne psychologische Sicherheit im Team zu schwächen.

Führungskräfte (M7–M12) — Workflow & Zeiteffekt

  • (M7) KI hat die Zeit reduziert, die ich für die Review-Vorbereitung benötige.
  • (M8) KI hat mir geholfen, Feedback schneller zu strukturieren (Stärken, Lücken, nächste Schritte).
  • (M9) KI hat meine Fähigkeit verbessert, 360°-Feedback zusammenzufassen, ohne wichtige Punkte zu verlieren.
  • (M10) KI hat meinen Admin-Aufwand erhöht, weil ich mehr prüfen und umschreiben musste.
  • (M11) KI hat mir geholfen, Feedback über mehrere Direct Reports hinweg konsistent zu halten.
  • (M12) KI-Unterstützung hat die Qualität meiner Review-Gespräche verbessert.

Führungskräfte (M13–M18) — Qualität von Entwürfen & Zusammenfassungen

  • (M13) KI-generierte Entwürfe waren ausreichend korrekt, um als guter Startpunkt zu dienen.
  • (M14) Die Entwürfe enthielten messbare Ergebnisse oder beobachtbares Verhalten, wenn ich das gepromptet habe.
  • (M15) KI hat geholfen, vages Feedback zu vermeiden, indem sie nach Spezifika gefragt hat.
  • (M16) KI-Zusammenfassungen haben Kontext korrekt erfasst — Scope-Änderungen, Constraints, Abhängigkeiten.
  • (M17) KI-Outputs passten zu unserem internen Rubric- und Kompetenz-Wording.
  • (M18) KI-Outputs haben diskriminierende Sprache vermieden, ohne Performance-Themen zu „glätten".

Führungskräfte (M19–M24) — Urteilsvermögen, Oversight & Verantwortung

  • (M19) Ich bin sicher darin, KI-Vorschläge zu editieren oder abzulehnen.
  • (M20) Ich prüfe KI-Outputs konsequent gegen Belege, bevor ich sie mit Mitarbeitenden teile.
  • (M21) Ich kann die Logik meines finalen Feedbacks erklären, ohne auf die KI zu verweisen.
  • (M22) KI übersteuert nie mein Urteil zu Ratings oder Performance-Entscheidungen.
  • (M23) Ich verstehe das Risiko, mich bei sensiblen People-Entscheidungen zu stark auf KI zu verlassen.
  • (M24) Ich weiß, wie ich Entscheidungen audit-ready dokumentiere.

Führungskräfte (M25–M30) — Governance & Guardrails

  • (M25) Das Unternehmen hat klare Dos/Don'ts für KI in Performance Reviews.
  • (M26) Ich weiß, welche Daten niemals in Prompts verwendet werden dürfen — Gesundheit, Gewerkschaft, besonders geschützte Kategorien.
  • (M27) Ich weiß, ob eine Dienstvereinbarung oder Betriebsratsvereinbarung für diesen KI-Use-Case gilt.
  • (M28) Ich weiß, wen ich kontaktieren soll, wenn ein Tool-Output riskant oder falsch wirkt (HR/IT/Datenschutz).
  • (M29) Unser Prozess enthält klare menschliche Checkpoints, bevor etwas Mitarbeitende betrifft.
  • (M30) KI-Nutzung wird so geloggt, dass Transparenz und Accountability unterstützt werden.

Führungskräfte (M31–M36) — Fairness, Konsistenz & Calibration-Support

  • (M31) KI hat mir geholfen, unsere Performance-Standards konsistenter anzuwenden.
  • (M32) KI hat das Risiko von „Template-Feedback" erhöht, das Unterschiede zwischen Personen plattmacht.
  • (M33) KI hat es erleichtert, fehlende Belege vor Calibration-Diskussionen zu erkennen.
  • (M34) KI hat es erleichtert, typische Review-Biases zu vermeiden — Recency, Halo/Horn, Proximity.
  • (M35) Ich sorge mich, dass KI neuen Bias über Trainingsdaten oder Formulierungsmuster einbringen könnte.
  • (M36) KI hat die Qualität der Inputs verbessert, die ich in Calibration-Sessions einbringe.

Führungskräfte (M37–M42) — Gesamtvertrauen & Bereitschaft zur Weiterführung

  • (M37) Ich vertraue den Outputs des Tools, wenn ich sie sorgfältig menschlich prüfe.
  • (M38) Ich fühle mich wohl dabei, gegenüber Mitarbeitenden transparent über KI-Nutzung zu sein.
  • (M39) Ich würde KI im nächsten Zyklus wieder für Feedback-Entwürfe nutzen.
  • (M40) Ich würde KI im nächsten Zyklus wieder zum Zusammenfassen von 360°-Feedback nutzen.
  • (M41) Ich würde KI für Rating-Vorschläge vermeiden, solange Governance nicht besser ist.
  • (M42) Insgesamt hat KI meine Review-Arbeit in diesem Zyklus effektiver gemacht.

Umfragefragen: Gemeinsam (Mitarbeitende + Führungskräfte)

  • (S1) KI-Nutzung in Reviews wird teamübergreifend klar und konsistent kommuniziert.
  • (S2) Betroffene Personen können Feedback zur KI-Nutzung geben — ohne negative Konsequenzen zu befürchten.
  • (S3) Der Prozess macht es einfach, Fehler in KI-unterstütztem Review-Content zu korrigieren.
  • (S4) KI-Nutzung in Reviews passt zu unserem Review-Rubric und unseren Erwartungen.
  • (S5) KI verbessert die Qualität der Review-Gespräche — nicht nur den Papierkram.
  • (S6) Ich vertraue den Guardrails unserer Organisation für KI in Performance Reviews.

Gesamtbewertungen (0–10) und offene Fragen

Gesamtbewertungen (0–10)

  • (Mitarbeitende) Wie stark vertrauen Sie KI-unterstütztem Feedback in Performance Reviews? (0–10)
  • (Mitarbeitende) Wie stark hat KI die Feedback-Qualität verbessert, die Sie in diesem Zyklus erhalten haben? (0–10)
  • (Mitarbeitende) Wie wahrscheinlich würden Sie KI-unterstütztes Feedback in Performance Reviews Kolleginnen und Kollegen empfehlen? (0–10)
  • (Führungskräfte) Wie sicher sind Sie, KI in Reviews zu nutzen, ohne Fairness zu schädigen? (0–10)
  • (Führungskräfte) Wie stark hat KI Ihre Vorbereitungseffizienz in diesem Zyklus verbessert? (0–10)
  • (Führungskräfte) Wie wahrscheinlich würden Sie den aktuellen KI-Review-Workflow einer anderen Führungskraft empfehlen? (0–10)

Offene Fragen (12 insgesamt)

  • (Mitarbeitende) Wo war KI-unterstütztes Feedback für Sie am genauesten und hilfreichsten?
  • (Mitarbeitende) Wo wirkte KI-unterstütztes Feedback generisch, falsch oder aus dem Kontext?
  • (Mitarbeitende) Welchen Satz oder Abschnitt würden Sie umschreiben, damit er Ihre Arbeit besser abbildet?
  • (Mitarbeitende) Was würde Ihnen mehr Sicherheit geben, KI-beeinflusste Formulierungen im Mitarbeitergespräch zu hinterfragen?
  • (Mitarbeitende) Was ist Ihre größte Sorge zu Datennutzung oder Datenschutz bei KI-unterstützten Reviews?
  • (Führungskräfte) In welchem Teil des Review-Workflows hat Ihnen KI am meisten Zeit gespart?
  • (Führungskräfte) Wo hat KI zusätzliche Arbeit erzeugt — Umschreiben, Verifikation, Abstimmungsschleifen?
  • (Führungskräfte) Welche Guardrail würde Ihr größtes KI-Risiko in Reviews am besten verhindern?
  • (Führungskräfte) Welches Trainingsthema würde Ihre KI-Nutzung für Performance-Feedback am stärksten verbessern?
  • (Gemeinsam) Was sollten wir mit KI in Reviews ab dem nächsten Zyklus nicht mehr tun?
  • (Gemeinsam) Was sollten wir beibehalten, weil es klar funktioniert?
  • (Gemeinsam) Wenn Sie 1 Regel zu KI in Reviews ändern könnten: welche wäre das?

Survey-Blueprints: Welche Fragen wann einsetzen

Wählen Sie einen Blueprint pro Zyklus. Einfacher Ablauf: Blueprint auswählen → Items laden → Anonymitätsschwelle mit Betriebsrat abstimmen → 3–10 Tage nach Reviews versenden → Ergebnisse und Maßnahmen innerhalb von 21 Tagen veröffentlichen. Wenn Sie bereits eine klassische Post-Cycle-Umfrage nutzen, gleichen Sie die Formulierungen mit Ihren bestehenden Performance-Review-Umfragefragen ab — so bleiben Trends vergleichbar, auch wenn KI den Workflow verändert. Für die technische Toolauswahl bietet unser Guide zur Enterprise-Performance-Management-Software einen guten Einstieg.

BlueprintZielgruppeWannItemsFragenmixEntscheidungsoutput
A) Mitarbeitende Post-Cycle (Pilot)Mitarbeitende in KI-gestützten Reviews3–10 Tage nach Reviews18–22E1–E6, E7–E12, E13–E18, E19–E24, E25–E30 + 2 Ratings + 3 offeneKI beibehalten/anpassen; Transparenz-, Safety- und Privacy-Gaps schließen
B) Führungskräfte Post-Cycle (Pilot)Führungskräfte mit KI-Tools3–10 Tage nach Calibration18–22M1–M6, M7–M12, M13–M18, M19–M24, M25–M30 + 2 Ratings + 3 offeneTrainingsplan; Governance-Updates; Workflow-Anpassungen
C) Kombinierter Pulse (Pilot)Mitarbeitende + FührungskräfteMid-Pilot oder nach erstem Zyklus12–15S1–S6 + E7/E13/E20/E29 + M19/M25 + 2 Ratings + 2 offeneFrühwarnsystem: Stop/Continue vor Skalierung
D) Follow-up Trend SurveyGleiche Populationen wie A/B6–12 Monate später12–18Kernitems: E1/E7/E13/E20/E29/E36, M1/M7/M19/M25/M31/M42, S6 + RatingsTrust-/Fairness-Trend, Adoptions-Readiness für Rollout

Scoring & Schwellenwerte

Nutzen Sie für Aussagen die 5-Punkt-Skala und für Gesamtbewertungen 0–10. Koppeln Sie Entscheidungen an Schwellenwerte, damit Ihr Team nicht auf Einzelanekdoten überreagiert. Wenn Sie Review-Formulare aktualisieren, stimmen Sie Sprache und Rubrics mit Ihren internen Performance-Review-Templates ab — so sehen Führungskräfte in Formular und Umfrage dieselben Anker.

Drei Bänder: Niedrig (Ø <3,0) — vor Skalierung fixen. Mittel (3,0–3,9) — im nächsten Zyklus verbessern. Hoch (≥4,0) — standardisieren. Für 0–10 Ratings gilt: <6/10 ist im Pilot ein Stop-and-fix-Signal.

MetrikBerechnungSchwellenwertEntscheidungsregel
DimensionsdurchschnittMittelwert je Block (z. B. E13–E18)Ø <3,0Expansion pausieren; Root Cause vor nächstem Zyklus beheben
Zustimmungsrate% Auswahl 4–5<60 %Gezielter Verbesserungsplan mit Owner + Frist
Disagree-Konzentration% Auswahl 1–2≥20 %Fokusgruppen; Kommunikation und Führungsverhalten prüfen
Group GapDifferenz zwischen Gruppen (z. B. remote vs. office)≥0,4 PunkteBias-Check + Prozess-Audit; Eskalation an HR-Leitung

Vier-Schritt-Routine für die Auswertung: (1) Ø pro Dimension berechnen, (2) Streuung und Disagree-Quote prüfen, (3) Gruppen vergleichen, (4) auf Maßnahmen aus der Entscheidungstabelle mappen.

  • HR berechnet Dimension-Scores (E, M, S) und markiert rote Schwellen — innerhalb von 7 Tagen.
  • People Analytics prüft Group Gaps und Ausreißer — innerhalb von 10 Tagen.
  • Führung einigt sich auf maximal 3 Prioritäten — innerhalb von 14 Tagen.
  • HR veröffentlicht eine kurze Notiz „Was ändert sich nächster Zyklus?" — innerhalb von 21 Tagen.

Aktionsplan: Was tun, wenn Scores niedrig sind?

KI in Reviews scheitert meist nicht am Tool, sondern daran, dass niemand die unordentlichen Teile verantwortet: Korrekturen, Eskalationen, Governance. Legen Sie Routing-Regeln vorab fest. Als Default für Piloten: ≤24 h bei schweren Datenschutzbedenken, ≤7 Tage zur Rückmeldung bei niedrigen Trust-Scores, ≤21 Tage bis zur Veröffentlichung von Maßnahmen. Stimmen Sie Calibration-Follow-ups mit Ihrem internen Talent-Calibration-Leitfaden ab.

SignalSchwellenwertEmpfohlene AktionOwnerFrist
Niedrige TransparenzE1–E6 Ø <3,2 oder ≥20 % „nicht zustimmen"1-seitigen KI-in-Reviews-Erklärtext + Führungskräfte-Talking-Points; „KI genutzt: ja/nein"-Label ins FormularHR + Komm.14 Tage
Niedrige Feedback-QualitätE7–E12 Ø <3,010 anonymisierte „schlecht vs. gut"-Beispiele sammeln; Prompts verfeinern; 2 Evidenz-Bullets pro Abschnitt verpflichtendHR + Pilot-FKs21 Tage
Fairness/Bias-SorgenE13–E18 Ø <3,0 oder Group Gap ≥0,4Bias-Review von KI-Outputs; Rubric-Anker schärfen; Calibration-RefreshPeople Analytics + HR30 Tage
Niedrige psych. SicherheitE19–E24 Ø <3,2Korrekturrecht definieren; Eskalationsweg; „challenge-safe" Gesprächsleitfäden schulenHRBP + FKs14 Tage
Datenschutz-BedenkenE25–E30 Ø <3,5 oder 1 schwerer KommentarDSGVO-Regeln re-briefen; „Do-not-enter"-Promptliste aktualisieren; Retention klären; Alignment mit DSB und BetriebsratDSB + IT + HR7 Tage
Training unzureichendM1–M6 Ø <3,0Pflichttraining 90 Min. + Checkliste; Freischaltung für nächsten Zyklus erst nach NachweisL&D + HR30 Tage
Schwache FK-OversightM19–M24 Ø <3,2Human-Sign-off-Schritt; Evidenzpflicht; Peer-Review 10 % der KI-ReviewsHR + BereichsleitungenNächster Zyklus
Niedrige 0–10 RatingsØ <6/10 oder Trend −≥1,045-Min.-Fokusgruppen getrennt nach Gruppe; 3 konkrete Änderungen veröffentlichenHR14 Tage

Fairness- & Bias-Checks

Fairness ist kein einzelner Durchschnittswert. Schlüsseln Sie Ergebnisse nach relevanten Gruppen auf und vergleichen Sie sowohl Wahrnehmung als auch Prozesssignale. KI-Systeme, die auf historischen Review-Daten trainiert wurden, können bestehende Ungleichheiten reproduzieren — auch wenn das Tool vermeintlich neutral erscheint. Praktische Red Flags: Group Gap ≥0,4, oder ≥15 pp Unterschied in Zustimmungsraten, oder wiederholte Nennungen in offenen Texten wie „generisch", „copy-paste", „unfair", „Datenschutz". Stimmen Sie Sprach-Checks mit Ihrer internen Bias-Checkliste ab.

MusterTypische InterpretationNächster SchrittOwner
Remote: niedrigere E1–E6Transparenzlücken in verteilter KommunikationRemote-first Briefing; Disclosure im Review-Tool-UI ergänzenHR + FKs
Junior: höhere E14/E17Mehr Unsicherheit und höhere Machtdistanz„So können Sie challengen"-Schritte; sicherer EskalationspfadHRBP
Ein Bereich: niedrigere E16 + M31Inkonsistente Standards und Calibration DriftRubric-Anker refreshen; gezielter Calibration-WorkshopBereichsleitung + HR
Hohe E33 + niedrige E12Feedback wirkt unpersönlich oder schlecht editiertEditier-Minimum; Copy-Paste untersagen; personalisierte Beispiele verpflichtendFKs

Praxisbeispiele

Szenario 1: Mitarbeitende misstrauen KI, weil Disclosure unklar ist

Sie sehen E1–E6 Ø 2,8 und Kommentare wie „Ich habe KI-Formulierungen erst nach dem Gespräch bemerkt." HR ergänzt Disclosure am Point of Use: Im Review-Formular steht „KI-unterstützter Entwurf genutzt: ja/nein" plus eine kurze Erklärung. Führungskräfte erhalten ein 60-Sekunden-Skript fürs Mitarbeitergespräch. Nach 60 Tagen führen Sie Blueprint C erneut durch, um zu prüfen, ob das Vertrauen steigt.

Szenario 2: Führungskräfte sparen Zeit, aber Mitarbeitende empfinden Feedback als generisch

M7 und M8 sind hoch (≥4,0), aber E7–E12 sind niedrig (Ø <3,0) und E33 steigt. Entscheidung: KI bleibt fürs Strukturieren, aber Evidenz wird Pflicht. Jeder Abschnitt muss 2 Proof Points enthalten — Projekt, Metrik, beobachtbares Verhalten. HR teilt „gut vs. schlecht"-Beispiele, aktualisiert Prompts und spot-checkt im nächsten Zyklus 10 % der Reviews auf Spezifität, bevor sie an Mitarbeitende gehen.

Szenario 3: Fairness-Sorgen clustern in einer Gruppe

E16 ist insgesamt stabil, aber ein Standort hat eine Lücke von 0,5 Punkten und höhere E14-Werte. HR und lokaler Betriebsrat klären gemeinsam: Wurden andere Prompts, Rubrics oder Datenquellen genutzt? Danach folgen Calibration-Refresh, Rubric-Anker schärfen, Führungskräfte zu Bias-Mustern re-briefen. Im Follow-up (Blueprint D) prüfen Sie, ob die Lücke kleiner wird.

Implementierung & DACH-Besonderheiten

Starten Sie klein, skalieren Sie dann. In DACH sollten Sie den Betriebsrat früh einbinden — sobald KI Performance-Prozesse, Monitoring-Fragen oder Entscheidungshilfen berührt, greifen die Mitbestimmungsrechte nach § 87 BetrVG. Trennen Sie die Umfrage klar von individuellen Outcomes: Antworten dürfen nicht genutzt werden, um Ratings oder Gehalt anzupassen — sonst sinken Vertrauen und Teilnahme. Rollout-Rhythmus: Pilot (6–10 Wochen)erster Review-ZyklusSurvey + Fixes (≤30 Tage)SkalierungTrend-Check nach 6–12 Monaten. Kombinieren Sie das mit rollenbasiertem Training, damit alle dieselben Guardrails und Editier-Standards kennen. Unser Guide zu den besten Talent-Management-Software-Lösungen für DACH zeigt, worauf Sie bei der Tool-Auswahl achten sollten — inklusive Betriebsrats- und DSGVO-Checkliste.

  • Pilot in 1 Funktion mit 20–50 Teilnehmenden starten; erlaubte KI-Nutzungen definieren — HR + IT, innerhalb von 14 Tagen.
  • Datenminimierung, Retention und Zugriffsrechte abstimmen; in Klartext dokumentieren — DSB + HR, innerhalb von 30 Tagen.
  • Führungskräfte auf Verifikation und „challenge-safe" Gespräche trainieren — L&D, vor Zyklusstart.
  • Blueprint A und B nach dem Zyklus durchführen; Maßnahmen innerhalb von 21 Tagen veröffentlichen — HR Lead.
  • Fragenkatalog jährlich oder nach größeren Tool-Änderungen aktualisieren — HR + Betriebsrat, 1× pro Jahr.
KPIZielwertWarum wichtigOwner
Teilnahmequote≥70 % post-cycleNiedrige Quoten sind oft Trust- oder Survey-Fatigue-SignaleHR Ops
Time-to-action≤21 TageSchnelligkeit baut Glaubwürdigkeit; langsame Reaktion senkt EhrlichkeitHR Lead
Trainingsabschluss (Führungskräfte)≥90 %Reduziert riskante Prompts und Übernahme ungeprüfter EntwürfeL&D
Fairness-Group-Gaps<0,4 PunkteFrüher Indikator für Bias-Muster oder inkonsistente StandardsPeople Analytics
Maßnahmen-Completion-Rate≥80 %Verhindert „Survey-Theater" und zeigt Follow-throughHRBP + Führung

Wenn Sie ein breiteres Enablement-Setup brauchen, verknüpfen Sie diese Umfrage mit Ihrer KI-Governance und Skills-Arbeit. Strukturiertes Skill-Tracking — etwa mit einer Skill-Matrix — hilft Ihnen, „Tool-Probleme" von „Skill-Gaps" zu trennen und schneller gezielte Fixes zu planen.

FAQ

Wie oft sollten wir diese KI-Umfrage für Performance Reviews durchführen?

Im Pilot lohnt sich die Umfrage nach jedem KI-gestützten Review-Zyklus — idealerweise für die ersten 2 Zyklen. Danach reicht häufig 1× pro Jahr ein Deep-Dive plus ein kurzer Pulse nach größeren Feature-Änderungen. Halten Sie 6–8 Kernitems stabil (Vertrauen, Fairness, Sicherheit, Datenschutz), damit Sie Trends sauber vergleichen können.

Was tun, wenn Scores sehr niedrig sind (Ø <3,0) oder Kommentare sehr hart ausfallen?

Starten Sie mit Klarheit und Containment, nicht mit Rechtfertigung. Bestätigen Sie innerhalb von ≤7 Tagen, dass Sie die Ergebnisse gesehen haben, und erklären Sie kurz, wie Sie vorgehen. Nutzen Sie Fokusgruppen, um Root Causes zu finden — Disclosure, generische Sprache, Privacy-Angst oder Führungsverhalten. Entscheiden Sie sich dann für maximal 3 Fixes mit Owner und Frist. Bei schweren Datenschutzsignalen: sofort an Datenschutzbeauftragte und IT routen, Reaktion ≤24 h.

Wie verhindern wir, dass die Umfrage wie Monitoring oder Performance-Kontrolle wirkt — besonders in DACH?

Seien Sie explizit in Zweck und Trennung: Survey-Antworten dürfen keine individuellen Ratings, Pay oder Outcomes beeinflussen. Berichten Sie nur aggregiert und setzen Sie Anonymitätsschwellen (z. B. keine Auswertung für Gruppen <5–7). Binden Sie den Betriebsrat früh ein und dokumentieren Sie Guardrails in Klartext — Datenquellen, Retention, Zugriff. Als Orientierung empfehlen sich die EDPB-Leitlinien zu automatisierten Entscheidungen.

Was müssen wir zu DSGVO Art. 22 und dem EU AI Act beachten?

DSGVO Art. 22 verbietet Entscheidungen mit erheblichen Auswirkungen, die ausschließlich auf automatisierter Verarbeitung basieren. KI-Empfehlungen zu Ratings oder Beförderungen fallen potenziell darunter, wenn keine echte menschliche Prüfung stattfindet — ein formales „Absegnen" ohne inhaltliche Kontrolle genügt nach EDPB-Guidance nicht. Der EU AI Act klassifiziert Performance-Evaluation-Systeme als Hochrisiko-KI (Anhang III): Deployer brauchen Risikomanagement, technische Dokumentation, Logging und eine Grundrechte-Folgenabschätzung. Laut Art. 26 (7) des AI Acts müssen Sie Arbeitnehmervertreter vor dem Einsatz konsultieren — unabhängig davon, ob die August-2026-Frist verschoben wird.

Sollten wir Mitarbeitenden sagen, wann KI in ihrem Review verwendet wurde?

Ja — wenn Sie Vertrauen wollen. Intransparenz erhöht Fairness-Sorgen oft auch dann, wenn die Output-Qualität gut ist. Halten Sie es einfach: Wo wurde KI genutzt — Formulieren, Zusammenfassen, Calibration-Support? Welche Daten wurden (nicht) genutzt? Und: Die Führungskraft verantwortet den finalen Inhalt. Ergänzen Sie ein Korrekturrecht: Mitarbeitende dürfen Formulierungen challengen und Änderungen anfordern, ohne nachweisen zu müssen, dass KI falsch lag.

Wie halten wir den Fragenkatalog aktuell, wenn Tools und Policies sich ändern?

Planen Sie 1× pro Jahr einen Review mit HR, einigen Führungskräften, People Analytics und — falls relevant — dem Betriebsrat. Lassen Sie Kern-Trenditems unverändert (Vertrauen, Fairness, psychologische Sicherheit, Datenschutz) und rotieren Sie eine kleine Menge feature-spezifischer Items je nach Änderung. Pilotieren Sie neue Items zuerst in einem Team, bis die Formulierung eindeutig und entscheidungsrelevant ist.

Jürgen Ulbrich

CEO & Co-Founder of Sprad

Jürgen Ulbrich has more than a decade of experience in developing and leading high-performing teams and companies. As an expert in employee referral programs as well as feedback and performance processes, Jürgen has helped over 100 organizations optimize their talent acquisition and development strategies.

Free Templates &Downloads

Become part of the community in just 26 seconds and get free access to over 100 resources, templates, and guides.

Kostenlose Advanced 360-Grad-Feedback Excel-Vorlage | Ready-to-Use für skalierbare HR-Prozesse
Video
Performance Management
Kostenlose Advanced 360-Grad-Feedback Excel-Vorlage | Ready-to-Use für skalierbare HR-Prozesse

The People Powered HR Community is for HR professionals who put people at the center of their HR and recruiting work. Together, let’s turn our shared conviction into a movement that transforms the world of HR.