Ein gemeinsames Skill-Framework macht KI-gestützte Leistungsbeurteilungen vertrauenswürdiger: HR und Führungskräfte einigen sich darauf, was „gut“ konkret bedeutet, welche Nachweise zählen und wie Formulierungen sauber zu Ratings passen. Das reduziert Last-Minute-Improvisation, weil Erwartungen vor dem Mitarbeitergespräch explizit sind. Die folgenden Leitplanken und Vorlagen helfen, ai performance review phrases spezifisch, fair und nachvollziehbar zu formulieren.
| Kompetenzbereich | Starter (nutzt KI für Entwürfe) | Praktiker:in (belegt mit Nachweisen) | Fortgeschritten (kalibriert & reduziert Bias) | Owner (setzt Standards & Governance) |
|---|---|---|---|---|
| Evidenz & Nachweise | Gibt der KI einige Stichpunkte und korrigiert offensichtliche Fehler. | Speist Ziele, 1:1-Notizen, Projektkontext und Ergebnisse ein; entfernt Unprüfbares. | Nutzt konsistente „Evidence Packets“ je Mitarbeitende:n; identifiziert fehlende Daten vor dem Schreiben. | Definiert Mindest-Nachweise und Aufbewahrung; prüft Muster „dünner Evidenz“ zyklusübergreifend. |
| Rating-Abgleich | Trifft den Ton zum Rating, vermischt aber Verhalten und Ergebnis. | Mappt jede Aussage auf Rubrik & Zeitraum; vermeidet widersprüchliche Formulierungen. | Prüft Konsistenz über Peers/Rollen; eskaliert Grenzfälle in die Kalibrierung. | Pflegt Rubrik & Kalibrierregeln; überwacht Rating-Drift über Zyklen. |
| Spezifität & Klarheit | Nutzen von Templates mit Platzhaltern wie [Projekt] und [Messgröße]. | Ergänzt konkrete Beispiele, Umfang und Wirkung; streicht generisches Lob. | Balanciert Stärken und Entwicklung mit klaren Next Steps und messbaren Erwartungen. | Definiert Sprachstandards und „Banned Language“; trainiert Schreibqualität systematisch. |
| Bias & Fairness | Macht einen schnellen Ton-Check, um Härte zu vermeiden. | Prüft codierte Sprache und Doppelstandards; fordert Gegenbelege ein. | Nutzen strukturierter Vergleiche/Kalibrierung; achtet auf Recency- und Halo-Effekte. | Setzt Bias-Checks und Stichproben; prüft unerwünschte Muster nach Gruppen. |
| Prompting & Iteration | Verwendet einen Prompt und nimmt den ersten brauchbaren Entwurf. | Iteriert mit Constraints (Länge, Evidenz, Rubrik); lässt Annahmen offenlegen. | Nutzt Prompt-Playbooks je Kompetenz/Ratings; standardisiert Inputs teamübergreifend. | Pflegt interne Prompt-Bibliothek; versioniert Templates und bewertet Änderungen. |
| Gesprächsreife | Bereitet Kommentare vor, reagiert aber unsicher auf Nachfragen. | Verknüpft Feedback mit Zielen und Next Steps; erklärt Ratings ruhig und faktenbasiert. | Antizipiert Reaktionen, hält Beispiele parat und bleibt zukunftsorientiert. | Trainiert Gesprächsleitfäden/Eskalationspfade; verbessert Konsistenz der Gespräche. |
| Dokumentation & Governance | Speichert den Finaltext im HR-Tool. | Hinterlegt Evidenz-Referenzen und Daten; kennzeichnet KI-Unterstützung, falls intern gefordert. | Sichert auditfähige Begründungen; trennt Entwicklungsnotizen von formaler Bewertung. | Definiert zulässige KI-Nutzung, Datenregeln (DSGVO/Betriebsrat) und Review-Kontrollen. |
| Verantwortungsvolle KI-Nutzung | Nutzen von KI für Textglättung, ohne festen Prüfprozess. | Validiert Zahlen/Namen/Claims vor dem Teilen; nutzt nur freigegebene Tools/Umgebungen. | Dokumentiert Checks (Quellen, Review-Schritte) und macht Nutzung replizierbar. | Legt Guardrails, Trainings und Audit-Mechanismen fest; misst Fehler-/Risiko-Reduktion. |
Wichtigste Erkenntnisse
- Definiert pro Kompetenz und Level, welche Nachweise „gut“ belegen.
- Ersetzt vages Lob durch Beispiele, Zeitraum und Wirkung.
- Kalibriert Ratings über Evidenz-Pakete, nicht über Schreibstil.
- Nutzen Sie Vorlagen als Templates; füllen Sie Platzhalter mit realen Fakten.
- Prompts & Checklisten reduzieren Bias und „KI-Genericness“.
Definition des Frameworks
Dieses Skill-Framework beschreibt, wie HR und Führungskräfte KI nutzen, um Review-Kommentare zu entwerfen, ohne Fakten zu erfinden oder Glaubwürdigkeit zu verlieren. Es unterstützt Entscheidungen zu Karrierepfaden, Leistungsratings, Beförderungsreife und Entwicklungsplanung, indem es Reifegrade KI-gestützter Schreibarbeit, beobachtbare Verhaltensanker und Evidenzstandards für Reviews, Peer-Input und Kalibrierungen definiert.
Wo KI in Review-Kommentaren hilft – und wo sie schadet
KI spart Zeit, wenn Inputs bereits vorliegen: Ziele/OKRs, Ergebnisse, konkrete Beispiele und eine klare Rubrik. Vertrauen verliert man, wenn die KI „glatt, aber leer“ schreibt oder Lücken mit erfundenen Details füllt. Für Tempo ohne Risiko: Nutzen Sie KI als Editor und Strukturhilfe – nicht als Wahrheitsquelle.
Praktisch ist die Kombination aus Vorlagen und Struktur: Eine bestehende Phrasenbibliothek (siehe Performance-Review-Formulierungen) wird KI-tauglicher, wenn Templates kurz, spezifisch und evidenzfähig sind. Für formale Zyklen helfen strukturierte Formulare (siehe Performance-Review-Templates), damit Führungskräfte Inputs sammeln, bevor sie einen Assistenten prompten.
- Geben Sie der KI Fakten, nicht Urteile: „Was ist passiert, wann, mit welchem Effekt?“
- Blockieren Sie „Achievement-Invention“: verknüpfen Sie Claims mit OKRs, Tickets, Kundenfeedback, 1:1-Summaries.
- Standardisieren Sie Länge & Struktur: 2–3 Sätze je Kompetenz + 1 Next Step.
- Trennen Sie Entwicklungsfeedback von formaler Bewertung, falls Ihr Prozess das verlangt.
- Halten Sie Inputs konsistent, z. B. über ein Performance-Tool wie Sprad Growth oder einen internen Assistenten wie Atlas AI.
Phrase Bank: ai performance review phrases nach Domäne × Rating (200 Vorlagen)
Jede Formulierung ist eine Vorlage. Füllen Sie Platzhalter wie [Projekt], [Messgröße], [Zeitraum] und [Nachweis] mit realen Beispielen. In DACH-Kontexten wirken Superlative ohne Beleg schnell angreifbar; halten Sie die Sprache ruhig, dokumentationsfest und kalibrierbar.
1) Zusammenarbeit & Kommunikation
Nutzen Sie KI, um Struktur zu schärfen und Füllwörter zu entfernen – nicht, um die „Story“ zu erfinden. Geben Sie Meeting-Notizen, Abstimmungsbeispiele und konkrete Kollaborationsergebnisse mit.
- Inputs: 1:1-Notizen, Peer-Zitate, Meeting-Ergebnisse, Decision Logs.
- Vermeiden: „toller Kommunikator“ ohne Beispiele, Persönlichkeitslabels, Mind-Reading („dir ist es egal“).
- Prompt-Muster: „Schreibe 2 Sätze + 1 Next Step, belegt mit Beispielen.“
- DACH-Hinweis: Direktes Feedback ist okay – bleiben Sie sachlich, ohne Ironie.
Übertrifft Erwartungen
- Du hast [Stakeholder] früh in [Projekt] ausgerichtet, Rework verhindert und [Zeit/Kosten] gespart.
- Du hast vage Anforderungen in klare Entscheidungen übersetzt und diese in [Dokument/Link] bis [Datum] dokumentiert.
- Du hast Konflikte in [Meeting] souverän moderiert, den Ton neutral gehalten und Einigkeit zu [Next Step] erzielt.
- Du hast [Kolleg:in] proaktiv im Kommunikationsstil gecoacht und Übergaben in [Prozess] verbessert.
- Du hast deine Botschaften an [Zielgruppe] angepasst und den Buy-in für [Change] innerhalb von [Zeitraum] erhöht.
- Du hast Risiken früh adressiert und Trade-offs transparent gemacht; dadurch wurden Deadlines in [Projekt] nicht verfehlt.
- Du hast asynchrone Updates verbessert (wöchentliche [Kanal]-Notizen) und Status-Meetings um [Anzahl] reduziert.
- Du hast Stakeholder-Schleifen konsequent geschlossen und offene Fragen zu [Thema] spürbar reduziert.
Erfüllt Erwartungen
- Du gibst klare Updates zu [Projekt] und reagierst innerhalb von [SLA/Zeitraum].
- Du erklärst Entscheidungen und Trade-offs so, dass das Team handlungsfähig bleibt.
- Du hörst in Diskussionen aktiv zu und spiegelst Kernpunkte, bevor du Lösungen vorschlägst.
- Du dokumentierst Vereinbarungen in [Tool], sodass andere sie später referenzieren können.
- Du arbeitest konstruktiv mit [Team] zusammen und hältst Übergaben für [Deliverable] reibungslos.
- Du stellst früh klärende Fragen und reduzierst Missverständnisse bei [Aufgabe].
- Du kommunizierst Blocker zeitnah und schlägst mindestens eine Option zur Entblockung vor.
- Du hältst Meetings fokussiert und beendest sie mit Ownern und Deadlines.
Unter Erwartungen / Verbesserungsbedarf
- Updates zu [Projekt] waren unregelmäßig, was Entscheidungen um [Zeitraum] verzögert hat.
- Deine Nachrichten enthielten häufig zu wenig Kontext; das führte zu Rework bei [Deliverable].
- Du hast bei [Thema] zu spät eskaliert, wodurch das Risiko für [Deadline] gestiegen ist.
- In [Meeting] hat dein Tonfall Input ausgebremst; wir brauchen eine neutrale, faktenbasierte Diskussion.
- Dokumentation zu [Thema] fehlte, wodurch andere Fragen wiederholt stellen mussten.
- Du commitest manchmal im Meeting, bestätigst Follow-ups aber nicht schriftlich.
- Stakeholder-Erwartungen waren nicht klar; das führte zu Scope Drift in [Projekt].
- Du reagierst langsam in [Kanal], was abhängige Arbeit von [Team] um [Zeitraum] blockiert.
- Nächster Zyklus: sende wöchentlich Status-Notizen mit Entscheidungen, Risiken und konkreten Requests.
2) Ownership & Zuverlässigkeit
KI kann helfen, Zuverlässigkeitsverhalten klar zu benennen, ohne anklagend zu klingen. Geben Sie Timelines, Commitments und die Definition von „done“ mit.
- Inputs: Zusagen, Lieferdaten, Incident-Timelines, Qualitätschecks, Eskalationspunkte.
- Vermeiden: moralische Urteile („nachlässig“), vage Labels („nicht proaktiv“), Überraschungskritik.
- Prompt-Muster: „Beschreibe Ownership-Verhalten + Wirkung, dann 1 messbaren Next Step.“
- DACH-Hinweis: Zuverlässigkeit wirkt stärker mit Daten und vereinbarten Zielen (Zielvereinbarung).
Übertrifft Erwartungen
- Du hast [Deliverable] end-to-end verantwortet und vor [Deadline] geliefert – ohne Qualitätsabstriche.
- Du hast Risiken in [Projekt] früh erkannt und den Plan angepasst, wodurch [Impact] vermieden wurde.
- Du hältst Zusagen zuverlässig ein und verhandelst Scope proaktiv neu, wenn Rahmenbedingungen sich ändern.
- Du hast die Team-Zuverlässigkeit durch [Checkliste/Prozess] erhöht und diese nachhaltig gepflegt.
- Du übernimmst Verantwortung für Issues, kommunizierst sie schnell und treibst Lösungen bis zum Abschluss.
- Du hältst Standards auch unter Druck hoch und verhinderst Defekte in [Bereich].
- Du entblockst andere durch „Glue Work“ und schließt Prozesslücken in [Prozess].
- Du lieferst verlässlich, was du zusagst; deine Schätzungen sind innerhalb von [Range] akkurat.
Erfüllt Erwartungen
- Du lieferst vereinbarte Aufgaben termingerecht und kommunizierst früh, wenn Prioritäten sich ändern.
- Du verantwortest deine Aufgabenliste und hältst Stakeholder über Fortschritt informiert.
- Du meldest Blocker rechtzeitig und holst Hilfe, bevor Deadlines gefährdet sind.
- Du erfüllst Qualitätserwartungen und folgst Teamprozessen für Reviews und Freigaben.
- Du hältst Commitments realistisch und aktualisierst Estimates, wenn neue Informationen vorliegen.
- Du schließt Action Items aus Meetings und bestätigst Abschluss in [Tool].
- Du löst Routineprobleme selbstständig und eskalierst, wenn der Scope dein Mandat überschreitet.
- Du lieferst konstant über den Zyklus hinweg – nicht nur am Ende.
Unter Erwartungen / Verbesserungsbedarf
- Mehrere Commitments sind ohne frühzeitige Info gerutscht; das betraf [Team/Kund:in] in [Zeitraum].
- Follow-through bei Action Items war ungleichmäßig; Aufgaben blieben in [Tool] offen.
- Du eskalierst tendenziell spät, wodurch weniger Optionen zur Zeitplanrettung in [Projekt] bleiben.
- Estimates waren häufig zu optimistisch; das erzeugte Planungsprobleme für [Stakeholder].
- Qualitätschecks wurden bei [Deliverable] übersprungen; daraus entstand vermeidbarer Rework.
- Du hast neue Arbeit angenommen, ohne Prioritäten neu zu verhandeln; dadurch wurden Deadlines verfehlt.
- Ownership-Grenzen waren unklar; kläre, was du selbst verantwortest und was du eskalierst.
- Wenn Probleme auftreten, fehlen häufig Root Cause und Präventionsplan.
- Nächster Zyklus: bestätige Commitments schriftlich und melde Risiken innerhalb von [X] Tagen.
Micro-Checkliste (nach Domänen 1–2): bevor Sie eine Formulierung übernehmen
- Ist [Projekt] und Zeitraum genannt – nicht nur ein Persönlichkeitsmerkmal?
- Gibt es mindestens ein Ergebnis oder beobachtbares Verhalten?
- Passt der Ton zum Rating, ohne versteckte „Gotchas“?
- Würden Sie es im Mitarbeitergespräch laut vorlesen?
- Ist es konsistent mit 1:1-Notizen und Zielen?
3) Problemlösung & Lernen
KI-Entwürfe klingen schnell „smart“, aber unkonkret. Halten Sie den Text am echten Problem, Vorgehen und der Veränderung durch die Lösung geerdet.
- Inputs: Problemstatement, Optionen, Constraints, Ergebnis, Learnings.
- Vermeiden: „brillant“/„nicht strategisch“ ohne Entscheidungen und Trade-offs zu beschreiben.
- Prompt-Muster: „Schreibe einen STAR-Kommentar (Situation–Task–Action–Result) in 45 Wörtern.“
- DACH-Hinweis: Betonen Sie strukturiertes Denken und Dokumentation, nicht nur Geschwindigkeit.
Übertrifft Erwartungen
- Du hast [Problem] gelöst, indem du Optionen getestet und anhand von Daten aus [Quelle] entschieden hast.
- Du hast Wiederholungen von [Issue] reduziert, Root Cause identifiziert und [Fix] umgesetzt.
- Du lernst schnell und teilst Learnings, wodurch Teamentscheidungen zu [Thema] besser wurden.
- Du vereinfachst komplexe Themen in klare Schritte und machst andere dadurch handlungsfähig.
- Du antizipierst Second-Order-Effekte und entwirfst Lösungen, die für [Scope] skalieren.
- Du holst aktiv Feedback ein und passt dein Vorgehen an, was Outcomes in [Projekt] verbessert.
- Du dokumentierst Entscheidungen und Begründungen, sodass Folgearbeit schneller und konsistenter wird.
- Du mentorst andere in Problemlösung und hebst die Teamfähigkeit in [Skill].
Erfüllt Erwartungen
- Du zerlegst Probleme und schlägst umsetzbare Lösungen innerhalb deines Scopes vor.
- Du fragst fehlende Informationen nach und prüfst Annahmen, bevor du handelst.
- Du lernst aus Feedback und setzt es in der nächsten Iteration um.
- Du gehst mit Routine-Unsicherheit um und eskalierst, wenn Constraints unklar sind.
- Du dokumentierst zentrale Schritte, sodass andere deiner Begründung folgen können.
- Du nutzt verfügbare Daten zur Entscheidungsunterstützung, wenn sie vorhanden sind.
- Du reflektierst Outcomes und identifizierst nach jeder Lieferung eine Verbesserung.
- Du bleibst offen für alternative Ansätze und arbeitest am bestmöglichen Lösungsweg mit.
Unter Erwartungen / Verbesserungsbedarf
- Du springst zu Lösungen, bevor das Problem klar ist; das führte zu Rework bei [Case].
- Annahmen wurden nicht validiert; dadurch entstanden vermeidbare Fehler in [Deliverable].
- Wenn du festhängst, fragst du zu spät nach Hilfe und verzögerst Fortschritt um [Zeitraum].
- Post-Mortems fehlen; dieselben Probleme treten in [Bereich] wiederholt auf.
- Dokumentation von Entscheidungen ist ungleichmäßig und bremst andere aus.
- Du optimierst lokal und übersiehst Upstream/Downstream-Effekte in [Prozess].
- Lernziele wurden gesetzt, aber in [Zeitraum] nicht konsequent verfolgt.
- Du reagierst im Moment eher abwehrend auf Feedback; wir brauchen Neugier und Anpassung.
- Nächster Zyklus: nutze ein kurzes Options-Log (A/B/C) mit Begründung und Outcome.
4) Impact & Lieferung (Ergebnisse)
Ergebnis-Sprache wird schnell vage („viel geliefert“). Geben Sie Baseline, Delta und den Nachweis mit.
- Inputs: Ziele/OKRs, Baseline-Metriken, gelieferter Scope, Qualitätsindikatoren, Kund:innen-Impact.
- Vermeiden: Credit-Inflation („im Alleingang“) oder Output-Listen ohne Outcome.
- Prompt-Muster: „1 Satz Impact + 1 Satz, wie er erreicht wurde.“
- DACH-Hinweis: „solider, verlässlicher Impact“ wirkt oft besser als Hype.
Übertrifft Erwartungen
- Du hast das Ziel für [OKR] übertroffen und [Messgröße] von [A] auf [B] verbessert.
- Du hast [Projekt] geliefert mit messbarem Impact für [Kund:in/Team], belegt durch [Nachweis].
- Du hast den Durchsatz erhöht, indem du [Prozess] verbessert und [Stunden/€] pro [Zeitraum] freigesetzt hast.
- Du hast High-Impact geliefert und gleichzeitig Risiko reduziert, sichtbar in [Quality Metric].
- Du hast effektiv priorisiert und dich auf wenige Aktionen fokussiert, die [Messgröße] bewegt haben.
- Du hast negativen Impact verhindert, indem du [Risiko] adressiert und [Umsatz/SLA] geschützt hast.
- Du hast über Abhängigkeiten hinweg geliefert und Scope konsequent an Business-Zielen ausgerichtet.
- Du hast Qualitätsstandards erhöht und Defekte/Incidents in [Bereich] um [Delta] reduziert.
Erfüllt Erwartungen
- Du hast die vereinbarten Ziele für [Zyklus] geliefert und erwartete Qualitätsstandards eingehalten.
- Du lieferst Arbeit, die Teamprioritäten unterstützt und für Stakeholder nutzbar ist.
- Du managst Scope und Trade-offs und kommunizierst Änderungen frühzeitig.
- Du trägst stabilen Output bei und hilfst dem Team, gemeinsame Meilensteine zu erreichen.
- Du trackst Fortschritt gegen Ziele und passt dich an, wenn Prioritäten sich verschieben.
- Du lieferst in akzeptabler Qualität und behebst Issues, wenn sie auftreten.
- Du schließt Arbeit mit klaren Übergaben, sodass Ergebnisse wartbar bleiben.
- Du hältst die meisten Deadlines ein und meldest Risiken, wenn nötig.
Unter Erwartungen / Verbesserungsbedarf
- Zentrale Deliverables für [Zyklus] wurden verfehlt; das beeinflusste [Ziel/OKR] um [Delta].
- Arbeit wurde häufig spät oder unvollständig fertig; andere mussten nacharbeiten.
- Prioritäten wurden ohne Alignment verschoben; dadurch entstand Low-Impact-Output zu [Thema].
- Qualitätsprobleme in [Deliverable] führten zu vermeidbarem Rework und Verzögerungen.
- Progress-Tracking war begrenzt; Risiken wurden zu spät sichtbar.
- Scope wurde nicht gesteuert; „Nice-to-haves“ verdrängten Kern-Outcomes.
- Abhängigkeiten wurden nicht proaktiv gemanagt; [Team] wurde blockiert.
- Outcome-Metriken fehlten; der Impact konnte nicht validiert werden.
- Nächster Zyklus: definiere Success-Metriken upfront und reviewe sie zweiwöchentlich.
Micro-Checkliste (nach Domänen 3–4): Evidenz und Rating-Fit
- Enthält der Kommentar mindestens eine Metrik, einen Meilenstein oder ein beobachtbares Ergebnis?
- Ist der Zeitraum klar (Quartal, Halbjahr, Projektfenster)?
- Könnte ein Peer die Aussage mit Artefakten verifizieren?
- Sind „was passiert ist“ und „warum es wichtig ist“ getrennt?
- Vermeidet der Text Rating-Inflation oder versteckte Negativbotschaften?
5) People Leadership & Coaching
KI überhöht Leadership schnell in vagen Floskeln. Verankern Sie Aussagen in Hiring/Onboarding, Coaching-Rhythmus, Delegation und Team-Outcomes.
- Inputs: Coaching-Notizen, Delegationsbeispiele, Team-Outcomes, Engagement-Signale, Hiring/Onboarding-Arbeit.
- Vermeiden: Therapie-Sprache, Motivationsdiagnosen oder „Team-Blaming“ für verfehlte Ziele.
- Prompt-Muster: „Leadership-Feedback: Aktion → Team-Impact → 1 Next Step.“
- DACH-Hinweis: Präzise Entscheidungsspielräume/Delegationsrechte sind besonders wichtig (Mitbestimmung).
Übertrifft Erwartungen
- Du hast [Person] mit regelmäßigem Feedback gecoacht und die Leistung in [Skill] bis [Datum] verbessert.
- Du delegierst klar und erzeugst Ownership; das erhöhte den Team-Durchsatz in [Bereich].
- Du hast Teamstandards durch klare Erwartungen und fairen Follow-through spürbar angehoben.
- Du entwickelst Talente, indem du Stretch-Aufgaben passend zuschneidest und Lernen aktiv unterstützt.
- Du führst schwierige Gespräche früh, verhinderst Eskalation und schützt Teamfokus.
- Du schaffst psychologische Sicherheit und hältst gleichzeitig Accountability für Outcomes.
- Du hast [New Hire] effektiv onboarded und Ramp-up-Zeit durch [Plan/Prozess] reduziert.
- Du lebst ruhige, faktenbasierte Führung in [Incident/Change] vor.
Erfüllt Erwartungen
- Du hältst regelmäßige 1:1s und gibst klares Feedback mit Bezug zu Zielen.
- Du delegierst Aufgaben mit Kontext und prüfst Fortschritt an vereinbarten Punkten.
- Du unterstützt Teammitglieder bei Blockern und hilfst, Arbeit zu priorisieren.
- Du erkennst gute Arbeit an und adressierst Issues zeitnah und respektvoll.
- Du kommunizierst Teamprioritäten und hältst Alignment mit Stakeholdern.
- Du unterstützt Entwicklungsplanung und setzt vereinbarte Maßnahmen nach.
- Du triffst Entscheidungen in deinem Mandat und eskalierst bei Bedarf.
- Du trägst zu einem stabilen Umfeld und planbarer Lieferung bei.
Unter Erwartungen / Verbesserungsbedarf
- Coaching war unregelmäßig; Erwartungen für [Person/Team] blieben unklar.
- Du führst 1:1s unregelmäßig; Feedback und Issue-Resolution verzögern sich.
- Delegation fehlte an Kontext; das verursachte Rework und langsame Entscheidungen in [Projekt].
- Performance-Issues wurden spät adressiert; Risiko für [Delivery/Qualität] stieg.
- Du „over-ownst“ Aufgaben statt andere zu befähigen; dadurch entstehen Bottlenecks.
- Teamprioritäten wechseln ohne klare Begründung; Fokus und Engagement sinken.
- Feedback bleibt oft vage („mach es besser“); es fehlt Umsetzbarkeit.
- Stakeholder-Druck wird nach unten durchgereicht statt zu puffern oder zu repriorisieren.
- Nächster Zyklus: setze monatliche Wachstumsziele je Direct Report und tracke sie in 1:1-Notizen.
6) Cross-funktionale Zusammenarbeit & Stakeholder-Management
Stakeholder-Feedback ist häufig bias-anfällig und „noisy“. Nutzen Sie KI, um Themen zu clustern – prüfen Sie aber immer konkrete Vorfälle und Outcomes.
- Inputs: Stakeholder-Mails/Notizen (bereinigt), Decision Logs, Eskalationen, Outcome-Metriken.
- Vermeiden: „politisch“-Labels, Hörensagen ohne Beispiele oder „alle sagen…“-Sätze.
- Prompt-Muster: „Fasse Stakeholder-Feedback in 2 Themen + je 1 Beispiel zusammen.“
- DACH-Hinweis: Formulieren Sie auditfähig – Aussagen können in Kalibrierungen geprüft werden.
Übertrifft Erwartungen
- Du hast [Funktionen] auf gemeinsame Ziele ausgerichtet und Konflikte in [Projekt] reduziert.
- Du hast Stakeholder proaktiv gemanagt und Eskalationen bei [Issue] verhindert.
- Du hast Entscheidungsrechte (RACI-artig) geklärt und Freigaben um [Delta] beschleunigt.
- Du balancierst Business-Bedarf und Constraints und gewinnst so Vertrauen von [Stakeholdern].
- Du übersetzt technische Detailarbeit in Outcomes, mit denen andere arbeiten können.
- Du verhandelst Scope-Änderungen ruhig und hältst Lieferung realistisch und transparent.
- Du schaffst teamübergreifende Sichtbarkeit und reduzierst späte Überraschungen im Zyklus.
- Du bearbeitest Eskalationen faktenbasiert mit Optionen und landest in klaren Entscheidungen.
Erfüllt Erwartungen
- Du arbeitest konstruktiv mit Partnerteams und hältst sie über Fortschritt informiert.
- Du klärst Anforderungen und bestätigst Scope, bevor du startest.
- Du reagierst in angemessener Zeit und hältst Zusagen gegenüber Stakeholdern ein.
- Du kommunizierst Trade-offs, wenn Timeline oder Scope sich ändern.
- Du baust Arbeitsbeziehungen auf, die reibungslose Übergaben ermöglichen.
- Du holst Input früh genug, um späte Änderungen zu vermeiden.
- Du dokumentierst Entscheidungen, damit Teams aligned bleiben.
- Du managst Erwartungen und vermeidest Overpromising.
Unter Erwartungen / Verbesserungsbedarf
- Stakeholder-Erwartungen wurden nicht geklärt; Scope änderte sich spät in [Projekt].
- Cross-Team-Updates kamen spät; Abhängigkeiten für [Team] verzögerten sich.
- Du vermeidest schwierige Alignment-Gespräche; dadurch steigt Eskalationsrisiko.
- Entscheidungen wurden nicht dokumentiert; Diskussionen wiederholen sich, Verwirrung entsteht.
- Du commitest manchmal ohne Machbarkeit zu prüfen und musst später zurückrudern.
- Stakeholder-Feedback war reaktiv, weil ihnen Sichtbarkeit in den Fortschritt fehlte.
- Du eskalierst Probleme ohne Optionen; das verlangsamt Resolution.
- Zusammenarbeit blieb siloed; die Gesamtqualität des Outcomes leidet.
- Nächster Zyklus: vereinbare mit Kern-Stakeholdern eine Kadenz (wöchentliches Update + Decision Log).
Micro-Checkliste (nach Domänen 5–6): Leadership- und Stakeholder-Safety
- Beschreibt der Text Leadership-Aktionen statt Persönlichkeitsmerkmale?
- Vermeidet er Hörensagen und nutzt konkrete Vorfälle mit Datum?
- Respektiert die Formulierung Vertraulichkeit und Privatsphäre von Teammitgliedern?
- Können Sie die Aussage in der Kalibrierung mit Beispielen verteidigen?
- Enthält der Text einen realistischen Next Step für den nächsten Zeitraum?
7) Innovation & verantwortungsvolle KI-Nutzung
Diese Domäne ist für viele Teams neu. Bleiben Sie praktisch: Wo hat KI geholfen, wie wurden Risiken gemanagt, welche Checks wurden angewendet?
- Inputs: Use Cases, Zeitersparnis-Schätzung, Qualitätschecks, Privacy-Schritte, Human-Review-Handlungen.
- Vermeiden: KI-Output als „rein eigene Leistung“ darstellen; keine sensiblen Daten in öffentliche Tools geben.
- Prompt-Muster: „Schreibe einen Kommentar zu verantwortungsvoller KI-Nutzung inkl. Checks und Outcome.“
- DACH-Hinweis: Nennen Sie Guardrails (DSGVO, Betriebsrat-Erwartungen) als Verhalten, nicht als Rechtsbehauptung.
Übertrifft Erwartungen
- Du hast KI bei [Aufgabe] mit klaren Checks genutzt, Qualität verbessert und Cycle Time reduziert.
- Du hast Prompts und Review-Schritte dokumentiert und damit wiederholbare Nutzung im Team ermöglicht.
- Du hast Privacy-Risiken früh erkannt und den Workflow angepasst, um Daten in [Case] zu schützen.
- Du hast Kolleg:innen zu sicherer KI-Nutzung befähigt und Konsistenz/Fehlerquote im Team verbessert.
- Du validierst KI-Outputs gegen Quellen und verhinderst falsche Informationen in [Deliverable].
- Du nutzt KI zur Optionsfindung und entscheidest dann evidenz- und constraint-basiert.
- Du hast einen Prozess verbessert, indem du KI-gestützte Zusammenfassungen mit Human Review eingeführt hast.
- Du lebst Transparenz vor: KI-Entwürfe werden gekennzeichnet, Validierung wird erklärt.
Erfüllt Erwartungen
- Du nutzt KI fürs Drafting/Summarizing und verifizierst, bevor du extern teilst.
- Du folgst Teamregeln, welche Daten in KI-Tools eingegeben werden dürfen.
- Du behältst menschliche Verantwortung für Entscheidungen; KI ist Unterstützung.
- Du korrigierst KI-Fehler konsequent und nutzt fehlerhaften Text nicht weiter.
- Du beschleunigst Routineaufgaben mit KI, ohne Qualitätsstandards zu senken.
- Du hältst Prompts/Outputs in freigegebenen Tools und Umgebungen.
- Du holst Guidance, wenn ein Use Case sensible Daten berührt.
- Du vermeidest Überabhängigkeit und kannst bei Bedarf effektiv ohne KI arbeiten.
Unter Erwartungen / Verbesserungsbedarf
- Du hast KI-Outputs ohne ausreichende Verifikation genutzt; dadurch entstanden Ungenauigkeiten in [Deliverable].
- Mit KI geteilte Inputs enthielten sensible Details, die hätten entfernt werden müssen.
- KI-generierter Text wurde mit generischen Claims eingefügt, ohne Evidenzbezug.
- Du nutzt KI zum Entscheiden statt zur Unterstützung deines Urteils.
- Prompting ist ungleichmäßig; dadurch ist Qualität zwischen ähnlichen Dokumenten inkonsistent.
- KI-Unterstützung wurde nicht offengelegt, obwohl interne Transparenznormen dies verlangen.
- Bias-Risiken wurden beim KI-Summarizing von Peer-Feedback nicht berücksichtigt.
- KI-Nutzung ersetzte Stakeholder-Klärung; das führte zu Missverständnissen bei [Thema].li>
- Nächster Zyklus: nutze eine Verifikations-Checkliste (Quellen, Zahlen, Namen, Vertraulichkeit) vor dem Teilen.
8) Werte & Kultur
Werte-Feedback wird unfair, wenn es zu „Culture Fit“-Meinungen wird. Verankern Sie es in beobachtbaren Verhaltensweisen, die Teamnormen stützen.
- Inputs: konkrete Vorfälle, Teamvereinbarungen, Beispiele für prinzipientreue Entscheidungen, erhaltenes Feedback.
- Vermeiden: „passt nicht“, moralische Urteile oder subjektive Stilpräferenzen.
- Prompt-Muster: „Schreibe Werte-Feedback als Verhalten + Impact auf Team-Outcomes.“
- DACH-Hinweis: Respektvoll und konkret bleiben – Werte-Kommentare wiegen oft besonders schwer.
Übertrifft Erwartungen
- Du lebst unseren Wert [Wert], indem du [Verhalten] zeigst; das stärkte Teamvertrauen in [Zeitraum].
- Du sprichst Risiken früh und konstruktiv an und verhinderst vermeidbare Probleme in [Projekt].
- Du beziehst leisere Stimmen in Diskussionen ein und verbesserst Entscheidungsqualität zu [Thema].
- Du handelst integer unter Druck und dokumentierst Entscheidungen transparent.
- Du teilst Credit und würdigst Beiträge anderer; das stärkt Zusammenarbeit.
- Du unterstützt Inclusion durch konkrete Maßnahmen (z. B. [Praxis]) und konsequenten Follow-through.
- Du verbesserst Teamnormen durch klare Vereinbarungen und lebst sie im Alltag.
- Du gehst offen mit Feedback um und passt Verhalten schnell an; Arbeitsbeziehungen werden stabiler.
Erfüllt Erwartungen
- Du verhältst dich im Alltag konsistent zu unseren Werten.
- Du behandelst Kolleg:innen respektvoll und hältst Diskussionen professionell.
- Du nimmst Feedback an und passt dich über Zeit sinnvoll an.
- Du unterstützt Teamnormen und trägst zu einem positiven Arbeitsumfeld bei.
- Du kommunizierst ehrlich und meldest Issues, statt sie zu verstecken.
- Du zeigst Accountability und hältst Commitments gegenüber dem Team ein.
- Du arbeitest ohne Schuldzuweisungen und fokussierst auf Lösungen.
- Du stärkst Teamkultur durch verlässliches, vorhersehbares Verhalten.
Unter Erwartungen / Verbesserungsbedarf
- Dein Verhalten in [Situation] hat Vertrauen reduziert; wir brauchen respektvolle, faktenbasierte Diskussion.
- Du weist Feedback schnell zurück; das begrenzt Verbesserung und belastet Zusammenarbeit.
- Du priorisierst manchmal Speed über vereinbarte Standards; das erzeugt Reibung in [Team].
- Du kommunizierst Issues nicht früh; dadurch entstehen späte Überraschungen in der Lieferung.
- Credit-Sharing war inkonsistent; das wirkt auf Motivation und Zusammenarbeit.
- Du erzeugst vermeidbare Spannung in Meetings; fokussiere auf Themen, nicht auf Personen.
- Teamvereinbarungen (z. B. [Norm]) wurden nicht eingehalten; Konsistenz sinkt.
- Du vermeidest Accountability-Sprache; dadurch ist Ownership in [Case] unklar.
- Nächster Zyklus: vereinbare 2 beobachtbare Verhaltensweisen und reviewe sie monatlich.
Micro-Checkliste (nach Domänen 7–8): KI- und Werte-Risiko-Check
- Vermeidet der Text „Culture Fit“-Abkürzungen und beschreibt konkrete Verhaltensweisen?
- Wurden sensible Daten entfernt, bevor ein KI-Assistent genutzt wurde?
- Sind Zahlen, Daten und benannte Deliverables verifiziert?
- Wäre die Formulierung auch fair, wenn sie auf eine andere Person angewandt würde?
- Trennt der Kommentar Werteverhalten klar von Performance-Outcomes?
Prompting-Guide: 12 Prompts, die HR mit Führungskräften teilen kann
Gute Prompts erzwingen Spezifität und verhindern „KI-Politur über fehlenden Fakten“. Nutzen Sie diese z. B. mit ChatGPT, Copilot oder einem internen Assistenten – aber erst, nachdem echte Inputs gesammelt wurden (Ziele, 1:1-Notizen, Artefakte).
- „Formuliere aus diesen Stichpunkten 2 Review-Sätze + 1 Next Step. Lass Platzhalter für fehlende Daten: [bullets].“
- „Schreibe diesen Kommentar passend zu ‚Erfüllt Erwartungen‘ um. Entferne Superlative: [text].“
- „Entwirf Feedback zu [Kompetenz] im STAR-Format. Nutze nur diese Fakten: [facts]. Max. 55 Wörter.“
- „Liste 3 fehlende Evidenzpunkte, die ich sammeln sollte, bevor ich finalisiere: [draft].“
- „Markiere vage Claims in diesem Kommentar und ersetze sie durch Spezifisches: [comment].“
- „Prüfe den Text auf bias-anfällige/codierte Sprache und schlage neutrale Alternativen vor: [text].“
- „Erstelle zwei Versionen: eine zum Vorlesen im Mitarbeitergespräch, eine für Dokumentation: [facts].“
- „Fasse Peer-Feedback in 2 Themen + je 1 Zitat zusammen. Füge keine neuen Fakten hinzu: [inputs].“
- „Richte dieses Feedback auf Rubrik-Level [level] aus. Erkläre, welcher Satz welches Kriterium erfüllt: [rubric + draft].“
- „Gib 3 Formulierungsoptionen: direkt, neutral, weich. Bedeutung unverändert lassen: [text].“
- „Wandle diese Output-Liste in Impact-Sprache mit Metrik-Platzhaltern um: [outputs].“
- „Schlage 2 messbare Entwicklungsziele fürs nächste Quartal aus diesen Lücken vor: [gaps].“
Schlecht vs. besser: KI-Outputs (Beispiel: Zusammenarbeit)
Nutzen Sie das als Manager-Übung: „Welche Evidenz fehlt?“ und „Passen Rating und Wortwahl zusammen?“
| Qualität | Beispiel | Warum riskant / was besser ist |
|---|---|---|
| Schlecht (generisch) | Du bist ein:e großartige:r Kommunikator:in und ein starkes Teammitglied. | Nicht prüfbar: kein Scope, kein Zeitraum, kein Outcome. |
| Besser (geerdet) | In [Projekt] hast du wöchentlich Updates geteilt und Entscheidungen in [Dokument] geklärt, was Rückfragen reduziert hat. | Benanntes Verhalten, Artefakt und Ergebnis; gut validierbar. |
| Best (rating-gekoppelt) | Du hast [Teams] bis [Datum] auf [Entscheidung] ausgerichtet, Rework verhindert und den Meilenstein gesichert. | Verknüpft Zusammenarbeit mit messbarer Delivery-Wirkung; passt zu „Übertrifft“, wenn belegt. |
Wie Sie KI-Entwürfe fair halten (und Bias reduzieren)
KI spiegelt, was Sie hinein geben – inklusive ungleicher Evidenz, Emotion und Recency-Effekten. Die wirksamste Kontrolle ist Struktur: gleiche Inputs, gleiche Rubrik, gleiche Textlänge. Wenn Sie Checklisten und Gesprächsskripte brauchen, nutzen Sie Performance-Review-Biases als gemeinsame Referenz im Reviewer-Training.
Für KI-Risikodenken hilft ein pragmatischer Standard wie das NIST AI Risk Management Framework (AI RMF 1.0): Transparenz, menschliche Aufsicht und überprüfbare Nachweise. Sie brauchen keinen Overhead – aber eine klare Regel: KI-Entwürfe sind nie die finale Wahrheit.
Praxisbeispiel (hypothetisch): Zwei Manager bewerten ähnliche Ergebnisse. Manager A liefert 3 Artefakte (OKR-Update, Ticket-Links, Kundenmail). Manager B liefert nur „sehr engagiert“. In der Kalibrierung gewinnt A – nicht wegen besserem Schreiben, sondern wegen Evidenz. Die Lösung ist nicht „besser formulieren“, sondern „Evidence Packets standardisieren“.
- Führen Sie einen Gegenbeispiel-Check ein: Welche Evidenz würde widersprechen?
- Scannen Sie Sprache auf Härte-Unterschiede zwischen Rollen/Gruppen.
- Verbieten Sie Mind-Reading ohne Beleg („du bist faul“, „dir ist es egal“).
- Trennen Sie Impact von Stilpräferenzen („nicht mein Stil“ ist kein Kriterium).
- In der Kalibrierung: erst Evidenz, dann Rating, dann Wortlaut (z. B. mit Talent Calibration Guide oder Calibration Meeting Template).
DACH-Sprachregeln: ehrlich, direkt, dokumentationsfest
DACH-Review-Kultur bewertet Präzision oft höher als Enthusiasmus – das ist ein Vorteil für KI-Entwürfe. Die besten Kommentare sind ruhig, datiert, an Outcomes gebunden und in der Kalibrierung verteidigbar. Wenn der Betriebsrat Klarheit zur Datennutzung erwartet, halten Sie intern knapp fest, welche Inputs genutzt wurden und wo sie liegen.
Praxisbeispiel (hypothetisch): Statt „immer top“ verwenden Sie „im Q3 in [Projekt] 3 Releases ohne Sev-1-Incident; belegt durch [Link]“. Das ist weniger „warm“, aber deutlich belastbarer – und vermeidet spätere Diskussionen über Interpretationen.
- Bevorzugen Sie „konsistent“, „in [Zeitraum]“, „belegt durch [Nachweis]“ statt breiter Adjektive.
- Vermeiden Sie Absolute, außer sie stimmen: „immer“, „nie“, „alle“.
- Kritik bleibt umsetzbar: Verhalten + Impact + Erwartung + Support.
- Mischen Sie keine Ratings: keine „erfüllt, aber…“-Absätze, die wie „unter“ lesen.
- Nutzen Sie über Personen hinweg denselben Sprachregister – ungleiche Wärme wirkt wie Bias.
Skill-Level & Verantwortungsbereich
Starter: Nutzt KI für Entwürfe, Entscheidungen basieren aber stark auf Erinnerung. Verantwortungsbereich: eigene Review-Texte; Konsistenz im Team ist begrenzt.
Praktiker:in: Erdung in Evidenz und Rubrik; kann Ratings ruhig mit Beispielen erklären. Verantwortungsbereich: konsistente Evidence Packets für Direct Reports.
Fortgeschritten: Vergleicht Ratings über ähnliche Rollen und reduziert Bias durch strukturierte Checks. Verantwortungsbereich: wirksame Teilnahme an Kalibrierungen, Grenzfälle sauber eskalieren.
Owner: Setzt Standards, Templates und Governance für KI-Nutzung in Reviews. Verantwortungsbereich: Training, Audits, Framework-Updates über Zyklen.
Kompetenzbereiche (Skill Areas)
Evidenz & Nachweise
Ziel sind überprüfbare Aussagen: Was ist passiert, wann, und was hat sich dadurch verändert? Typische Outcomes: klarere Reviews, weniger Streitfälle, schnellere Kalibrierungen.
Rating-Abgleich
Ziel ist Konsistenz zwischen Rubrik und Formulierung. Outcomes: weniger Rating-Drift und weniger Kommentare, die „erfüllt“ sagen, aber wie „unter“ klingen.
Spezifität & Klarheit
Ziel sind kurze Kommentare mit Substanz: konkrete Beispiele, Wirkung und Next Steps. Outcomes: weniger „KI-Genericness“ und klarere Erwartungssignale für Mitarbeitende.
Bias & Fairness
Ziel sind gleiche Standards über Personen und vergleichbare Rollen hinweg. Outcomes: weniger bias-anfällige Formulierungen und belastbarere Beförderungsentscheidungen.
Prompting & Iteration
Ziel sind wiederholbare Prompts, die strukturierten Output liefern (ohne Erfindungen). Outcomes: kürzere Review-Vorbereitung und konsistentere Schreibqualität im Team.
Gesprächsreife
Ziel ist Feedback, das man ruhig besprechen kann – nicht nur abheften. Outcomes: bessere Mitarbeitergespräche und klarere Next Steps für den nächsten Zeitraum.
Dokumentation & Governance
Ziel ist auditfähige Begründung mit passenden Privacy-Kontrollen. Outcomes: klarere Records, weniger Überraschungen in Datenhandling und Eskalationen.
Verantwortungsvolle KI-Nutzung
Ziel ist sichere KI-Unterstützung mit menschlicher Verifikation. Outcomes: weniger faktische Fehler, bessere Akzeptanz und kein Vertrauensverlust durch „KI-Scheinpräzision“.
Bewertungsskala & Nachweise (Rating & Evidence)
Nutzen Sie eine einfache 1–4-Skala, die sauber zur Sprache passt. Halten Sie die Skala über Domänen hinweg konstant und nutzen Sie die Phrase Bank, um Ton und Spezifität zu matchen.
| Rating | Definition (Bedeutung) | Wie Evidenz typischerweise aussieht |
|---|---|---|
| 4 – Übertrifft | Outcomes liegen über Rollenerwartung; Impact geht über den eigenen Scope hinaus. | Messbare Deltas, cross-funktionaler Impact, wiederholte Beispiele im Zyklus. |
| 3 – Erfüllt | Liefert konsistent erwartete Outcomes für Rolle und Zeitraum. | Ziele erreicht, verlässliche Lieferung, stabile Zusammenarbeit, dokumentierter Follow-through. |
| 2 – Teilweise erfüllt | Ein Teil der Erwartungen wird erfüllt, aber Lücken beeinflussen Outcomes oder Zuverlässigkeit. | Rutschende Commitments, wiederkehrende Qualitätsprobleme, inkonsistentes Verhalten, lückenhafte Evidenz. |
| 1 – Erfüllt nicht | Wesentliche Erwartungen werden verfehlt; Performance erzeugt wiederholt Risiko oder Rework. | Mehrere verfehlte Deliverables, ungelöste Issues, wiederholt negativer Stakeholder-Impact. |
Nützliche Nachweisarten: OKRs/Zielnotizen, Projektpläne und Post-Mortems, Kundenfeedback, Peer-Feedback mit Datum, Qualitätsmetriken, 1:1-Notizen. Halten Sie Evidenz proportional: ein starkes Beispiel schlägt oft fünf schwache Anekdoten.
Mini-Beispiel (Fall A vs. Fall B): Beide liefern dasselbe [Projekt]. Fall A erhält „Erfüllt“, weil Lieferung Scope/Timeline mit normaler Unterstützung trifft. Fall B erhält „Übertrifft“, weil teamübergreifend Rework verhindert, Entscheidungen dokumentiert und ein wiederverwendbarer Prozess verbessert wurde – belegt durch [Artefakt] und [Stakeholder-Feedback].
Entwicklungssignale & Warnzeichen
Beförderungsreife zeigt sich durch nachhaltige Scope-Erweiterung – nicht durch eine außergewöhnliche Woche. KI kann Signale zusammenfassen; Menschen müssen sie mit Evidenz und Peer-Kontext validieren.
Entwicklungssignale (bereit fürs nächste Level)
- Stabile Outcomes über mehrere Zyklen – auch bei wechselnden Prioritäten.
- Übernimmt größeren Scope: Ambiguität, cross-team Abhängigkeiten, höhere Stakes.
- Multiplier-Effekt: verbessert Systeme, Coaching, Dokumentation oder Teamprozesse.
- Zeigt Urteilskraft: klare Trade-offs, frühes Risikomanagement, konsistente Entscheidungsqualität.
- Erhält konsistentes Peer-/Stakeholder-Feedback mit konkreten Beispielen.
Warnzeichen (Beförderungsblocker)
- Silo-Ausführung erzeugt versteckte Kosten (Handoff-Schmerz, wiederholter Rework).
- Inkonsistente Zuverlässigkeit: starke Phasen, dann Rutschen ohne frühe Eskalation.
- Schwache Dokumentation macht Outcomes schwer validier- oder wartbar.
- Feedback-Resistenz/Defensivität bremst Wachstum und Zusammenarbeit.
- Übernutzung generischer KI-Texte mit dünner Evidenz oder mismatched Ratings.
Team-Check-ins & Bewertungsrunden (Check-ins & Review Sessions)
Konsistenz entsteht durch Kadenz. Wenn Reviews nur am Zyklusende geschrieben werden, verstärkt KI Memory Bias. Etablieren Sie leichte Routinen, die Evidenz früh erfassen – und nutzen Sie Kalibrierung als Evidenz-Review, nicht als Schreibwerkstatt.
- Monatlicher Evidence-Check-in (15 Min): Führungskraft + Mitarbeitende:r sammeln 2 Wins, 1 Learning, 1 Metrik.
- Mid-Cycle-Review (30 Min): Ziele bestätigen, Scope anpassen, Evidenzlücken identifizieren.
- Kalibrierungs-Prework (async): pro Person ein 1-seitiges Evidence Packet einreichen.
- Kalibrierung (60–90 Min): erst Evidenz, dann Rating, dann Wortlaut; Grenzfälle timeboxen.
- Bias-Check: Rating-Verteilung und Sprachhärte über ähnliche Rollen vergleichen.
Für strukturierte, evidenzbasierte Runden: Talent Calibration Guide und eine wiederverwendbare Calibration-Agenda. Für bessere 1:1-Inputs helfen strukturierte Fragen (siehe 1:1-Meeting-Fragen).
Interviewfragen (verhaltensbasiert)
Diese Fragen helfen, konkrete Beispiele zu sammeln, die später zu evidenzbasierten Review-Kommentaren werden. Ziel: Situation, Aktion, Ergebnis, Veränderung.
Evidenz & Nachweise
- Erzählen Sie von einer Situation, in der Sie Impact mit Nachweisen belegt haben. Welche Artefakte?
- Wann waren Daten unvollständig – und wie haben Sie Fehlinterpretationen vermieden?
- Beschreiben Sie ein Deliverable, bei dem Ihre Dokumentation andere schneller gemacht hat. Outcome?
- Welche Aussage haben Sie aus einem Entwurf gestrichen, weil sie nicht verifizierbar war?
Rating-Abgleich
- Wann waren Sie mit einem Rating nicht einverstanden? Welche Rubrik-Kriterien haben Sie genutzt?
- Woran unterscheiden Sie „Erfüllt“ und „Übertrifft“ in Ihrer Rolle konkret?
- Beschreiben Sie einen Grenzfall, den Sie zur Kalibrierung eskaliert haben. Entscheidung und warum?
- Was hat sich in Ihrer Arbeit verändert, als Erwartungen im nächsten Level gestiegen sind?
Spezifität & Klarheit
- Geben Sie ein Beispiel, wie Sie Feedback spezifischer gemacht haben. Welche Details ergänzt?
- Wann haben Sie vages Lob durch beobachtbares Verhalten ersetzt?
- Beschreiben Sie einen Kommentar, den Sie laut vorlesen mussten. Was haben Sie angepasst?
- Wie stellen Sie sicher, dass Feedback sowohl Impact als auch „wie“ das Ergebnis entstand enthält?
Bias & Fairness
- Wann haben Sie Bias in Feedbacksprache erkannt – und was haben Sie getan?
- Wie vermeiden Sie, Stilunterschiede als Performanceproblem zu bewerten?
- Wann hätte Recency Bias Ihre Sicht beeinflusst – und wie haben Sie korrigiert?
- Welche Checks nutzen Sie, um Standards über ähnliche Rollen hinweg konsistent zu halten?
Prompting & Iteration
- Erzählen Sie von einem KI-Entwurf, den Sie durch Iteration deutlich verbessert haben. Welche Constraints?
- Welche Inputs sammeln Sie, bevor Sie KI für einen Review-Kommentar nutzen?
- Wie zwingen Sie die KI, Platzhalter zu lassen statt fehlende Daten zu erfinden?
- Welchen Prompt nutzen Sie wiederholt, weil er zuverlässig gute Struktur liefert – und warum?
Gesprächsreife
- Erzählen Sie von einem schwierigen Feedbackgespräch, das Sie gut geführt haben. Outcome?
- Wie erklären Sie ein Rating evidenzbasiert und halten das Gespräch zukunftsorientiert?
- Wann hat jemand Feedback bestritten – wie sind Sie damit umgegangen?
- Was tun Sie, um Überraschungen zur Review-Zeit zu vermeiden?
Dokumentation & Governance
- Wann hat Dokumentation in einem Konflikt/Eskalationsfall Klarheit geschützt? Was ist passiert?
- Wie entscheiden Sie, was in formalen Review-Text gehört vs. Coaching-Notizen?
- Wie gehen Sie mit sensiblen Informationen um, wenn Sie KI-Tools einsetzen?
- Welchen Prozess nutzen Sie, um Review-Kommentare konsistent und auditfähig zu halten?
Verantwortungsvolle KI-Nutzung
- Wann hat KI Zeit gespart, aber Sie haben trotzdem Qualität erhöht? Welche Checks?
- Beschreiben Sie einen Fall, in dem KI falsch lag. Wie haben Sie das erkannt und korrigiert?
- Wie verhindern Sie, dass sensible Daten in Prompts landen?
- Was wäre ein Signal, KI für einen Use Case nicht (mehr) zu nutzen?
Einführung & laufende Pflege (Implementation & Updates)
Adoption scheitert, wenn Führungskräfte es als Extra-Arbeit sehen. Es funktioniert, wenn Aufwand sinkt: gemeinsame Templates, klare Guardrails und ein kurzes Training mit echten Beispielen.
- Woche 1: Kickoff mit HR, Legal, IT und (falls relevant) Betriebsrat; Datenregeln vereinbaren.
- Woche 2: 60-Min-Managertraining mit „schlecht vs. besser“ und den Micro-Checklisten.
- Wochen 3–6: Pilot in einer Funktion; Feedback zu Rubrik-Klarheit und Vorlagen sammeln.
- Nach erstem Zyklus: Review-Retro; Prompts, verbotene Phrasen und Evidenzstandards aktualisieren.
- Laufend: Owner benennen (HRBP/Talent Ops), Change Log führen, jährlich refreshen.
Wenn Sie KI-Enablement breiter aufbauen: Verknüpfen Sie es mit AI in Performance Management und rollenbasiertem Training (z. B. AI Training für Führungskräfte sowie ChatGPT Training für Mitarbeitende). Für Prozessfeedback aus Mitarbeitendensicht können kurze Pulses helfen (siehe Performance-Review-Survey-Fragen).
Fazit
Vertrauenswürdige KI-gestützte Reviews entstehen, wenn drei Dinge stimmen: Erwartungen sind klar, Evidenz ist konsistent, und Sprache passt sauber zum Rating. Die Phrase Bank beschleunigt das Schreiben – und zwingt durch Platzhalter zur notwendigen Spezifität. Das Framework macht Fairness sichtbar, weil Kalibrierung zur Evidenzdiskussion wird, nicht zum Schreibwettbewerb.
Starten Sie pragmatisch mit einem 4–6‑Wochen‑Pilotteam und verlangen Sie pro Mitarbeitende:n ein kurzes Evidence Packet. In Woche zwei führen Sie ein Managertraining mit den Prompts und dem „schlecht vs. besser“-Beispiel durch. Nach dem ersten Zyklus planen Sie eine 60‑Minuten‑Retro (Owner: HRBP/Talent Ops), aktualisieren Templates/Rubrik und setzen den nächsten Kalibrierungstermin fest.
FAQ
1) Können Führungskräfte ai performance review phrases 1:1 übernehmen?
Behandeln Sie die Formulierungen als Templates, nicht als fertige Kommentare. Wenn ein Satz kein reales Projekt, keinen Zeitraum und kein beobachtbares Verhalten nennt, wirkt er generisch und kann Vertrauen beschädigen. Verlangen Sie, dass Platzhalter wie [Projekt], [Messgröße] und [Nachweis] gefüllt werden – und lassen Sie den finalen Text einmal laut vorlesen. Wenn er beim Sprechen unfair oder überraschend klingt, landet er meist auch schriftlich schlecht.
2) Wie verhindern wir, dass KI Leistungen „erfindet“ oder schwache Evidenz nur poliert?
Steuern Sie Inputs und Workflow. Führungskräfte liefern zuerst Fakten: Ziele/OKRs, Outcomes, Beispiele, Artefakte. Danach wird die KI angewiesen, ausschließlich dieses Material umzuschreiben und fehlende Infos als Platzhalter stehen zu lassen. Ergänzen Sie eine Kalibrierregel: Jede „Übertrifft“-Aussage braucht mindestens ein verifizierbares Artefakt oder ein datiertes Stakeholder-Beispiel. Ist die Evidenz dünn, wird die Ratingdiskussion pausiert, bis Nachweise vorliegen.
3) Wie gleichen wir Ratings teamübergreifend ab, ohne dass Kalibrierung zur Endlosdebatte wird?
Verkürzen Sie die Sitzung durch standardisiertes Prework. Jede Führungskraft reicht pro Person ein kurzes Evidence Packet plus initiales Rating ein, gemappt auf Rubrik-Kriterien. In der Runde wird zuerst Evidenz diskutiert; Grenzfälle werden timeboxed und nicht live „umformuliert“. Halten Sie die Begründung in einem Decision Log fest – dadurch wird der nächste Zyklus schneller. Ziel ist gemeinsames Verständnis, nicht perfekte Uniformität.
4) Welche Bias-Risiken sind am häufigsten, wenn Führungskräfte KI zum Schreiben nutzen?
Die größten Risiken sind ungleiche Evidenzqualität (manche haben mehr dokumentierte Wins), Recency Bias (jüngste Ereignisse dominieren) und Sprachunterschiede (ähnliche Outcomes werden bei bestimmten Gruppen härter formuliert). KI kann diese Muster verstärken, weil subjektive Entwürfe „selbstbewusst“ klingen. Nutzen Sie Checklisten, verlangen Sie datierte Beispiele und vergleichen Sie Ton/Härte über ähnliche Rollen. Wenn Muster sichtbar werden, reparieren Sie zuerst den Prozess – nicht die Person.
5) Wie oft sollten wir Phrase Bank und Prompts aktualisieren?
Leicht nach jedem Zyklus, gründlicher einmal pro Jahr. Nach einem Zyklus sammeln Sie Feedback: Was war schwer zu schreiben, welche Phrasen führten in Mitarbeitergesprächen zu Missverständnissen? Entfernen Sie Templates, die generische Sprache begünstigen, und ergänzen Sie fehlende Vorlagen, die direkt zur Rubrik passen. Jährlich prüfen Sie, ob Kompetenzen noch zur Strategie passen, und versionieren Änderungen, damit Teams wissen, was sich warum verändert hat.


