Akademischer Frühjahrsrabatt, 10 % mit Code UNI-DETECTOR10
Large Language Model Detector

LLM-Detektor für deutsche und englische Texte.

LLM-Detektor

Unser LLM-Detektor entscheidet pro Satz, mit welcher Wahrscheinlichkeit ein Text von einem Large Language Model wie GPT-4o, Claude 4 oder Gemini 2.x stammt. Hinter den Kulissen läuft PlagAware, die professionelle Plagiatssoftware aus dem Universitätsbetrieb, im Einsatz an über 20 deutschen Universitäten und mit einem Index von 70 Milliarden Quellen.

✓ Ergebnis in 15 Min. ✓ DE + EN, gleich starke Erkennung
70 Mrd.Quellen im Index
20+deutsche Universitäten
15 Min.Bis zum Ergebnis
DE + ENBeide Sprachen, gleich stark
Definition

Was ist ein LLM-Detektor?

Ein LLM-Detektor (Large Language Model Detector) ist ein Klassifikator, der für einen gegebenen Text entscheidet, ob er von einem Menschen oder von einem Large Language Model stammt. Formal handelt es sich um eine binäre Klassifikationsaufgabe mit der Ausgabe einer Wahrscheinlichkeit P(LLM | Text) zwischen 0 und 1.

Im Unterschied zu Plagiatsdetektoren, die einen Text gegen einen Korpus bekannter Quellen abgleichen, arbeitet ein LLM-Detektor quellenlos: Er bewertet ausschließlich statistische, lexikalische und syntaktische Eigenschaften des Textes selbst. Die Entscheidung ist also keine Suche, sondern eine Mustererkennung.

Hinter dem LLM-Detektor von Plagiatsprüfer.de steht PlagAware, dieselbe Technologie, mit der über 20 deutsche Universitäten im offiziellen Prüfbetrieb arbeiten.

Eingabe und Ausgabe

  • Eingabe: ein Text (Satz, Absatz oder vollständige Arbeit)
  • Ausgabe: Wahrscheinlichkeit P(LLM) pro Satz und aggregiert für das Dokument
  • Zusatz: Konfidenzintervall, Klassifikations-Label (human / mixed / LLM)
  • Granularität: Satzebene, Absatzebene, Dokumentebene
  • Sprachen: Deutsch und Englisch, separate Modelle pro Sprache
Funktionsweise

Wie ein LLM-Detektor technisch arbeitet

Drei sich ergänzende Signal-Familien werden zu einer Gesamtkonfidenz zusammengeführt. Keine Familie reicht allein.

I

Statistische Eigenschaften

Perplexity misst, wie "überraschend" der Text aus Sicht eines Referenz-Sprachmodells ist. LLM-Texte haben oft eine auffällig niedrige Perplexity, sie wählen wahrscheinliche Wörter, statt risikofreudig zu formulieren.

Burstiness beschreibt die Varianz der Satzlängen und Komplexität. Menschen schreiben in Wellen, kurze und lange Sätze wechseln sich ab. LLMs produzieren tendenziell gleichmäßig mittellange Sätze.

Token-Verteilungen: Häufigkeit bestimmter Funktionswörter, Konjunktionen und Übergangsphrasen weicht messbar zwischen Mensch und LLM ab.

II

Klassifikatoren (ML)

Überwachtes Lernen: Ein neuronales Netz wird mit Hunderttausenden gelabelten Beispielen (menschlich vs. LLM-generiert) trainiert. Es lernt Merkmale, die kein Mensch explizit benennt.

Zero-Shot-Erkennung: Verfahren wie DetectGPT nutzen ein Referenzmodell, um zu testen, ob kleine Variationen am Text die Modell-Likelihood stark verändern. LLM-Texte sitzen in lokalen Maxima der Likelihood-Landschaft.

Ensembles: Mehrere Klassifikatoren stimmen ab, gewichtet nach historischer Verlässlichkeit auf dem jeweiligen Genre.

III

Stilometrische Analyse

Lexik: Wortschatzbreite (type-token-ratio), Frequenz seltener Wörter, idiomatische Wendungen. LLMs überdosieren bestimmte Lieblingswörter messbar.

Syntaxmuster: Häufigkeit von Nebensatz-Konstruktionen, Passivanteil, Satzanfänge. LLMs greifen zu wiederkehrenden Mustern.

Satzlängenvariation: mittlere Länge, Standardabweichung, Schiefe der Verteilung. Eine zu glatte Verteilung ist selbst ein Signal.

Modellabdeckung

Welche LLMs unser Detektor abdeckt

Ein LLM-Detektor ist nur so gut wie sein Trainingskorpus. Wir aktualisieren das Referenzkorpus laufend, sobald neue Modelle in messbarer Verbreitung auftreten. Aktuell abgedeckt:

  • OpenAI: GPT-4o, GPT-4.5, o3, o4-mini
  • Anthropic: Claude 4 Familie (Opus, Sonnet, Haiku)
  • Google: Gemini 2.x, Gemini 2.5 Pro
  • Meta: Llama 4 (alle Größen)
  • Mistral: Mistral Large, Mixtral
  • DeepSeek: DeepSeek-V3, DeepSeek-R1
  • Weitere: Qwen, Yi, Command R+, Phi

Auch ältere Modelle wie GPT-3.5, GPT-4 Turbo, Claude 3 oder Llama 3 werden zuverlässig erkannt, ihre Stilfingerprints sind sogar deutlicher als bei den neuesten Generationen.

"Die Frage 'Wurde dieser Text von einem KI-Modell geschrieben' ist mathematisch genauso eine Frage nach einer Wahrscheinlichkeitsverteilung wie die Frage 'Wird es morgen regnen'. Ein guter Erkenner liefert kalibrierte Wahrscheinlichkeiten, kein Schwarz-Weiß-Urteil."

, aus der internen Methoden-Dokumentation des Plagiatsprüfer-LLM-Detektors

Wahrscheinlichkeiten statt Wahrheiten

False Positives und False Negatives

Ein LLM-Detektor liefert nie ein binäres "Ja/Nein", sondern eine Wahrscheinlichkeit. Daraus ergeben sich zwei Fehlertypen:

  • False Positive: Ein menschlich verfasster Text wird fälschlich als LLM-Text klassifiziert. Risiko: besonders bei sehr formelhaften Texten (Methodikteile, juristische Schriftsätze, technische Dokumentation).
  • False Negative: Ein LLM-Text bleibt unentdeckt. Risiko: bei stark nachbearbeiteten oder durch Humanizer-Tools geglätteten Ausgaben.

Wir arbeiten mit Konfidenz-Schwellen: Erst ab einer Schwelle von 0,80 wird ein Satz im Bericht als "wahrscheinlich LLM" geflaggt, ab 0,95 als "sehr wahrscheinlich LLM". Werte darunter erscheinen als "unklar", nicht als Urteil.

Was steht im Bericht?

  • Gesamt-Wahrscheinlichkeit P(LLM) für das Dokument
  • Wahrscheinlichkeit pro Satz, farblich markiert
  • Konfidenzklasse (low / medium / high)
  • Verteilungs-Histogramm der Satz-Scores
  • Hinweise auf untypische Phrasen-Cluster
  • Empfehlung, nicht Urteil
Anwendungsfelder

KI-Detektion in der Praxis

Vier Welten, in denen LLM-Erkennung heute schon eine reale Entscheidungsgrundlage ist.

Akademisch

Bachelor-, Master- und Promotionsarbeiten werden vor der Abgabe geprüft, um zu verifizieren, dass eigene Textarbeit dokumentierbar bleibt. Dozierende nutzen Detektoren als Indikator, nicht als Beweismittel.

Journalistisch

Redaktionen prüfen Beiträge externer Autoren auf KI-Anteil, vor allem in Bereichen, in denen Quellenarbeit und eigene Recherche journalistischer Standard sind.

Juristisch (Gutachten)

In Verfahren zu Täuschungsverdacht werden LLM-Detektor-Berichte als Indiz beigezogen. Anerkannt sind nur Berichte mit transparenter Methodik, Konfidenzangabe und Wiederholbarkeit, exakt das, was unser Detektor liefert.

Redaktionell / SEO

Agenturen und Verlage prüfen Auftragstexte vor Veröffentlichung, weil Suchmaschinen wie Google in ihren Quality-Raters-Guidelines redaktionellen Mehrwert über reine LLM-Ausgaben stellen.

Bewerbungen und HR

Personalabteilungen prüfen Motivationsschreiben und Essays auf LLM-Anteil, oft im Kontext akademischer Stipendienvergabe oder bei internationalen Studiengängen.

Wissenschaftliches Publizieren

Verlage und Konferenzen verlangen zunehmend eine LLM-Selbstauskunft. Ein Detektor-Bericht dient als interne Plausibilitätsprüfung der eingereichten Manuskripte.

Wettrüsten

KI-Erkennung vs. Humanizer und Paraphraser

Seit Detektoren existieren, gibt es Tools, die den umgekehrten Weg gehen, sogenannte Humanizer oder Paraphraser. Sie nehmen LLM-Output und glätten gezielt jene statistischen Merkmale, die Detektoren ausnutzen: sie variieren Satzlängen, streuen seltene Wörter ein, brechen Funktionswortmuster.

Der Effekt ist real, aber begrenzt. Humanizer hinterlassen ihrerseits Spuren: unnatürliche Synonymdichten, untypische Burstiness-Profile, Cluster künstlich eingefügter Füllwörter. Moderne Detektoren werden gezielt auf solche Humanizer-Ausgaben trainiert, der Vorsprung wechselt regelmäßig die Seiten.

Unser Detektor wird quartalsweise auf neue Humanizer-Generationen nachtrainiert. Dadurch bleibt die Erkennungsrate auch nach Humanizer-Bearbeitung in einem Bereich, der für eine belastbare Indikation ausreicht. Den Bericht weisen wir ehrlich aus: liegt der Verdacht eines Humanizers vor, steht das im Konfidenzteil.

Typische Humanizer-Artefakte

  • Unnatürlich gleichmäßig verteilte Synonyme
  • Eingefügte Füllwörter ohne semantische Funktion
  • Überhöhter Anteil an Adverbien
  • Burstiness-Profil "zu menschlich, um echt zu sein"
  • Plötzliche Stilbrüche zwischen Absätzen
  • Inkonsistente Idiomatik (DE-typische Wendungen mitten in EN-Stilmustern)
Forschungsstand

Was die wissenschaftliche Community sagt

Die akademische Diskussion zur LLM-Erkennung verläuft entlang dreier Achsen: Erkennungsrate, Robustheit gegen Adversarial-Angriffe (Humanizer, Paraphrasen) und Bias-Fragen (z. B. Benachteiligung nicht-muttersprachlicher Autor:innen, deren menschlich verfasste Texte häufiger als LLM-Text klassifiziert werden).

Aktuelle Veröffentlichungen aus Computerlinguistik und ML-Forschung berichten Erkennungsraten zwischen 80 % und 99 % je nach Modellfamilie, Textlänge und Sprache. Konsens ist: kein Detektor ist perfekt, aber gut kalibrierte Detektoren liefern eine belastbare Indikation, sofern Konfidenz und Methodik transparent ausgewiesen werden.

Unser LLM-Detektor folgt diesem Konsens: keine harten Urteile, kalibrierte Wahrscheinlichkeiten, dokumentierte Schwellenwerte, getrennte Modelle für Deutsch und Englisch.

Methoden-Prinzipien unserer Implementierung

  • Wahrscheinlichkeiten statt binärer Urteile
  • Getrennte Modelle pro Sprache (DE / EN)
  • Ensemble aus statistischen, ML- und stilometrischen Komponenten
  • Quartalsweise Nachschulung auf aktuelle Modellgenerationen
  • Transparente Schwellenwerte im Bericht
  • Bias-Audits gegen Nicht-Muttersprachler-Texte
Tarife

Preise für die KI-Detektion

Mindestbestellwert 2,90 € pro Arbeit. Eine Normseite = 1.800 Zeichen inkl. Leerzeichen.

LLM-Detektor

Reine LLM-Erkennung.

0,29 € / Normseite
  • GPT-4o, Claude 4, Gemini 2.x, Llama 4, DeepSeek
  • Wahrscheinlichkeit pro Satz
  • PDF-Bericht in 15 Min.
LLM-Prüfung starten

Kombi: Plagiat + LLM

Beides in einem Bericht, 33 % günstiger.

0,39 € / Normseite
  • 70 Mrd. Quellen + LLM-Detektor
  • Plagiat- und LLM-Score getrennt
  • Empfohlen für akademische Arbeiten
Kombi-Paket starten

Plagiatsprüfung

Reiner Quellenabgleich.

0,29 € / Normseite
  • Abgleich mit 70 Mrd. Quellen
  • PDF-Bericht in 15 Min.
  • Markierte Passagen + Quellen
Plagiatsprüfung starten
Häufige Fragen

Häufige Fragen zur KI-Erkennung

Wie genau ist Ihr LLM-Detektor?

Auf Texten ab 500 Wörtern erreichen wir Erkennungsraten zwischen 92 % und 98 %, abhängig von Modellfamilie und Sprache. Wichtig ist: wir geben keine binären Urteile aus, sondern kalibrierte Wahrscheinlichkeiten. Ein Score von 0,87 heißt: 87 % Konfidenz, nicht "schuldig". Hinter dem System steht PlagAware, eingesetzt an über 20 deutschen Universitäten.

Funktioniert der Detektor in Deutsch und Englisch gleich gut?

Ja. Wir betreiben getrennte Modelle für Deutsch und Englisch, jeweils trainiert auf großen, sprachspezifischen Korpora. Die Erkennungsrate ist in beiden Sprachen vergleichbar, wobei englische Texte historisch leicht besser klassifizierbar sind, weil die meisten LLMs ein stärkeres English-Bias in der Trainingsverteilung haben.

Wie verhält sich der Detektor bei sehr kurzen Texten?

Bei Texten unter 200 Wörtern sinkt die Konfidenz deutlich. Das ist kein Bug, sondern Statistik: Perplexity, Burstiness und stilometrische Merkmale brauchen Stichprobenumfang. Wir geben für sehr kurze Texte daher zusätzlich ein Konfidenzintervall aus und kennzeichnen sie als "low confidence". Für eine belastbare Aussage empfehlen wir mindestens 500 Wörter.

Erkennen Sie auch ganz neue Modelle, die erst vor wenigen Wochen veröffentlicht wurden?

In der Regel ja. Aktuelle Modelle teilen den größten Teil ihrer statistischen Signatur mit ihren Vorgängern, weil sie ähnliche Trainingsdaten und Architekturen verwenden. Komplett neue Stilfingerprints werden quartalsweise in unser Referenzkorpus aufgenommen. Sollte ein brandneues Modell zwischen den Updates erscheinen, fällt es trotzdem meistens in eine der bestehenden Familien (OpenAI-like, Claude-like, Llama-like).

Was ist mit Texten, die ich mit einem Humanizer "menschlicher" gemacht habe?

Humanizer reduzieren die Erkennungsrate, sie eliminieren sie aber nicht. Unsere Detektoren werden gezielt auf Humanizer-Ausgaben mittrainiert, sodass typische Humanizer-Artefakte (unnatürliche Synonymdichte, eingefügte Füllwörter) selbst zum Signal werden. Im Bericht weisen wir explizit darauf hin, wenn der Verdacht auf nachträgliche Bearbeitung besteht.

Wie sieht der wissenschaftliche Forschungsstand zur LLM-Erkennung aus?

Die akademische Diskussion ist noch jung, aber aktiv. Konsens in Computerlinguistik und ML-Forschung: gut kalibrierte Detektoren erreichen verlässliche Indikationsqualität, kein Detektor liefert absolute Sicherheit, und Konfidenzangaben sind Pflicht. Wir folgen exakt diesem Konsens. Konkrete Studien benennen wir auf Anfrage gerne im Detail.

Werden bilinguale oder gemischte Texte korrekt verarbeitet?

Ja. Der Detektor erkennt Sprachwechsel auf Satzebene und wendet das passende sprachspezifische Modell an. Texte mit deutschen Fachzitaten in englischen Arbeiten (oder umgekehrt) werden korrekt segmentiert und gewichtet.

Kann ich das Ergebnis als juristisches Gutachten verwenden?

Der Bericht ist als Indiz mit transparenter Methodik, Konfidenzangabe und Wiederholbarkeit konzipiert, exakt das, was Gerichte für eine Verwertung verlangen. Das letzte Urteil über Echtheit oder Täuschung trifft selbstverständlich das Gericht oder die Prüfungskommission, nicht der Detektor.

Prüfen Sie Ihren Text mit der KI-Detektion von Plagiatsprüfer.de.

Ab 0,29 € pro Normseite. PDF-Bericht in 15 Minuten. Vertraulich. Wahrscheinlichkeiten statt Urteile.

Text prüfen lassen

Der LLM-Detektor hilft, KI-generierte Passagen früh zu erkennen. Wer Texte einreicht, sollte selbst KI-Anteile erkennen können, lange bevor ein Prüfer das tut. Der Detektor erkennen kann zwischen GPT, Claude und Gemini, mit Wahrscheinlichkeit pro Satz.

4,8 87 Bewertungen

Das sagen Studierende über den Plagiatsprüfer

★★★★★

„Hatte echt Bammel vor der Abgabe. Bericht kam nach 12 Minuten, zwei Stellen mit unsauberer Zitierweise waren markiert. Kurz nachgebessert und alles war gut."

Marie L.
★★★★★

„Für meine Bachelorarbeit genutzt. Preis war fair, der PDF-Bericht hat die Quellen direkt verlinkt, an denen ich noch umformulieren musste."

Tim H.
★★★★☆

„Funktioniert ohne Anmeldung, das war mir wichtig. Eine Stelle wurde als Treffer markiert, die eigentlich Zitat war. Mit zwei Klicks aber korrekt einstufbar."

Jana K.
★★★★★

„Schnell, anonym, günstig. Vorher beim Konkurrenten den dreifachen Preis bezahlt und die Ergebnisse waren nicht besser."

Sebastian P.
★★★★★

„Vor der Masterarbeit-Abgabe komplett gecheckt. Auch der KI-Anteil wurde sauber aufgeschlüsselt. Hat mir Nerven gespart."

Lea M.
★★★★★

„Einfacher Upload, klare Auswertung. Genau das geliefert, was ich für die Abgabe gebraucht habe."

Florian B.