whichllm beantwortet eine trügerisch schwierige Frage der lokalen KI: Welches Modell und welche Quantisierung liefern wahrscheinlich die beste nützliche Qualität auf diesem bestimmten Computer? Es erkennt GPU, CPU, RAM und Speicher, sammelt aktuelle Hugging Face-Kandidaten, schätzt die Laufzeitanpassung und die Generierungsgeschwindigkeit und kombiniert diese Einschränkungen dann mit Benchmark-Beweisen. Das Ergebnis ist ein geordneter Ausgangspunkt – kein Versprechen, dass das erste Modell für jede Eingabeaufforderung das Beste ist.

Official whichllm terminal demonstration showing hardware-aware local model recommendations — Offizielle whichllm-Demonstration. Die nützliche Ausgabe ist nicht nur ein Modellname: Passformtyp, Gedächtnis, geschätzte Geschwindigkeit, Punktzahl und Evidenzkontext helfen bei der Erläuterung der Empfehlung. Bildquelle: Projekt-Repository.

Was whichllm anders macht

Ein einfacher Modellwähler fragt, wie viele Parameter in den VRAM passen. whichllm behandelt dies als nur eine Einschränkung. Die Dokumentation beschreibt eine Pipeline, die beliebte, kürzlich geänderte und kuratierte Modelle von Hugging Face abruft; gruppiert verwandte Repositories in Modellfamilien; wertet verfügbare Quantisierungen aus; schätzt Gewichte, KV-Cache, Aktivierungen und Framework-Overhead; prüft die Voll-GPU-, Teil-Offload- oder CPU-Passform; Anschließend werden die Kandidaten anhand normalisierter Benchmark-Beweise eingestuft.

Dies ist wichtig, da die größte ausführbare Datei nicht automatisch die beste Wahl ist. Ein neueres 27B-Modell kann ein älteres 32B-Modell übertreffen, ein Mix-of-Experts-Modell kann schneller generieren, als seine Gesamtparameterzahl vermuten lässt, und ein Modell, das technisch passt, lässt möglicherweise zu wenig Spielraum für einen Desktop, einen Kontext-Cache oder eine Laufzeit. whichllm legt Kontrollen für diese Kompromisse offen, anstatt sie hinter einem „empfohlenen“ Abzeichen zu verstecken.

Schneller Start und der sicherere erste Befehl

uvx whichllm@latest

# Konservativer erster Durchgang: volle GPU-Ausstattung, nutzbare Geschwindigkeit, 1 GB Headroom
uvx whichllm@latest --gpu-only --speed nutzbar --vram-headroom 1 GB

# Hardware vor dem Kauf simulieren
uvx whichllm@latest --gpu "RTX 4090"

# Upgrade-Kandidaten vergleichen
uvx whichllm@neuestes Upgrade „RTX 4090“ „RTX 5090“ „H100“

Die Standardeinstufung ist absichtlich ehrgeizig: Sie umfasst möglicherweise Near-Edge-VRAM-Anpassungen und teilweise RAM-Offload. Der Safer-Pick-Befehl des Projekts ist ein besserer Anfangsfilter für Benutzer, die Wert auf vorhersehbare Reaktionsfähigkeit legen. Wenn eine andere Laufzeit immer noch nicht genügend Speicher meldet, erhöhen Sie den Headroom, verkürzen Sie den angeforderten Kontext, wählen Sie eine kleinere Quantisierung oder überprüfen Sie die VRAM-Nutzung im Hintergrund, anstatt davon auszugehen, dass der Schätzer falsch ist.

So funktioniert die Empfehlungspipeline

Bühne	Was whichllm auswertet	Warum es die Antwort ändert
Hardwareerkennung	NVIDIA, AMD, Intel, Apple Silicon, CPU-Funktionen, RAM und freie Festplatte	Backend, einheitlicher Speicher und Bandbreite unterscheiden sich selbst bei ähnlich beworbenen Speichergrößen
Modellentdeckung	Beliebte und aktuelle Textgenerierungs-/GGUF-Repositories, kuratierte Frontier-IDs und Vision-Kandidaten auf Anfrage	Eine statische Liste veraltet schnell und kann dazu führen, dass brauchbare Konvertierungen fehlen
Familiengruppierung	Metadaten des Basismodells und normalisierte Repository-Namen	Verhindert, dass viele Umpackungen einer Familie die Ergebnistabelle überfüllen
Speicherschätzung	Gewichte, KV-Cache, Aktivierungsspeicher und Framework-Overhead	Eine Datei, die auf die Festplatte passt oder fast mit dem VRAM übereinstimmt, kann zur Laufzeit dennoch fehlschlagen
Geschwindigkeitsschätzung	Speicherbandbreite, Quantisierung, Backend, Anpassungstyp und aktive MoE-Parameter	„Ausführbar“ kann unbrauchbar langsam bedeuten, wenn Schichten in den System-RAM gelangen
Evidenzranking	Benchmark-Score, Aktualität, Übereinstimmungsqualität, Quantisierung, Passform, Quellenvertrauen und Beliebtheit	Trennt direkte Beweise von übernommenen oder vom Uploader gemeldeten Ansprüchen

Lesen der Beweisetiketten

whichllm führt aktuelle Quellen wie LiveBench, Artificial Analysis und Aider mit älteren eingefrorenen Quellen wie Open LLM Leaderboard v2 und Chatbot Arena zusammen. Die Bewertungen werden normalisiert und ältere Beweise werden durch die Modelllinie herabgestuft, sodass eine veraltete Bewertung nicht stillschweigend eine neuere Generation schlagen sollte. Das ist nützlich, aber zusammengeführte Benchmarks stellen immer noch den Aufgabenmix einer anderen Person dar.

Beweise	Bedeutung	Wie man es benutzt
direkt	Exakte unabhängige Modellübereinstimmung	Beste verfügbare Ranking-Beweise, aber dennoch Validierung Ihrer Arbeitsbelastung
Variante	Suffix-entfernte oder Anweisungsvariantenübereinstimmung	Angemessener Stellvertreter; Das Verhalten kann nach der Abstimmung oder Quantisierung unterschiedlich sein
base_model	Beweise, die durch Metadaten der Modellkartenbasis übernommen werden	Als richtungsgebunden behandeln, insbesondere bei stark fein abgestimmten Gabeln
line_interp	Größenbewusste Interpolation innerhalb einer Modellfamilie	Nützlich für die Entdeckung, schwach für abschließende Kauf- oder Bereitstellungsentscheidungen
selbst_berichtet	Vom Uploader bereitgestellte Bewertung	Stark reduziert; Suche nach unabhängiger Reproduktion
keine	Keine brauchbare Benchmark-Übereinstimmung	Lesen Sie den numerischen Rang nicht als gemessene Aufgabenqualität

Das Projekt weist auch einige verdächtige Vererbungen zurück, wenn die Parameteranzahl eines Kandidaten zu weit von seiner Familienreferenz abweicht. Dadurch werden Fehler reduziert, etwa wenn ein kleiner Entwurfskopf den Benchmark einer viel größeren Basis übernimmt, aber keine automatisierte Benennungs- und Metadaten-Pipeline kann jeden ungewöhnlichen Fork identifizieren.

Passform, Kontext und Quantisierung sind gekoppelt

Modellgewichte sind nur der Anfang der Speichernutzung. Ein längerer Kontext erhöht den KV-Cache-Bedarf; gleichzeitige Anforderungen vervielfachen den Laufzeitstatus; Vision-Eingaben und große Chargen erhöhen den Druck; Desktop-Anzeige-Workloads verbrauchen VRAM; und die Framework-Zuweisung kann den Speicher fragmentieren. Eine für einen 4K-Kontext erstellte Empfehlung ist kein Beweis dafür, dass dieselbe Quantisierung für einen 64K-Kontext oder mehrere Benutzer geeignet ist.

Die Quantisierung führt zu einem zweiten Kompromiss. Weniger Bits verringern in der Regel die Speicherkapazität und können den Durchsatz erhöhen, der Qualitätsverlust ist jedoch nicht einheitlich bei allen Architekturen, Aufgaben oder Quantisierern. whichllm wendet einen Quantisierungsnachteil als Teil der Rangfolge an, dennoch sollten Benutzer mindestens zwei benachbarte Varianten – häufig eine konservative mittlere Quantisierung und einen kleineren Fallback – genau an den Eingabeaufforderungen vergleichen, die sie ausführen möchten.

Ein praktischer Workflow für die Auswahl lokaler Modelle

Schreiben Sie zuerst den Job. Geben Sie Chat, Codierung, Extraktion, Vision, mehrsprachige Arbeit oder Mathematik an; Zielkontext; akzeptable Latenz; und ob Daten offline bleiben müssen.
Nehmen Sie die Maschine auf. Erfassen Sie die genaue GPU und den Speicher, den verfügbaren RAM, das Betriebssystem, den Treiber/Backend, die freie Festplatte und die GPU-Nutzung im Hintergrund.
Erstellen Sie eine konservative Auswahlliste. Beginnen Sie mit --gpu-only --speed nutzbar --vram-headroom 1 GB. Benutzen --profile, --context-length und --quant um der tatsächlichen Arbeitsbelastung gerecht zu werden.
Überprüfen Sie das Vertrauen. Bevorzugen Sie direkte oder abweichende Beweise, wenn die Ergebnisse nahe beieinander liegen. Beachten Sie Schnappschussdaten, geschätzte Geschwindigkeitsmarkierungen und Warnungen vor teilweiser Entladung.
Führen Sie drei Kandidaten aus. Testen Sie die oberste Empfehlung, ein angrenzendes Modell oder eine angrenzende Quantisierung und eine kleinere schnelle Basislinie. Ein einziges Ergebnis kann die Kosten-Qualitäts-Grenze nicht aufzeigen.
Verwenden Sie einen privaten Evaluierungssatz. Beziehen Sie repräsentative Eingabeaufforderungen, Randfälle, Ablehnungserwartungen, erforderliche Sprachen, strukturierte Ausgabeschemata und den Abruf langer Kontexte ein.
Messung nach Korrektur. Verfolgen Sie erfolgreiche Antworten, menschliche Korrekturzeit, Token pro Sekunde, Latenz beim ersten Token, Spitzenspeicher, Ladezeit und Energie, sofern relevant.
Frieren Sie die Bereitstellung ein. Speichern Sie das genaue Repository, die Revision, den Dateinamen, die Quantisierung, die Laufzeit, die Kontexteinstellungen und die Eingabeaufforderungsvorlage. Ein Modellname allein ist nicht reproduzierbar.

Nützliche Befehle, die über das Standardranking hinausgehen

Ziel	Befehlsmuster	Entscheidung, die es unterstützt
Überprüfen Sie die aktuelle Hardware	`whichllm Hardware`	Überprüfen Sie die Erkennung, bevor Sie den Eignungsschätzungen vertrauen
Fordern Sie eine vollständige GPU-Residenz	`whichllm --gpu-only`	Vermeiden Sie langsame PCIe-/System-RAM-Offload-Kandidaten
Legen Sie eine Geschwindigkeitsuntergrenze fest	`whichllm – Geschwindigkeit nutzbar` oder `--min-speed 20`	Entfernen Sie technisch lauffähige, aber betrieblich langsame Optionen
Planen Sie ein Modell ein	`whichllm Plan „Modellname“`	Schätzen Sie, welche Hardware und Quantisierung das Ziel benötigt
Maschinen vergleichen	`whichllm Upgrade „GPU A“ „GPU B“`	Sehen Sie, wie ein Kauf die Kandidatengrenze verändert
Auswahl automatisieren	`whichllm --top 1 --json`	Geben Sie Modell-IDs ein und passen Sie Metadaten in Skripte ein
Starten Sie einen lokalen Chat	`whichllm ausgeführt`	Laden Sie ein ausgewähltes Format herunter und testen Sie es in einer isolierten Umgebung

Wobei whichllm irreführend sein kann

Die geschätzte Geschwindigkeit ist kein Maßstab für Ihre Maschine. Backend-Versionen, Uhren, thermische Grenzwerte, schnelle Verarbeitung und Offload-Konfiguration können die Leistung beeinträchtigen.
Die Gesamtqualität verbirgt Aufgabenfehler. Eine hohe allgemeine Bewertung kann möglicherweise nicht Ihre Sprache, Codebasis, Retrieval-Korpus, JSON Zuverlässigkeit oder Sicherheitsrichtlinie vorhersagen.
Repository-Metadaten können unvollständig sein. Parameteranzahl, Basismodell-Links, Lizenzen und Konvertierungsqualität werden auf Hugging Face nicht einheitlich dokumentiert.
Live-Quellen können ausfallen oder ihre Form ändern. Das Tool speichert Daten zwischen und kann auf kuratierte Snapshots zurückgreifen; Lesen Sie immer die gezeigte Frische und Zuversicht.
Das Herunterladen ist eine Supply-Chain-Aktion. Überprüfen Sie den Repository-Eigentum, die Dateien, die Remote-Code-Anforderungen, die Lizenz und die Hashes, bevor Sie Modell- oder Python-Artefakte ausführen.
Die Kapazität für einen einzelnen Benutzer reicht nicht aus. Parallelität, Stapelverarbeitung, Kontextwachstum und Verfügbarkeitsanforderungen erfordern einen echten Lasttest.

Alternativen und wann sie besser sind

Option	Beste Passform	Kompromiss versus whichllm
LM Studio	GUI-First-Erkennung, Download und Desktop-Chat	Einfachere Interaktion; weniger geeignet für transparente, skriptfähige Ranking-Pipelines
Ollama	Einfache lokale Modellpaketierung, Bereitstellung und Anwendungsintegration	Hervorragender Laufzeit-Workflow, die Modellauswahl bleibt jedoch oft manuell
llama.cpp	Feinkörnige GGUF-Laufzeitsteuerung und direkte Leistungstests	Mehr operative Kontrolle; Es sind mehr Kenntnisse erforderlich, um Modelle in die engere Auswahl zu nehmen
Artificial Analysis	Vergleich der Intelligenz, Geschwindigkeit und Qualitätsnachweise gehosteter/offener Modelle	Umfassendere Benchmark-Analyse; ersetzt nicht die maschinenspezifische lokale Anpassungsschätzung
LMArena	Menschliche Präferenzsignale und parallele Modellentdeckung	Nützliche Präferenznachweise; kein VRAM, keine Quantisierung oder kein lokaler Geschwindigkeitsplaner
Manuelle Benchmark-Matrix	Hochkarätige Teams mit einer stabilen privaten Arbeitsbelastung	Relevanteste Beweise, aber teuer in der Erstellung und Aktualisierung

Entscheidungs-Scorecard

Notieren Sie für jeden Kandidaten die Erfolgsquote der Aufgabe, die Korrekturminuten, die Latenz beim ersten Token, die Generierung von Tokens pro Sekunde, den VRAM/RAM-Spitzenwert, die Ladezeit, den verwendeten Kontext, die Gültigkeit der strukturierten Ausgabe, die Lizenz, die Modellherkunft und den Evidenzgrad. Gewichten Sie die Metriken vor dem Testen. Ein Programmierteam priorisiert möglicherweise die Genauigkeit des privaten Repositorys und die Zuverlässigkeit des JSON/Tools, während ein Laptop-Assistent möglicherweise den Speicherbedarf, den Akku und die interaktive Geschwindigkeit priorisiert.

Häufig gestellte Fragen

Lädt whichllm ein Modell herunter, wenn ich Empfehlungen anfordere?

Der Ranking-Flow ruft Modellmetadaten ab und speichert sie zwischen, anstatt jeden Kandidaten herunterzuladen. Die laufen Der Workflow kann ein ausgewähltes Modell herunterladen und starten. Überprüfen Sie daher den Speicherplatz, die Repository-Vertrauenswürdigkeit und die Laufzeitabhängigkeiten, bevor Sie es verwenden.

Passt das Ergebnis Nummer eins garantiert?

Kein Schätzer kann jede Laufzeitkonfiguration garantieren. Lassen Sie Spielraum, überprüfen Sie die erkannte Hardware und den erkannten Kontext und testen Sie dann die genaue Datei und das Backend. Verwenden Sie Voll-GPU- und Geschwindigkeitsfilter, wenn es auf Vorhersagbarkeit ankommt.

Kann es bei der Auswahl einer GPU hilfreich sein?

Ja. GPU-Simulation, planen und Upgrade kann Kandidaten-Hardware vergleichen. Behandeln Sie die Ausgabe als Planungsbeweis und bestätigen Sie Preis, Leistung, Fahrwerk, Fahrer und tatsächliche Benchmark-Einschränkungen separat.

Unterstützt es Apple Silicon und reine CPU-Systeme?

Das Projekt dokumentiert die Erkennung von Apple Silicon, NVIDIA, AMD, Intel und CPU. Apple Silicon und die reine CPU-Rangliste sind zur Laufzeitstabilität auf GGUF beschränkt. Die tatsächliche Leistung variiert immer noch je nach Chip, Speicherbandbreite und Backend-Build.

Kann ich das Ergebnis in der Automatisierung verwenden?

Ja. Die Ausgabe von JSON umfasst Modellidentität, Anpassung, geschätzten Speicher und Geschwindigkeitsmetadaten. Pin-Versionen und Validierung hinzufügen, da Live-Modellinventare und Benchmark-Daten das Top-Ergebnis verändern können.

Ist whichllm selbst ein Modellläufer?

Sein Hauptwert ist Auswahl und Planung. Die laufen Der Befehl kann eine isolierte Umgebung erstellen und unterstützte Laufzeiten aufrufen, während dedizierte Tools wie Ollama, llama.cpp oder ein Serving-Stack für die laufende Bereitstellung möglicherweise besser geeignet sind.

Offizielle Quellen

Zuletzt überprüft am 25. Juli 2026. Modellbestände, Benchmark-Snapshots, Laufzeitkompatibilität und Hardwarepreise ändern sich; Führen Sie die aktuelle CLI erneut aus und validieren Sie das genaue Modellartefakt, bevor Sie eine Entscheidung treffen.

whichllm

Tags

Product Preview

About whichllm

Was whichllm anders macht

Schneller Start und der sicherere erste Befehl

So funktioniert die Empfehlungspipeline

Lesen der Beweisetiketten

Passform, Kontext und Quantisierung sind gekoppelt

Ein praktischer Workflow für die Auswahl lokaler Modelle

Nützliche Befehle, die über das Standardranking hinausgehen

Wobei whichllm irreführend sein kann

Alternativen und wann sie besser sind

Entscheidungs-Scorecard

Häufig gestellte Fragen

Lädt whichllm ein Modell herunter, wenn ich Empfehlungen anfordere?

Passt das Ergebnis Nummer eins garantiert?

Kann es bei der Auswahl einer GPU hilfreich sein?

Unterstützt es Apple Silicon und reine CPU-Systeme?

Kann ich das Ergebnis in der Automatisierung verwenden?

Ist whichllm selbst ein Modellläufer?

Offizielle Quellen

Ready to try whichllm?

Quick Info

Share This Tool

Submit it to AI Dreamhub

Related Tools

LMArena

Artificial Analysis

LiveCodeBench

Price Per Token