SOTA LLM-Preisvergleich
Ein API-KEY wird benötigt, um PDFs in PapersGPT mit Online-LLMs zu chatten
Fast alle gängigen LLMs (Large Language Models) werden in PapersGPT unterstützt, und der LLM-API-KEY sollte von Ihnen bereitgestellt oder gekauft werden. Welches LLM für Sie am besten geeignet ist und welches das beste Preis-Leistungs-Verhältnis bietet – das Folgende gibt Ihnen einige Referenzinformationen.
Was ist ein Token?
Bevor wir einen Preisvergleich anstellen, müssen wir zunächst klären, was ein Token ist. Im Bereich der künstlichen Intelligenz und der natürlichen Sprachverarbeitung ist ein Token die grundlegende Texteinheit nach der Segmentierung. Die Anzahl der englischen Wörter, die in einem Token enthalten sind, ist nicht festgelegt. Im Englischen sind gebräuchliche kurze Wörter wie "the" oder "and" ein Token, während längere Wörter wie "hesitation" ebenfalls ein Token sind. Als grobe Schätzung entspricht ein englisches Token im Durchschnitt etwa 3–5 Buchstaben.
Was ist das SOTA-Modell (State Of The Art)?
Das "SOTA-LLM-Modell" ist ein sich ständig bewegendes Ziel. Und es gibt kein einziges, universell erklärtes "SOTA"-LLM, das alle anderen in jeder einzelnen Metrik definitiv übertrifft. Stattdessen hängt das, was als SOTA gilt, stark von spezifischen Aufgaben, Benchmarks und Bewertungskriterien ab. Verschiedene Modelle glänzen in unterschiedlichen Bereichen. Bis August 2025 gehören jedoch zu den am weitesten verbreiteten und anerkanntesten erstklassigen intelligenten Modellen:
GPT 5, o1/2/3/4, GPT 4o (OpenAI): Dies ist wohl das am weitesten anerkannte und einflussreichste SOTA-Modell. Es brilliert in einer breiten Palette von Aufgaben, einschließlich logischem Denken, Programmierung, kreativem Schreiben, komplexer Anweisungsbefolgung und Allgemeinwissen. Seine Fähigkeiten sind enorm.
Gemini (Google): Durch die Nutzung des leistungsstarken Technologieproduktentwicklungssystems von Google, massiver Rechenchips und riesiger Mengen hochwertiger Daten hat Gemini Pro 2.5 schnell die Spitze der großen Modellbewertungsranglisten erobert. Es entwickelte sich sehr schnell, war sehr erschwinglich und hatte eine Reihe kostenloser Testpläne, wodurch es einen großen Marktanteil eroberte.
Claude (Anthropic): Ein sehr professionelles Modell, das den Schwerpunkt auf praktische Benutzerfreundlichkeit legt. In einigen komplexen Denkaufgaben, insbesondere im Bereich des Vibe Coding, ist es das beste und seine Wirkung übertrifft andere Modelle auf dem Markt bei weitem.
Grok 4 (xAI): Dank der finanziellen Ressourcen, der starken Anziehungskraft und der Ausführungskraft des reichsten Mannes der Welt, Elon Musk, war die Grok-4-Modellreihe ein großer Erfolg und befindet sich im Wesentlichen an der Spitze der Ranglisten großer Modellbewertungen.
Die intelligentesten zweitrangigen LLMs, die sich der ersten Reihe nähern und sich schnell entwickeln, umfassen:
DeepSeek: Anfang 2025, dank des erfolgreichen Starts von DeepSeek V3/R1, katapultierte sich DeepSeek aus der Bedeutungslosigkeit zu einem weltweit führenden Unternehmen in der Entwicklung großer Modelle. Sein Hauptverkaufsargument ist seine Kosteneffizienz, die deutlich niedriger ist als bei vergleichbaren Produkten mit ähnlicher Leistung. Seine Modelle sind ebenfalls hochintelligent und erreichen fast modernste Leistung. Darüber hinaus ermöglicht ihr vollständig quelloffenes Modell eine einfache Anpassung und Bereitstellung, was die Eintrittsbarriere für die Einführung großer Modelle erheblich senkt.
Mistral: Kommt aus Europa, bekannt für seine Mehrsprachigkeit und Open-Source-Natur. Die neueste Medium-Serie hat in einigen Bewertungen sehr gute Ergebnisse erzielt und bietet einzigartige Unterstützung für Minderheitensprachen in europäischen Ländern wie Französisch, Deutsch und Italienisch.
Kimi: kimi-k2 ist ein neues Open-Source-Modell, das im Juli 2025 erschienen ist. Es hat in einer Reihe von Bewertungen sehr gute Ergebnisse erzielt, insbesondere in den Nutzungsszenarien Programmierung und Agent, wo seine Vorteile deutlicher sind.
Es gibt viele Bewertungsranglisten für LLMs. Hier wird lmarena.ai empfohlen. Sein Hauptmerkmal ist die Verwendung tatsächlicher und relativ subjektiver manueller Bewertungen als Standard. In tatsächlichen Gesprächen und Nutzungsszenarien bewerten Menschen die teilnehmenden Black-Box-LLMs manuell.
Welches ist das kostengünstigste Modell?
Derzeit schneiden im Szenario des Lesens von Arbeiten die meisten SOTA- oder nahezu SOTA-Modelle sehr gut ab, es sei denn, die Arbeit ist sehr lang oder enthält eine große Anzahl von Diagrammen usw. Daher ist es sehr notwendig, ein LLM mit guter Kosteneffizienz zu wählen. Nachfolgend finden Sie die neuesten SOTA-LLM-API-Preise, die ich bis August 2025 zusammengestellt habe.
| Provider | Model | Input Token Price | Output Token Price |
|---|---|---|---|
| OpenAI | gpt-5.1 | $1.25 | $10.00 |
| gpt-5 | $1.25 | $10.00 | |
| gpt-5-mini | $0.25 | $2.00 | |
| gpt-5-nano | $0.05 | $0.40 | |
| gpt-5-chat | $1.25 | $10.00 | |
| gpt-4.1 | $2.00 | $8.00 | |
| gpt-4.1-mini | $0.40 | $1.60 | |
| gpt-4.1-nano | $0.10 | $0.40 | |
| gpt-4o | $2.50 | $10.00 | |
| gpt-4o-mini | $0.15 | $0.60 | |
| o4-mini | $1.10 | $4.40 | |
| o3-mini | $1.10 | $4.40 | |
| o1-mini | $1.10 | $4.40 | |
| Gemini | Gemini 3 Pro Preview | $2 | $12 |
| 2.5 Pro | $1.25 | $10 | |
| Flash Latest | $0.3 | $2.5 | |
| Flash Lite Latest | $0.1 | $0.4 | |
| 2.5 Flash | $0.30 | $2.5 | |
| 2.5 Flash-Lite | $0.1 | $0.4 | |
| 2.0 Flash | $0.1 | $0.4 | |
| 2.0 Flash-Lite | $0.075 | $0.3 | |
| Claude | Sonnet 4.5 | $3 | $15 |
| Opus 4.1 | $15 | $75 | |
| Sonnet 4 | $3 | $15 | |
| Haiku 3.5 | $0.8 | $4 | |
| Opus 4 | $15 | $75 | |
| Opus 3 | $15 | $75 | |
| Sonnet 3.7 | $3 | $15 | |
| Haiku 3 | $0.25 | $1.25 | |
| xAI | grok-4-0709 | $3 | $15 |
| DeepSeek | Chat / Reasoner | $0.28 | $0.42 |
| Qwen | Qwen-Max | $1.6 | $6.4 |
| Qwen-Plus | $0.4 | $1.2 | |
| Qwen-Flash | $0.05 | $0.4 | |
| qwen3-235b-a22b-thinking-2507 | $0.7 | $8.4 | |
| qwen3-235b-a22b-instruct-2507 | $0.7 | $2.8 | |
| qwen3-30b-a3b-thinking-2507 | $0.2 | $2.4 | |
| qwen3-30b-a3b-instruct-2507 | $0.2 | $0.8 | |
| Mistral | Medium 3 | $0.4 | $2 |
| Small 3.2 | $0.1 | $0.3 | |
| Large | $2 | $6 | |
| Z.ai | GLM 4.6 | $0.6 | $2.2 |
| Kimi | kimi-k2-thinking | $0.6 | $2.5 |
| kimi-k2-0711-preview | $0.6 | $2.5 | |
| kimi-k2-turbo-preview | $2.4 | $10 |
