Anthropic activeert prompt caching binnen Claude om kosten voor ontwikkelaars te drukken

.software
16.08.'24 10:10
3 min

Cédric Van Loon

Prompt caching, een nieuwe functie waarmee ontwikkelaars herhaaldelijk gebruikte context tussen API-aanroepen kunnen opslaan, is nu beschikbaar op de Anthropic API.

Prompt caching stelt klanten in staat om Claude van meer achtergrondinformatie en voorbeelduitvoer te voorzien, terwijl kosten tot 90 procent worden verlaagd en de latency met 85 procent afneemt voor lange prompts. Prompt caching is nu beschikbaar in openbare bèta voor Claude 3.5 Sonnet en Claude 3 Haiku. Ondersteuning voor Claude 3 Opus volgt binnenkort volgens Anthropic.

Toepassingen van prompt caching

Prompt caching is nuttig in situaties waarin veel context in één keer wordt verzonden en vervolgens herhaaldelijk in latere verzoeken wordt gebruikt. Voorbeelden zijn:

Conversatie-agents: Verlaag kosten en latentie bij langere gesprekken, vooral wanneer deze complexe instructies of documenten bevatten.
Codingsassistenten: Verbeter autocompletie en Q&A door een samenvatting van de codebasis in de prompt te bewaren.
Grote documenten verwerken: Verwerk complete lange teksten en afbeeldingen zonder toename van responstijd.
Gedetailleerde instructies: Deel uitgebreide instructies en voorbeelden om Claude’s reacties te verfijnen, met ruimte voor tientallen hoogwaardige voorbeelden dankzij caching.
Agentic search en toolgebruik: Verbeter prestaties in scenario’s die meerdere tool-aanroepen en iteratieve veranderingen vereisen.
Interactie met boeken, papers en andere lange content: Integreer volledige documenten in de prompt en laat gebruikers hier vragen over stellen.

Vroege gebruikers rapporteren aanzienlijke verbeteringen in snelheid en kostenbesparing, variërend van het opnemen van volledige kennisbanken tot multi-turn gesprekken. Latentie en kosten worden sterk verminderd dankzij prompt caching, met een vermindering van 90 procent in kosten en 79 procent in latency voor prompts van 100.000 tokens.

Claude 3.5 Sonnet onttroont GPT-4 als best presterende LLM

Prijsstructuur voor cached prompts

Cached prompts worden geprijsd op basis van het aantal tokens dat wordt opgeslagen en de frequentie van gebruik. Het opslaan van content kost 25 procent meer dan de standaard prijs per token, terwijl het hergebruik ervan aanzienlijk goedkoper is, tegen slechts 10 procent van de standaard prijs.

Claude 3.5 Sonnet biedt bijvoorbeeld een context window van 200.000 tokens en rekent 3 dollar per miljoen tokens voor invoer, met cache schrijfkosten van 3,75 dollar per miljoen tokens en cache leeskosten van 0,30 dollar per miljoen tokens. Claude 3 Haiku biedt de snelste en meest kostenefficiënte optie met invoerkosten van 0,25 dollar per miljoen tokens en cache leesprijzen van 0,03 dollar per miljoen tokens.

Anthropic zet hiermee in op kostenbesparing en efficiëntie voor gebruikers van hun API’s, met een duidelijke focus op geavanceerde AI-modellen zoals Claude.