Med spridningen av AI-datacenter och tillhörande bearbetningskostnader är det nu algoritmernas effektivitet som står i fokus, och ingen språkmodell verkar göra det bättre än DeepSeek. Dess modeller är open source och att träna dem kostar mycket mindre än OpenAI:s ChatGPT eller Googles Gemini.
Den nyligen tillkännagivna DeepSeek-OCR-modellen är ett utmärkt exempel på inlärningseffektivitet. Genom att använda optisk mappning kan den komprimera extremt långa dokument genom att konvertera dem till bilder med en 97% igenkänningsprecision vid ett komprimeringsförhållande som är lägre än 10x.
Genom att använda avancerad kodare och avkodare kan mer än nio tokens med dokumenttext konverteras till en enda visuell token, vilket kraftigt minskar de dataresurser som krävs för att bearbeta innehållet. Även med 20x komprimeringsgrad kan det nya DeepSeek-OCR-systemet uppnå 60% noggrannhet vid optisk igenkänning, vilket är något helt nytt.
Tack vare de nya AI-komprimeringsalgoritmerna kan DeepSeek-OCR lära sig av vetenskaplig eller historisk text som bearbetas av en enda Nvidia A100 GPU i ett datacenter med en hastighet på 200 000 sidor per dag. Ett A100-kluster med 20 noder kan därmed bearbeta 33 miljoner dokumentsidor dagligen, vilket innebär ett paradigmskifte inom texttung LLM-inlärning. Enligt OmniDocBench-rankingen slår DeepSeek-OCR andra populära lösningar som GOT-OCR2.0 eller MinerU2.0 med hästlängder när det gäller antalet vision tokens som används per sida.
De nya DeepEncoder-algoritmerna kan hantera en rad olika dokumentstorlekar och upplösningar utan att göra avkall på hastighet eller noggrannhet, medan DeepSeek3B-MoE-A570M-avkodaren bygger på den så kallade mixture-of-experts-arkitekturen som fördelar kunskapen över de specialiserade modeller som behövs för varje OCR-uppgift. Som ett resultat kan DeepSeel-OCR bearbeta komplexa dokument med grafer, vetenskapliga formler, diagram eller bilder, även när de är skrivna på flera språk.
För att uppnå en sådan skala och noggrannhet gick DeepSeek igenom 30 miljoner sidor i PDF-format (Portable Document Format) skrivna på nästan 100 språk, vilket inkluderade alla kategorier som finns, från tidningar och vetenskaplig handstil till läroböcker och doktorsavhandlingar. Även om hastigheten och effektiviteten i den visuella tokeniseringen som uppnås med det nya DeepSeek-OCR-systemet är obestridlig, återstår det att se om detta kommer att leda till att språkmodellernas prestanda förbättras när det gäller faktiska resonemang jämfört med det nuvarande textbaserade tokenparadigmet.
Källa(n)
Topp 10...
» Topp 10: Bästa bärbara allround/multimediadatorerna
» Topp 10: Bästa bärbara speldatorerna
» Topp 10: Bärbara budget/kontorsdatorer
» Topp 10: Bästa bärbara kontors/premiumdatorerna
» Topp 10: Bärbara arbetsstationer
» Topp 10: De bästa små/kompakta bärbara datorerna
» Topp 10: Bästa ultrabooks
» Topp 10: Bästa hybriddatorerna
» Topp 10: Bästa surfplattorna
» Topp 10: Marknadens bästa smartphones