Ilustrácia zobrazujúca proces, v ktorom AI model transformuje šumavý blok textu na čistý, zrozumiteľný výstup cez viacero krokov úprav.
Ilustrácia zobrazujúca proces, v ktorom AI model transformuje šumavý blok textu na čistý, zrozumiteľný výstup cez viacero krokov úprav.

Rýchlejšia generácia textu s kompromisom na kvalite môže byť užitočná pre kolegu vývojára, ktorý sleduje pokroky v AI.

Google spustil DiffusionGemma: rýchlejší, ale menej presný AI Priebeh príbehu a hlavné fakty

Google predstavil nový experimentálny jazykový model s názvom DiffusionGemma, ktorý zásadne odchádza od bežného spôsobu generovania textu. Na rozdiel od tradičných autoregresívnych modelov, ktoré tvoria odpoveď token po tokene, DiffusionGemma najprv vytvorí celý blok textu plný šumu a následne ho postupne upravuje a čistí, až kým nedosiahne zmysluplný výstup. Tento prístup umožňuje paralelné spracovanie až 256 tokenov naraz, čo zásadne zvyšuje rýchlosť generovania.

Model je postavený na architektúre Mixture-of-Experts s 26 miliardami parametrov, pričom pri inferencii sa aktívnych nachádza približne 3,8 miliardy. Google uvádza, že na výkonných GPU ako NVIDIA H100 dokáže model generovať viac než 1 000 tokenov za sekundu, čo ho robí vhodným pre scenáre s nízkou súbežnosťou, kde je kľúčová okamžitá odozva. Po kvantizácii má model pamäťovú náročnosť okolo 18 GB VRAM, čo otvára cestu aj ku spusteniu na výkonnejších spotrebiteľských kartách.

Google jasne upozorňuje, že tento prístup má kompromis: kvalita textu nie je na úrovni štandardných modelov ako Gemma 4. Výstupy môžu byť menej stabilné a menej vybrúsené, najmä pri zložitých alebo nuansovaných úlohách. Preto je model určený skôr pre štruktúrované úlohy ako dopĺňanie kódu, generovanie JSON alebo riešenie logických úloh, kde je dôležitejšia konzistencia a rýchlosť než dokonalý štýl. DiffusionGemma je dostupný ako open-source pod licenciou Apache 2.0 pre vývojárov a výskumníkov.

Fakty

  • Google predstavil experimentálny jazykový model DiffusionGemma v júni 2026.
  • Model generuje text naraz cez postupné čistenie šumu, nie po jednotlivých toknoch.
  • Dosahuje viac než 1 000 tokenov za sekundu na NVIDIA H100.
  • Používa architektúru Mixture-of-Experts s 26 miliardami parametrov, z toho 3,8 miliárd aktívnych pri inferencii.
  • Po kvantizácii má pamäťovú náročnosť okolo 18 GB VRAM.
  • Google uvádza nižšiu kvalitu textu oproti Gemma 4, najmä pri komplexných odpovediach.

Vizuálne vysvetlenie správ od Canto. Nástroje AI môžu pomáhať pri produkcii. Redakčné zásady