Era wielkich modeli językowych (Large Language Models – LLM) zrewolucjonizowała sposób interakcji człowieka z technologią, otwierając nowe możliwości w przetwarzaniu i generowaniu języka naturalnego. Globalny krajobraz AI jest jednak zdominowany przez modele tworzone i trenowane głównie z myślą o języku angielskim. Giganci technologiczni, tacy jak OpenAI (GPT-4o), Anthropic (Claude 3.5), Google (Gemini 1.5), Meta (Llama 3.1) czy xAI (Grok), dysponują ogromnymi zasobami, pozwalającymi na budowę modeli o setkach miliardów, a nawet bilionach parametrów. Choć modele te wykazują imponujące zdolności wielojęzyczne, ich efektywność w precyzyjnym przetwarzaniu języków o bogatej morfologii i złożonej składni, takich jak język polski, napotyka na ograniczenia. Złożoność fleksyjna, swobodny szyk zdania oraz bogactwo idiomatyczne polszczyzny stanowią istotne wyzwanie dla algorytmów uczonych przede wszystkim na anglojęzycznych korpusach danych.
W tym kontekście rodzi się fundamentalne pytanie o potrzebę i zasadność inwestowania w rozwój rodzimych, polskich modeli LLM. Odpowiedź leży w kilku kluczowych obszarach. Po pierwsze, chodzi o suwerenność cyfrową – uniezależnienie się od zagranicznych dostawców technologii, co daje pełną kontrolę nad modelem, jego danymi treningowymi i potencjalnymi zastosowaniami, szczególnie w sektorach strategicznych, takich jak administracja publiczna. Po drugie, specyfika językowa i kulturowa – polskie LLM mają potencjał nie tylko lepiej radzić sobie ze złożonością gramatyczną, ale także rozumieć niuanse kulturowe, polskie realia społeczne, historyczne oraz specyficzną terminologię używaną w różnych dziedzinach, od prawa po medycynę i administrację. Po trzecie, stymulowanie innowacji i konkurencyjności – posiadanie własnych, zaawansowanych technologii AI jest postrzegane jako kluczowy czynnik wzrostu gospodarczego, rozwoju krajowego sektora IT oraz powstawania nowych firm i produktów opartych na sztucznej inteligencji. Inicjatywy takie jak ruch #AIMadeInPoland podkreślają ambicje budowy silnego, krajowego ekosystemu AI. Dostęp do otwartych, krajowych modeli może również wesprzeć innowacje w małych i średnich przedsiębiorstwach (MŚP), które często nie dysponują zasobami pozwalającymi na korzystanie z drogich, komercyjnych modeli globalnych.
Na polskiej scenie AI wyłoniło się kilku kluczowych graczy i inicjatyw, tworzących dynamiczny, choć wciąż młody ekosystem. Należą do nich przede wszystkim:
PLLuM (Polish Large Language Model): ambitny projekt rządowy, inicjalnie prowadzony przez konsorcjum na czele z Politechniką Wrocławską, a następnie przekształcony w szerszy ekosystem HIVE, koordynowany przez NASK, z udziałem Ministerstwa Cyfryzacji, OPI PIB, COI i ACK Cyfronet AGH.
SpeakLeash / Bielik: inicjatywa społecznościowa typu open source, skupiona na budowie otwartego korpusu danych dla języka polskiego (Spichlerz) i rozwijająca na jego podstawie rodzinę modeli Bielik we współpracy z ACK Cyfronet AGH.
Qra: Projekt akademicko-instytutowy, wynik współpracy Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB) i Politechniki Gdańskiej (PG), koncentrujący się na tworzeniu modeli fundamentowych adaptowanych do polszczyzny.
Trurl: komercyjna inicjatywa firmy Voicelab.AI z Gdańska, oferująca modele konwersacyjne dostrojone do języka polskiego i angielskiego.
AI otwiera nowe możliwości w komunikacji i automatyzacji. Bitrix24 to wszechstronna platforma do zarządzania oparta o AI, w pełni po polsku. Wykorzystaj potencjał nowoczesnej technologii do efektywniejszej pracy.
Wypróbuj Bitrix24Projekt PLLuM (Polish Large Language Model) został oficjalnie zaprezentowany przez Ministerstwo Cyfryzacji w lutym 2025 roku jako pierwszy rządowy wielki model językowy, zaprojektowany specjalnie z myślą o języku polskim. Inicjatywa ta wpisuje się w szerszy kontekst budowania cyfrowej suwerenności Polski i promowania technologii tworzonych w kraju pod szyldem #AIMadeInPoland.
Pierwotnie projekt realizowany był przez konsorcjum, którego liderem była Politechnika Wrocławska, a członkami NASK (Naukowa i Akademicka Sieć Komputerowa) oraz OPI PIB (Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy). Czas realizacji projektu obejmował niemal cały 2024 rok, a jego początkowy budżet wyniósł 14,5 miliona złotych.
Wraz z prezentacją pierwszych wyników ogłoszono istotną zmianę strategiczną: projekt PLLuM został przekształcony w długofalową inicjatywę HIVE, mającą na celu budowę całego ekosystemu polskich modeli językowych. Liderem nowego konsorcjum HIVE został Ośrodek Badań nad Bezpieczeństwem SI w NASK. Do inicjatywy dołączyły również dwa kluczowe podmioty: Centralny Ośrodek Informatyki (COI), odpowiedzialny za wdrażanie rozwiązań IT w administracji (w tym aplikacji mObywatel), oraz Akademickie Centrum Komputerowe Cyfronet AGH, dysponujące najnowocześniejszą infrastrukturą obliczeniową w Polsce, w tym najszybszymi superkomputerami. Jednocześnie zwiększono finansowanie projektu – w 2025 roku Ministerstwo Cyfryzacji przeznaczyło na dalszy rozwój 19 milionów złotych. Strategia rozwoju HIVE zakłada kontynuację prac nad modelami PLLuM, tworzenie kolejnych modeli, wdrażanie ich w administracji publicznej oraz, w dalszej perspektywie, integrację z systemami wyszukiwania w celu dostępu do aktualnych danych internetowych.
PLLuM to nie pojedynczy monolit, lecz rodzina modeli o zróżnicowanych parametrach i przeznaczeniu. Według informacji z lutego 2025, składała się ona z 18 wersji. Modele te można podzielić na trzy główne kategorie:
Modele bazowe: przeszły adaptację językową i mają zdolność rozumienia języka polskiego. Stanowią fundament dla dalszego dostrajania.
Modele instrukcyjne: trenowane do wykonywania konkretnych zadań na podstawie podanych instrukcji (np. streszczanie, odpowiadanie na pytania, klasyfikacja).
Modele typu chat: zoptymalizowane pod kątem prowadzenia interaktywnej rozmowy z użytkownikiem.
Kluczowym elementem wyróżniającym projekt PLLuM jest podejście do danych treningowych. Zamiast polegać wyłącznie na automatycznie zbieranych danych z internetu czy tłumaczeniach, postawiono na budowę własnego, wysokiej jakości korpusu treningowego dla języka polskiego. Początkowo mówiono o 100 miliardach słów, późniejsze informacje precyzują tę liczbę na około 150 miliardów tokenów po oczyszczeniu i deduplikacji. Co istotne, duży nacisk położono na tzw. dane „organiczne”, czyli tworzone ręcznie przez zespół ponad 50 specjalistów, a nie generowane automatycznie czy przy użyciu innych modeli językowych. W ramach projektu stworzono największą polską kolekcję ręcznie przygotowanych „organicznych instrukcji” – około 40 tysięcy par prompt-odpowiedź, w tym 3,5 tysiąca wieloturowych dialogów. Ten unikalny zbiór, oparty na rozbudowanej typologii interakcji człowiek-model, ma na celu precyzyjne dostrojenie modeli do subtelności języka polskiego, specyficznych zadań (np. w administracji) oraz ograniczenie negatywnego transferu językowego z danych niepolskich użytych w pre-treningu. Ponadto, stworzono pierwszy polski korpus preferencji, gdzie odpowiedzi modeli na różne prompty (w tym kontrowersyjne) były oceniane przez ludzi. Dane te służą do dalszego doskonalenia modeli metodą uczenia przez wzmocnienie z informacji zwrotnej od ludzi (RLHF - Reinforcement Learning from Human Feedback), ucząc je nie tylko poprawności merytorycznej i językowej, ale także zrównoważenia, bezpieczeństwa i unikania generowania treści szkodliwych. Celem tego pracochłonnego podejścia jest uzyskanie modeli, które lepiej radzą sobie ze złożonością polszczyzny, generują precyzyjniejsze treści i są mniej podatne na „halucynacje”, czyli generowanie błędnych informacji.
Mimo relatywnie krótkiego czasu od publikacji, modele PLLuM zdążyły już pokazać swoje możliwości w benchmarkach. W teście kompetencji językowych i kulturowych w języku polskim, model PLLuM-12B-nc-chat uzyskał wynik 59.50, plasując się na równi z globalnymi gigantami jak GPT-4 (59.50) i Llama-3.1-405b (60.00), a nieznacznie ustępując jedynie modelowi Bielik-2.1 (61.00). W nowszym i bardziej kompleksowym benchmarku LLMzSzŁ, opartym na polskich egzaminach państwowych, modele Llama-PLLuM-70B-chat (wynik 64.42) i Llama-PLLuM-70B-base (64.56) znalazły się w czołówce, ustępując jedynie najnowszym modelom Qwen 2.5 72B oraz Llama 3.1/3.3 70B Instruct. Wysoko uplasował się również model PLLuM-8x7B-nc-chat (60.52), a PLLuM-12B-nc-chat uzyskał solidny wynik 53.40. Warto zauważyć, że konsorcjum PLLuM opracowało również własne, niestandardowe benchmarki, służące do oceny modeli pod kątem zadań specyficznych dla polskiej administracji publicznej, gdzie modele PLLuM miały osiągać najlepsze wyniki.
Pierwsze konkretne zastosowania modeli PLLuM są planowane na rok 2025. Mają one trafić do wybranych instytucji publicznych, a flagowym wdrożeniem ma być integracja z aplikacją mObywatel.
Równolegle do inicjatyw rządowych, w Polsce rozwija się dynamiczny ruch oddolny, skupiony wokół idei open source i open science. Jego czołowym przedstawicielem jest projekt SpeakLeash, znany również jako Spichlerz. Geneza projektu sięga potrzeby stworzenia dużego, otwartego zbioru danych dla języka polskiego, który mógłby posłużyć do wytrenowania polskiego odpowiednika modelu Bloom – wielojęzycznego LLM, który jednak nie obejmował polszczyzny.
Misją SpeakLeash jest właśnie budowa i udostępnienie jak największego, zróżnicowanego i wysokiej jakości korpusu tekstów w języku polskim, który mógłby stać się paliwem dla rozwoju krajowych modeli językowych. Projekt działa na zasadach otwartych, co oznacza, że każdy może do niego dołączyć i wnieść swój wkład, zarówno poprzez dostarczanie danych, jak i pracę nad narzędziami. Gromadzenie danych odbywa się m.in. poprzez crowdsourcing oraz współpracę z różnymi podmiotami. W projekt zaangażowali się eksperci i pasjonaci AI z różnych firm, takich jak Credit Agricole Bank Polska, Deviniti, Wirtualna Polska S.A. czy Bank Pekao SA, a także anonimowi wolontariusze.
Działalność SpeakLeash nie ogranicza się jednak tylko do gromadzenia danych. Społeczność tworzy również szereg narzędzi pomocniczych, niezbędnych w procesie budowy i ewaluacji LLM. Należą do nich m.in. autorskie narzędzie do OCR-owania plików PDF, tokenizer dostosowany do języka polskiego (choć jego wdrożenie napotkało na wyzwania), narzędzia do benchmarkowania modeli, w tym Open PL LLM Leaderboard oraz interaktywna platforma Chat Arena PL, a także dokumentacja opisująca proces tworzenia modeli językowych. Jednocześnie projekt aktywnie korzysta z istniejących, otwartych rozwiązań (np. architektury Transformer, modeli bazowych jak Mistral, otwartych zbiorów danych instrukcyjnych), co pozwala znacząco obniżyć koszty i przyspieszyć prace.
Przełomowym momentem dla inicjatywy SpeakLeash było nawiązanie w 2024 roku ścisłej współpracy z Akademickim Centrum Komputerowym Cyfronet AGH. Dzięki tej współpracy, wykorzystując zasoby obliczeniowe superkomputerów PLGrid (Athena i Helios) oraz dane zgromadzone przez SpeakLeash, w kwietniu 2024 roku udostępniono pierwszy polski model językowy z tej rodziny – Bielik.
Jednym z kluczowych wyzwań technicznych w pracach nad Bielikiem była adaptacja tokenizera modelu Mistral do specyfiki języka polskiego. Oryginalny tokenizer, zoptymalizowany pod kątem angielskiego, generował dużą liczbę tokenów dla polskich słów, co obniżało efektywność. Mimo prób rozszerzenia słownika, zdecydowano się na pozostawienie oryginalnego tokenizera, zdając sobie sprawę z jego suboptymalności dla polszczyzny. Problem efektywnej tokenizacji dla języków fleksyjnych przy adaptacji istniejących modeli LLM pozostaje kluczowym obszarem badań. Kolejnym wyzwaniem był trening wersji Instruct, mający na celu nauczenie modelu podążania za instrukcjami i prowadzenia dialogu, co wymagało zastosowania innowacyjnych technik.
Wydajność modeli Bielik jest systematycznie mierzona na różnych benchmarkach. Bielik 7B v0.1 wykazał dobrą wydajność w zadaniach RAG i radził sobie z rozumowaniem i odgrywaniem ról w Polish MT-Bench. Bielik 11B v2 (model bazowy) osiągnął wysokie wyniki w Open PL LLM Leaderboard, stając się najlepszym modelem w swojej klasie wagowej, a nawet przewyższając model bazowy Mistral w benchmarku anglojęzycznym, co świadczy o dobrym transferze międzyjęzykowym. Wersje Instruct, takie jak Bielik 11B v2.0-Instruct i Bielik 11B v2.1-Instruct, również uzyskały imponujące wyniki w polskich benchmarkach (Open PL LLM Leaderboard, Polish MT-Bench, Polish EQ-Bench, MixEval, LLMzSzŁ), często plasując się w czołówce lub na równi z większymi modelami globalnymi.
Modele Bielik, podobnie jak inne LLM, mają ograniczenia, takie jak możliwość generowania nieprawdziwych informacji czy brak wbudowanej moderacji treści w wersjach Instruct. Modele bazowe wymagają dalszego fine-tuningu do zastosowań konwersacyjnych. Wszystkie modele Bielik są publicznie dostępne na platformie Hugging Face na liberalnej licencji Apache 2.0, co pozwala na swobodne wykorzystanie, w tym komercyjne. Dostępne są również wersje skwantyzowane, ułatwiające uruchomienie na mniejszych zasobach. Otwartość, wysoka wydajność i aktywna społeczność czynią Bielika kluczowym elementem polskiego ekosystemu AI, promując ideę #AIMadeInPoland. Deklarowana jest również współpraca z projektem PLLuM. Historia powstania Bielika jest przykładem synergii między oddolną inicjatywą open source a narodową infrastrukturą badawczą (ACK Cyfronet AGH), co może służyć jako inspiracja dla innych projektów technologicznych w Polsce, oferując elastyczność i lepsze warunki dla innowacji komercyjnych dzięki otwartej licencji.
Poza flagowymi projektami PLLuM i Bielik, na polskiej scenie LLM działają również Qra i Trurl, reprezentujące odmienne podejścia. Qra, rozwijany przez OPI PIB i Politechnikę Gdańską, skupia się na tworzeniu modeli fundamentowych, adaptując istniejące modele Llama 2 do języka polskiego na podstawie obszernego korpusu polskich tekstów. Dostępne są modele Qra-1b, Qra-7b i Qra-13b, które wykazały lepsze wyniki w modelowaniu polszczyzny niż oryginalne Llama 2. W benchmarku LLMzSzŁ Qra-13b uzyskał wynik 34.85. Qra udostępniane są jako modele bazowe, wymagające dalszego fine-tuningu do konkretnych zastosowań, np. konwersacyjnych. (Należy odnotować, że firma Qra Corp jest odrębnym podmiotem).
Zupełnie inne podejście prezentuje Trurl, komercyjna inicjatywa firmy Voicelab.AI. Trurl to rodzina modeli konwersacyjnych, również bazujących na architekturze Llama 2, ale intensywnie dostrojonych do zastosowań dialogowych. Dostępne są modele Trurl 2 7B i Trurl 2 13B, także w wersjach skwantyzowanych, wymagających mniej zasobów. Trening modeli Trurl obejmował dużą liczbę próbek konwersacyjnych w języku polskim i angielskim, co podkreśla ich orientację na dialog. Przeznaczone są do użytku badawczego i komercyjnego w zastosowaniach takich jak chatboty czy obsługa klienta. W benchmarku LLMzSzŁ Trurl 2 13B uzyskał wynik około 40.2, choć niektórzy użytkownicy oceniali jego praktyczną użyteczność niżej niż innych fine-tunowanych modeli. Trurl, podobnie jak inne LLM, ma ograniczenia, generując czasem niedokładne lub niepożądane odpowiedzi.
Porównanie Qra i Trurla ilustruje dychotomię między modelami bazowymi (Qra, tworzone przez instytucje publiczne jako fundament dla dalszych prac) a modelami fine-tunowanymi. Ta różnorodność podejść jest korzystna dla polskiego ekosystemu LLM, odpowiadając na różne potrzeby użytkowników i podkreślając dojrzałość rynku, jednocześnie wskazując na potrzebę stosowania benchmarków oceniających różne typy modeli.
AI otwiera nowe możliwości w komunikacji i automatyzacji. Bitrix24 to wszechstronna platforma do zarządzania oparta o AI, w pełni po polsku. Wykorzystaj potencjał nowoczesnej technologii do efektywniejszej pracy.
Wypróbuj Bitrix24Analiza porównawcza z globalnymi liderami pokazuje interesujący paradoks wydajności. Z jednej strony, polskie LLM, dzięki specjalizacji i treningowi na lokalnych danych, potrafią wykazać konkurencyjną, a czasem nawet wyższą wydajność w zadaniach specyficznych dla języka polskiego i kultury. Przewyższają one często globalne modele w rozumieniu polskich niuansów, terminologii czy realiów. Z drugiej strony, w bardziej ogólnych testach zdolności poznawczych, takich jak rozumowanie matematyczne, rozwiązywanie złożonych problemów logicznych czy nawet w ogólnych wynikach testów, często ustępują czołówce światowej. Wydaje się, że istnieje kompromis między głęboką specjalizacją językowo-kulturową a szerokością ogólnych zdolności modelu, która jest silnie skorelowana ze skalą modelu i różnorodnością danych treningowych. Oznacza to, że wybór między polskim a globalnym LLM powinien być podyktowany konkretnym zastosowaniem. Do zadań silnie zakorzenionych w polskim języku, kulturze czy systemie prawno-administracyjnym, rodzime modele mogą oferować przewagę.
Pomimo szerokiego spektrum potencjalnych zastosowań, analiza dostępnych materiałów wskazuje na pewien rozdźwięk między deklarowanym potencjałem a udokumentowanymi, rzeczywistymi wdrożeniami na dużą skalę. O ile plany dotyczące wykorzystania PLLuM w mObywatel są konkretne, o tyle wiele innych zastosowań opisywanych jest wciąż w trybie przyszłym lub jako ogólna możliwość. Brakuje publicznie dostępnych badań pokazujących szerokie i efektywne wykorzystanie polskich LLM w biznesie czy innych sektorach. Sugeruje to, że polskie modele są nadal na stosunkowo wczesnym etapie adaptacji rynkowej i publicznej. Najbliższe lata będą kluczowe, aby zweryfikować, czy zapowiadane wdrożenia, zwłaszcza te w sektorze publicznym, zostaną zrealizowane i przyniosą oczekiwane korzyści. Sukces tych pierwszych, flagowych projektów będzie miał fundamentalne znaczenie dla budowania zaufania do krajowych technologii AI i stymulowania dalszego rozwoju całego ekosystemu. Istnieje ryzyko, że bez namacalnych dowodów praktycznej użyteczności, początkowy entuzjazm wokół #AIMadeInPoland może osłabnąć, a użytkownicy (zwłaszcza biznesowi) nadal będą preferować sprawdzone, choć może mniej zoptymalizowane dla polskiego, rozwiązania.