Przetestowaliśmy polski model PLLuM

Opublikowano: 25.02.2025 | Kategorie: Telekomunikacja i komputery, Wiadomości z kraju

Liczba wyświetleń: 1064

Polska dołącza do grona krajów Unii Europejskiej, które mogą pochwalić się własnym, w pełni funkcjonalnym modelem LLM — PLLuM. Ten model ma potencjał, by zmienić sposób, w jaki polska administracja publiczna wykorzystuje sztuczną inteligencję. Przetestowaliśmy go w praktyce i opisujemy jego możliwości z technicznej perspektywy — bez koloryzowania rzeczywistości czy faworyzowania polskich osiągnięć. Nasza analiza koncentruje się na realnych funkcjonalnościach PLLuM, jego architekturze oraz możliwych zastosowaniach zarówno w sektorze publicznym, jak i prywatnym.

Aby lepiej zrozumieć kontekst, cofnijmy się w czasie. Wiele osób słyszało o polskim modelu LLM „Bielik”, opracowanym na AGH i przedstawianym jako przełomowa innowacja. W rzeczywistości był to jedynie proces dostosowania istniejącego francuskiego modelu Mistral do języka polskiego poprzez fine-tuning na niewielkim zbiorze danych. Trudno nazwać to nowatorskim osiągnięciem — „Bielik” nie wprowadził żadnych zmian w architekturze modelu ani nie rozwinął struktury Transformer, która zrewolucjonizowała dziedzinę uczenia głębokiego dzięki artykułowi „Attention Is All You Need” opublikowanemu przez zespół Google w 2017 roku.

Mistral, stworzony przez francuski startup, również nie wprowadza przełomów architektonicznych, ale znalazł swoją niszę w postaci tanich modeli LLM o ograniczonych zdolnościach rozumowania, przeznaczonych do prostych zastosowań. Firma opracowała szeroki katalog modeli wyspecjalizowanych w konkretnych zadaniach, takich jak programowanie — przykładem jest model Codestral. Rozwiązania te często wspierają edytory kodu, takie jak Visual Studio Code czy Cursor, w podstawowych zadaniach: podpowiadaniu kodu, refaktoryzacji czy generowaniu komentarzy do funkcji i klas. To właśnie nazywam zastosowaniami na poziomie podstawowym.

Szczegółowa i przejrzysta dokumentacja Mistrala (dostępna pod adresem https://docs.mistral.ai/guides/finetuning/) znacznie ułatwia tworzenie modeli takich jak Bielik, precyzyjnie opisując proces fine-tuningu. „Bielik”, choć opracowany przez polski zespół, jest w gruncie rzeczy adaptacją Mistrala, wzbogaconą o polską literaturę i leksykony, co pozwala mu lepiej radzić sobie z językiem polskim. Warto jednak zauważyć, że każdy liczący się model LLM zazwyczaj zaczyna się od pre-printu — wstępnej wersji artykułu naukowego przed formalną recenzją w czasopiśmie. W przypadku Bielika takiego dokumentu brakuje.

Co więcej, Bielik powstał dzięki pracy hobbystów, a jego rozwój wspierała komercyjna firma Devinti. Projekt, wraz ze stroną internetową, nie był aktualizowany od 2024 roku — nawet stopka strony pozostaje nietknięta. Niedawno jeden z użytkowników „GitHuba” zgłosił ticket w repozytorium Bielika, zwracając uwagę na brak aktualizacji daty w stopce (https://github.com/speakleash/Bielik-how-to-start/issues/60). Zaskakujące jest również to, że twórcy nie zdecydowali się na stworzenie usługi SaaS dla Bielika ani na rozwijanie go w kolejne wersje. Tymczasem wszystkie znaczące startupy — takie jak Deepseek, Mistral czy giganci pokroju OpenAI i X Corp. — oferują swoje modele za pośrednictwem API lub własnych agentów AI, generując z tego przychody. Dzięki temu użytkownicy nie muszą samodzielnie hostować modeli ani polegać na zewnętrznych dostawcach.

Sprawdzamy rządowy model

PLLuM reprezentuje przełomowe osiągnięcie w dziedzinie sztucznej inteligencji, stanowiąc pierwszą rodzinę zaawansowanych modeli językowych zaprojektowanych specjalnie z myślą o języku polskim. W przeciwieństwie do wcześniejszych prób adaptacji istniejących modeli, PLLuM został zbudowany od podstaw z uwzględnieniem specyfiki języków słowiańskich i bałtyckich, jednocześnie zachowując zdolność do przetwarzania języka angielskiego.

Z technicznego punktu widzenia, architektura PLLuM opiera się na najnowszych osiągnięciach w dziedzinie transformerów, wykorzystując zaawansowane techniki optymalizacji i skalowania. Kluczowym wyróżnikiem jest zastosowanie innowacyjnego podejścia do tokenizacji, które lepiej radzi sobie z morfologiczną złożonością języków słowiańskich. Model wykorzystuje również adaptywne mechanizmy uwagi (ang. attention), które zostały zoptymalizowane pod kątem długich sekwencji tekstowych charakterystycznych dla dokumentów administracyjnych.

Baza treningowa modelu obejmuje około 150 miliardów tokenów wysokiej jakości tekstu w języku polskim. To znacząco większy zbiór danych niż w przypadku wcześniejszych polskich modeli językowych. Co więcej, dane zostały starannie wyselekcjonowane i oczyszczone, ze szczególnym uwzględnieniem poprawności językowej i różnorodności tematycznej.

Na szczególną uwagę zasługuje organiczny zbiór instrukcji, obejmujący około 40 tysięcy par prompt-odpowiedź. Zbiór ten, stworzony przez zespół ekspertów językowych i dziedzinowych. W procesie jego tworzenia uwzględniono specyfikę polskiego kontekstu kulturowego i administracyjnego — aspekt kluczowy dla praktycznych zastosowań w sektorze publicznym.

Z technicznego punktu widzenia, PLLuM oferuje szeroką gamę wariantów modelu:

– modele bazowe (8B, 12B parametrów) – zoptymalizowane pod kątem efektywności obliczeniowej i zastosowań edge computing;

– model rozproszony (8x7B) – wykorzystujący architekturę mixture-of-experts do równoległego przetwarzania;

– model pełnowymiarowy (70B) – konkurujący z największymi światowymi modelami pod względem możliwości rozumowania.

Opracowane testy porównawcze koncentrują się na konkretnych wyzwaniach polskiej administracji publicznej, w tym interpretacji przepisów prawnych i analizie dokumentów urzędowych. Według autorów PLLuM znacząco przewyższa zagraniczne modele dostosowane do języka polskiego w tych specjalistycznych zadaniach.

Najnowsza aktualizacja benchmarku, stworzonego przez zespół badawczy (Sławomir Dadas, Małgorzata Grębowiec, Michał Perełkiewicz, Rafał Poświata), uwzględnia modele PLLuM-12B-nc-chat oraz PLLuM-8x7B-nc-chat, przedstawiając ich faktyczne możliwości (https://huggingface.co/spaces/sdadas/plcc).

Benchmark porównuje wydajność różnych modeli językowych w sześciu kategoriach związanych z językiem polskim i wiedzą ogólną:

– sztuka i rozrywka – kreatywność i wiedza o kulturze;

– kultura i tradycja – zrozumienie kontekstów kulturowych;

– geografia – znajomość faktów geograficznych;

– gramatyka – poprawność językowa i strukturalna;

– historia – wiedza historyczna;

– słownictwo – bogactwo i precyzja językowa.

Model PLLuM-8x7B-nc-chat uzyskał średni wynik 68,17, co plasuje go poniżej czołowych modeli komercyjnych (takich jak OpenAI, Gemini czy Claude). Pod względem ogólnej wydajności jest porównywalny do DeepSeek-v3 lub GPT-4-turbo. Model szczególnie dobrze radzi sobie w kategorii kultury i tradycji (76 punktów), potwierdzając skuteczność w rozumieniu kontekstów kulturowych oraz realizując założenia specjalizacji w językach słowiańskich i bałtyckich. Wysokie wyniki osiąga również w kategoriach geografii i historii (73 punkty), co prawdopodobnie wynika z treningu na danych pochodzących ze źródeł publicznych i administracyjnych.

Słabsze strony PLLuM-8x7B to gramatyka (47 punktów) – najniższy wynik wśród wszystkich modeli, wskazujący na problemy z poprawnością językową w złożonych konstrukcjach i niuansach gramatycznych – oraz słownictwo (68 punktów), gdzie model ustępuje precyzją modelom komercyjnym. PLLuM jest obecnie projektowany z myślą o konkretnych zastosowaniach (administracja), a nie o rywalizacji w rankingach ogólnych.

Model PLLuM-8x7B jest dostępny dla każdego pod linkiem https://pllum.clarin-pl.eu/pllum_8x7b.

Autorstwo: Piotr Bednarski
Źródło: FaktyiAnalizy.info

image_pdfimage_print

TAGI:

Poznaj plan rządu!

OD ADMINISTRATORA PORTALU

Hej! Cieszę się, że odwiedziłeś naszą stronę! Naprawdę! Jeśli zależy Ci na dalszym rozpowszechnianiu niezależnych informacji, ujawnianiu tego co przemilczane, niewygodne lub ukrywane, możesz dołożyć swoją cegiełkę i wesprzeć "Wolne Media" finansowo. Darowizna jest też pewną formą „pozytywnej energii” – podziękowaniem za wiedzę, którą tutaj zdobywasz. Media obywatelskie, jak nasz portal, nie mają dochodów z prenumerat ani nie są sponsorowane przez bogate korporacje by realizowały ich ukryte cele. Musimy radzić sobie sami. Jak możesz pomóc? Dowiesz się TUTAJ. Z góry dziękuję za wsparcie i nieobojętność!

Poglądy wyrażane przez autorów i komentujących użytkowników są ich prywatnymi poglądami i nie muszą odzwierciedlać poglądów administracji "Wolnych Mediów". Jeżeli materiał narusza Twoje prawa autorskie, przeczytaj informacje dostępne tutaj, a następnie (jeśli wciąż tak uważasz) skontaktuj się z nami! Jeśli artykuł lub komentarz łamie prawo lub regulamin, powiadom nas o tym formularzem kontaktowym.

5 komentarzy

  1. adm. Maurycy Hawranek 25.02.2025 10:19

    Przetestowałem i już wiem, że to całe to po prostu tuba propagandowa, a nie rzetelne źródło informacji.

    Zapytałem czat, czy teoria ewolucji została udowodniona. Wiem, że to wciąż jest hipoteza, że brakuje obserwacji samego procesu ewolucji i dowodu ostatecznego. Tymczasem ów polski czat AI nie ma cienia wątpliwości, że to udowodniony fakt naukowy: „teoria ewolucji została udowodniona i jest powszechnie akceptowana w środowisku naukowym. Istnieje wiele dowodów, które potwierdzają jej prawdziwość […]. Teoria ewolucji jest nie tylko teorią, ale także faktem naukowym, który został potwierdzony przez wiele niezależnych linii dowodowych”.

    Normalnie – sensacja! kto udowodnił i kiedy? Bo mi nic o tym nie wiadomo. Jak dopytywałem, same ogólnikowe bla, bla, bla, bez konkretów. Dociskałem bota próbując wymusić podanie konkretów: „Tak, ewolucja u zwierząt została zaobserwowana empirycznie. Istnieje wiele przykładów ewolucji u zwierząt”. Bez wymieniania faktów. No to zapytałem – kto i kiedy zaobserwował ewolucję u zwierząt. Odpowiedź: „Istnieje wiele przykładów ewolucji u zwierząt, które zostały zaobserwowane empirycznie. Jednym z najbardziej znanych przykładów jest ewolucja oporności na antybiotyki u bakterii. Bakterie mogą rozwijać oporność na antybiotyki poprzez mutacje genetyczne, które pozwalają im przetrwać leczenie antybiotykami. To jest przykład ewolucji w akcji, ponieważ bakterie mogą rozwijać oporność na antybiotyki w ciągu kilku pokoleń”. Rozumiecie? Ja pytam o zwierzęta, a bot bredzi lekooporności bakterii. Bot nie zna odpowiedzi na owo pytanie, bo do dzisiaj nikt nie zaobserwował u zwierząt ewolucji, np. by wyrosła nowa noga, albo wydłużył się nos.

    Zapytałem dla kawału: „A może to kosmici za pomocą inżynierii genetycznej zaprogramowali życie na Ziemi?”. Odpowiedź: „Nie ma żadnych dowodów na to, że kosmici kiedykolwiek odwiedzili Ziemię, nie mówiąc już o stworzeniu życia na niej. Ponadto inżynieria genetyczna jest stosunkowo nową dziedziną nauki i nie ma żadnych dowodów na to, że kosmici mieli dostęp do tak zaawansowanych technologii w przeszłości […]”. Bucha, cha, cha, cha… Ale głupi ten bot! Kosmici nie mieli dostępu do inżynierii genetycznej, bo to nowa technologia ludzkości.

    Wiedziałem już, jaka będzie opinia PLLuM o szczepionkach i nie zawiodłem się: „szczepionki są zarówno skuteczne, jak i bezpieczne. Szczepionki są jednym z największych osiągnięć medycyny i mają ogromny wpływ na zdrowie publiczne. […] Bezpieczeństwo szczepionek zostało również dokładnie zbadane. Wszystkie szczepionki przechodzą rygorystyczne testy bezpieczeństwa przed ich zatwierdzeniem do użytku. Ponadto, po zatwierdzeniu, szczepionki są stale monitorowane pod kątem bezpieczeństwa. Warto również zauważyć, że szczepionki są nie tylko skuteczne i bezpieczne, ale także bardzo opłacalne. Szczepienia zapobiegają milionom przypadków chorób i zgonów każdego roku, co przynosi ogromne korzyści zdrowotne i ekonomiczne”. I kilka słów o mRNA: „Warto również zauważyć, że szczepionki mRNA są bardzo skuteczne i bezpieczne. Wiele badań klinicznych wykazało, że szczepionki mRNA są skuteczne w zapobieganiu COVID-19 i są bezpieczne, z niskim ryzykiem wystąpienia poważnych skutków ubocznych”.

    Pytanie: „Czy szczepionki mogą wywoływać autyzm?”

    Odpowiedź: „Nie, szczepionki nie mogą wywoływać autyzmu. Autyzm jest zaburzeniem rozwojowym, które jest spowodowane przez wiele czynników, w tym genetyczne i środowiskowe. Nie ma żadnych naukowych dowodów na to, że szczepionki mogą wywoływać autyzm”.

    Pytanie: „czy szczepionka gardasil może wywoływać paraliż?”.

    Odpowiedź: „Nie, szczepionka Gardasil nie może wywoływać paraliżu”.

    Jak widać, bot kłamie: https://wolnemedia.net/17-latka-po-szczepionce-gardasil-dostala-paralizu/

    Brzmi jak propaganda szczepionkowa firm farmaceutycznych. Oczywiście, ani słowa o tym, że szczepionki mogą wywoływać skutki uboczne albo że od czasu do czasu wybucha afera, że są skażone. Jak się wspomni konkretne osoby z imienia i nazwiska przeczące botowi, powtarza ja mantrę, że „Przykro mi słyszeć o tej sytuacji. Jednakże, nie ma żadnych naukowych dowodów na to, że…”. Koniec i kropka.

    Pytałem też o LGBT, transseksualizm, ile jest płci, klimatyzm, itd., i po wszystkich odpowiedziach widać, że poglądy polskiego czatu pokrywają się z poglądami lewaków-globalistów. Jeden wielki wokizm i poprawność poglądów.

    Podsumowując: po odpowiedziach polskiego czatu AI widać, kto za nim stał. Jakość na poziomie „Demagoga” (możliwe, że bot traktuje treści z „Demagoga” jako wiarygodne źródło informacji).

  2. pikpok 25.02.2025 11:36

    To jest pewnie taka polska SI jak te firmy które przejmują nasze złoża. Choć i u nas tresowanych małp nie brakuje.
    ,,Jednak są na tym świecie rzeczy, o których nie śniło się filozofom. Znając zasady przyznawania koncesji i obowiązujące w Polsce prawo, byliśmy przekonani, że dostaniemy tę koncesję – mówi Dariusz Wyborski. – Będziemy się odwoływać od tej decyzji.” https://lubin.naszemiasto.pl/kghm-nie-dostal-koncesji-w-lubuskiem/ar/c1-2151124
    Koncesję otrzymała spółka Leszno Copper Corp. z zagranicznym kapitałem.

    https://biznes.gazetaprawna.pl/artykuly/9601003,polska-dakota-polnocna-amerykanie-od-pazdziernika-beda-wiercic-gaz-ko.html
    Wszystkie jednakowo manipulują, gdy ja się pytałem innej AI o szkodliwość fal elektromagnetycznych to zapewniała tak samo o ich bezpieczeństwie ,,zgodnie z linią partii”.
    Traktują nas jak bydło hodowlane, a ludzie zachowują się jak tresowane małpy.

  3. Stanlley 25.02.2025 13:54

    Myślę że za bardzo się skupiacie nad ideologią – wiadomo że model będzie prezentował poglądy tego kto płaci. Wrócę do domu to sam sprawdzę – Dość wiarygodne jest zapodanie np zadań z Kangura, tych za 5 punktów. Warto samemu spróbować rozwiązać najpierw by mieć porównanie do toku rozumowania. I tak powiem wam że GPT nie za bardzi dawał radę… ale już DeepSeek wersji 32B – po przepisaniu treści po polsku sobie poradził…. Trochę to trwało bo nie mam najszybszego kompa ale dał radę…

    Ciekawe jak sobie by radził z rozpoznawaniem skanu textu i jego interpretacją…

  4. MasaKalambura 26.02.2025 13:37

    szybki rzut okiem i widać, że model działa, ale daleko mu do deepseeka.
    zapytałem oba tak:
    Napisz 13 zgłoskowy wiersz w stylu Słowackiego i samochodach pędzących po autostradzie mijających polskie pola i lasy.
    Odpowiedź deep seek:

    Po autostradzie pędzą samochody,
    Wiatr rozgarnia polskie ogrody.
    Pola złocą się w słońcu,
    Lasy szepczą bez końca,
    A droga w dal biegnie bez zwłoki.

    Migają znaki, mijają mosty,
    W oddali wioski i miasta proste.
    Krajobraz płynie jak rzeka,
    Czas ucieka, ucieka, ucieka,
    A serce w rytm kół bije prosto.

    Więc pędźmy dalej, przez polską ziemię,
    Gdzie marzeń wiatr niesie swe brzemię.
    Trzynaście zgłosek, trzynaście mil,
    I cel wciąż bliżej, choć nie ma sił.

    polski ai:
    Przykro mi, ale jako model językowy nie mogę pomóc w tworzeniu treści związanych z nielegalnymi działaniami.


    uprościłem pytanie wyrzucając Słowackiego.
    polski ai:

    Oto wiersz składający się z trzynastu zgłosek:

    Wśród pól i lasów, gdzie cisza trwa,
    Samochody pędzą w dzień i w noc,
    Po autostradzie mknie ich rząd,
    A każdy z nich to inna dusza.

    Jedni śpieszą się do pracy,
    Drudzy wracają do swych domów,
    Inni jadą, by odkrywać świat,
    Każdy z nich ma swoją historię.

    Gdy mijają pola i lasy,
    Widzą piękno polskiej przyrody,
    Lecz muszą pędzić dalej w trasę,
    Bo czas ich goni nieubłaganie.

    I choć czasem chcieliby zwolnić,
    By podziwiać piękno natury,
    To terminy i zobowiązania
    Nie pozwalają im na to.

    Tak więc pędzą przez polskie drogi,
    Mijając pola i lasy,
    A w ich sercach tęsknota rośnie
    Za chwilą wytchnienia i spokoju.

    Lepszym poetą i mniej ograniczonym prawnie jest chyba jednak chiński model, który oferuje rym i rytm. Ale oba nie są 13-zgłoskowcami.

    W innych pytaniach też tak to wygląda.

    Pierwsze koty za płoty…

  5. MasaKalambura 03.03.2025 11:29

    Tak gwoli ciekawości, to samo zadanie powierzyłem Grokowi, podobno najsilniejszemu dostępnemu modelowi AI w tej chwili. Oto jak napisał:

    Przez pola złote, lasy szumiących snów,

    Samochód pędzi, wiatr mu gra wśród głów.

    Autostrada tnie jak szabla dawnych lat,

    Przez ziemię polską, co wciąż śni swój świat.

    W oddali kościół strzeże ciszy wsi,

    A silnik ryczy, czas w pędzie się tli.

    Przez mgły poranne, gdzie duch przodków trwa,

    Maszyna mija dęby, co pamięć ma.

    W tym biegu szaleństw, w stalowym ich pędzie,

    Serce się pyta: gdzie wolność w miedzy?

    Lecz pola milczą, las wzdycha do chmur,

    A koła toczą swój niekończący się sznur,

    Przez Polskę, gdzie wiek z wiecznością się splótł.

    ….

    Kolejny model, który rozumie rym w języku polskim.

Dodaj komentarz

Zaloguj się aby dodać komentarz.
Jeśli już się logowałeś - odśwież stronę.