Słownik języka polskiego

2 minut(y)

Słownik języka polskiego zbudowany na bazie treści udostępnionych w serwisie sjp.pl. Darmowy, legalny i wystarczająco solidny.

Statystyki

Cecha Wartość
Rozmiar: 7,6 MiB (7 940 080)
Ilość słów: 140 891
Odmiany: Tak (także z sjp.pl)
Okładka: Tak (autor: aleks)
Wersja: 0.99 (final beta)
Aktualizacja bazy: 21 XII 2017

Link do pobrania: SJP.mobi

Przygotowanie słownika

Źródłem słów i odmian w całości jest serwis sjp.pl. Wyselekcjonowanie słów to żadna filozofia – pobrałem podstrony ze słowami i przy użyciu prostych narzędzi (głównie grepsed) zbudowałem bazę w formacie StarDict TAB. Potem, przy użyciu zmodyfikowanej wersji skryptu tab2opf.py, połączyłem tę bazę z bazą odmian. Sam plik z odmianami zmodyfikowałem jedynie zastępując znak końca linii z DOS-owego na UNIX-owy. Tym razem przyjrzałem się efektom pracy tego skryptu i już wiem, że użyłem go po raz ostatni. Gotowy OPF konwertuję do MOBI kindlegenem.

Pobranie haseł do lokalnej obróbki zajęło 24 godziny, zaś sama praca kindlegena to kolejna godzina. Wartości te dotyczą łącza 150 Mbps i całej pracy w ramdysku o rozmiarze przekraczającym 3-krotnie wymagane minimum. „Hamulcowe” to serwer sjp.pl i sposób działania kindlegena – przyspieszenie tego procesu jest nierealne, nawet przy użyciu znacznie wydajniejszego komputera.

Testy

Na początek obrazki…

SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL SJP.PL

…i trochę komentarza:

  • odmiany z dywizem (i inne) obsługiwane bez problemów;
  • „laskę” słownik rozpoznał poprawnie, ale już „łaskę” (przy odmianie) pomylił; takie pomyłki zdarzają się jednak nie tylko maszynom…
  • „leki” i „lęki” działają losowo – najchętniej, dla obu haseł w odmianach, Kindle przytacza definicję albańskiej jednostki monetarnej;
  • „bak” i „bąk” to kolejna problematyczna para – mechanizm Kindle’a czasem trafi celnie, ale częściej chybi;
  • „żony” to dla Kindle to samo co „zony”, mimo że sama „żona” (w podstawowej wersji) jest obecna w słowniku i poprawnie wyszukiwana;
  • „turzycę” i „pulardę” znalazło prawidłowo;
  • „tarnina” zaś jest nieobecna; pomimo tego, że jest na stronach sjp.pl i była w poprzednich wersjach słownika – pisząc mało dyplomatycznie: coś tu się spie*;

Co jest nie tak?

Po drodze „zgubiło się” kilka haseł. Wg wstępnych obliczeń jest to 76 934 lub – w innym zestawieniu (pomijającym powtarzające się hasła z różnymi definicjami) – 69 146. Braki te wynikają najpewniej z jakiegoś błędu na serwerze podczas pobierania haseł. Pomimo tego aktualna wersja ma o ponad 2000 więcej zideksowanych słów, niż wersja sprzed dwóch miesięcy.

W chwili publikacji tego tekstu baza słów jest już nieaktualna – zanim kindlegen skończył pracę, na stronach sjp.pl zmieniono blisko 300 haseł i dodano 2 nowe.

Kilka odmian jest źle rozpoznawalnych – w znacznej części to zagadnienie nierozwiązywalne, zależne od mechanizmów działania słowników w formacie MOBI. Część można jednak poprawić.

I największy błąd. Część haseł występuje pod dwoma (lub więcej) różnymi pozycjami (np. hasło „żywy”). Te hasła, choć brzmią (w mowie i pisowni) tak samo, to mają jednak różne odmiany. Skrypt tab2opf.py kompletnie sobie z tym nie radzi. Stąd wersja final beta, czyli ostatnia nie w pełni kontrolowana. W przyszłej wersji (1.0) planuję użycie innego mechanizmu, który uwzględni m.in. takie subtelności.

Alternatywa

W połowie 2016 roku, San Zamoyski przygotował hybrydę SJP.PL z Wikisłownikiem – SJP Sana.

Sam postanowiłem w tym słowniku nie profanować (póki co) źródeł z sjp.pl, ale w prywatnym słowniku stosuję hybrydę PWN + Wiki + SJP.PL. Z uwagi na ten pierwszy składnik pozostaje on jednak prywatny.

Niewykluczone, że w przyszłości powstanie tu hybryda taka jak u Sana, ale z aktualnymi treściami – oba te źródła są „żywe” (stale aktualizowane).