Magyar dalszövegek — diakronikus elemzés

Adatok évtizedenként

Dalok, előadók, szövegírók és zeneszerzők száma. A ★ az alacsony elemszámú (statisztikailag bizonytalan) évtizedeket jelöli.

Megkülönböztető szavak

Évtizedenként legjellemzőbb lemmák (log-ratio > 0, G² szerint rendezve).

Témák az időben

BERTopic témák évtizedenként — válts a dalok darabszáma és az évtizeden belüli arány között. A jelmagyarázatra kattintva ki-/bekapcsolhatók a görbék.

Témakártyák

Jelentésváltozás az időben

Egy szó jelentés-eltérése (1 − igazított koszinusz-hasonlóság) évtized-átmenetenként.

Eltérés-hőtérkép

Szó × évtized-átmenet eltérés-intenzitás. Sötétebb = nagyobb változás.

Kumulatív sodródás

A jelentés halmozott eltávolodása a kiinduló évtizedtől.

Szomszédos szavak korszakonként

Egy célszó társszavai egy adott évtizedben: a középső csomópont a célszó, körülötte a legerősebben együtt-előforduló szavak. Az élek vastagsága a kapcsolat erősségét (relatív együtt-előfordulás) jelzi.

Szókincs- és modell-statisztika

Évtizedenkénti szókincsméret és lexikai változatosság. A lexikai változatosság MATTR (100 szavas mozgóablakos típus–token arány): mekkora arányban különböznek a szavak egy 100 szavas szakaszon belül — a szöveghossztól független mérőszám (0–1, a magasabb változatosabb).

Módszertan

A dalszövegek elsősorban a zeneszoveg.hu oldalról származnak, kiegészítve egy Genius-alapú (Kaggle) magyar dalszöveg-gyűjteménnyel. A dalok évtizedekre bontásához a megjelenési évet több forrásból, prioritási sorrendben állítjuk össze: MusicBrainz (első megjelenés dátuma és a kompozíció [work] azonosítója, amely a feldolgozásokat is összekapcsolja), Discogs, a Genius-évszám, végül a zeneszoveg.hu oldal éve (utóbbi kettő kevésbé megbízható). Az előadói és zeneszerzői metaadatokat Wikidata és a magyar Wikipédia egészíti ki. A korpusz nyelvfelismeréssel (magyar) szűrt, MinHash-LSH duplikátum-mentesített; a számláló réteg huspacy lemmákból és gensim n-gramokból épül. A témákat BERTopic adja magyar huBERT beágyazásokkal (128 tokenes ablakokra darabolva, átlagolva), a c-TF-IDF a lemmatizált tokeneken. A téma-elnevezéseket kézzel adtuk a kulcsszavak alapján. A jelentésváltozást a chronowords SVD-beágyazásai mérik, évtizedenként tanítva és Procrustes-igazítással összevetve.

A dashboard az 1960-as évektől a 2020-as évekig fedi le az anyagot; a korábbi, ritka évtizedeket elhagytuk. A diakronikus modellek főként az 1990-es évektől megbízhatók. A megjelenített mutatók aggregáltak — a dashboard sosem közöl teljes dalszöveget.

Korábbi (2020-as) változat: „Ezek minden idők leggyakoribb és legfontosabb szavai a magyar popslágerekben” — Crow Intelligence, 2020. Kapcsolódó kutatás (HuMus): Bodó Z., Szenkovits A. & Pătcaş Cs., The HuMus Project: Corpus Compilation and Multi-experiment Study of Hungarian Popular Music Lyrics, Acta Universitatis Sapientiae, Informatica (2026).