Nekem írod a dalt — neked elemzem

A magyar könnyűzene 1950 és 2026 közötti dalszövegeinek elemzése.

A magyar könnyűzene számokban

Dalok, előadók, szövegírók és zeneszerzők száma évtizedenként.

Adott évtizedre jellemző leggyakoribb és legjellemzőbb szavak

Válassz évtizedet a legördülő menüből. Bal oldalon az adott évtized top 40 leggyakoribb tartalmas szava látható, jobb oldalon a top 40 legkiemelkedőbb szó. Egy szót akkor tekintünk kiemelkedőnek, ha a többi évtizedhez képest felülreprezentált. A betűméret a gyakoriságot, illetve a kiemelkedőséget kódolja. Mindkét felhő átváltható rangsorolt listára.

A szókincs változatossága

Minél magasabb az érték, annál változatosabb a szókincs — minél többször ismétlődik ugyanaz a szó, annál alacsonyabb. Balra évtizedenként, jobbra zenei stílusonként.

Évtizedenként

Zenei stílusonként

A dalok témái évtizedenként

Miről szólnak a dalok? Végigkövethetjük egy adott téma népszerűségét az 1950-es évektől napjainkig. A grafikon évtizedenként megmutatja a leggyakoribb témák eloszlását a korszak dalaiban. A jelmagyarázatra kattintva ki-be kapcsolhatók a görbék, illetve változtatható a darabszám vagy az arány nézet.

Domináns szavak témánként

A top 10 leggyakoribb jelentésteli szó, amely az adott témához tartozó dalokban a legtöbbször előfordul. A legördülő menüben lehet kiválasztani a témát.

A dalok zenei stílusa évtizedenként

A dalok zenei stílusa a Discogs-kiadások alapján. Az „Egyéb” kategória a kisebb stílusokat összevontan tartalmazza (jazz, gyerekdal, funk/soul, latin, blues, reggae, klasszikus).

Érzelmek a dalszövegekben

A négy alapérzelem (öröm, szomorúság, harag, félelem) megoszlása a dalokban.

Évtizedenként

Zenei stílusonként

A dalok témái zenei stílusonként

Mely témák dominálnak az egyes zenei stílusokban? Itt tanulmányozható, hogy az adott stílusba tartozó dalok milyen arányban szólnak a leggyakoribb témákról.

Rímek

Rímelés alatt a sorvégi szavak összecsengését értjük. A rímsűrűség a rímelő sorok arányát adja meg.

Jelentésváltozás az időben

Megvizsgáltuk, hogy a dalszövegekben fellelhető szavak milyen más szavakkal fordulnak elő. Ez az úgynevezett disztribúciós szemantika, a jelentés egyik értelmezése. Megnéztük, mely szavak disztribúciós jelentése változott meg leginkább az évtizedek során, illetve melyek térnek el a legjobban a kiindulási állapottól.

Kumulatív sodródás

A jelentés halmozott eltávolodása a kiinduló évtizedtől.

Szomszédos szavak korszakonként

Egy célszó társszavai egy adott évtizedben: a középső csomópont a célszó, körülötte a legerősebben együtt-előforduló szavak. Az élek vastagsága a kapcsolat erősségét (relatív együtt-előfordulás) jelzi.

Alkotói hálózat

A szövegek alkotóinak hálózata úgy készült, hogy ha egy dalszöveghez több mint egy alkotó tartozik, akkor azok közé éleket húztunk. Ha adott dalon A, B és C dolgozott, akkor A, B és C mint csomópont bekerült a hálózatba és AB, AC, és BC élek is (itt a sorrend nem számít, tehát AB és BA ugyanaz). Az így kapott hálózatnak kinyertük az úgynevezett gerinchálózatát, azaz a legjelentősebb csomópontjait és éleit. Az eredeti 14 426 alkotó között 39 748 élt találtunk, a gerinchálózatba 1994 csomópont és 2066 él került.

Népszerűség

A legkeresettebb sztárok

Az előadók átlagos havi magyar Wikipédia-megtekintése (a 2015 júliusától 2026 júniusáig terjedő időszak átlaga).

A slágerlista legnagyobbjai

A legtöbb év végi MAHASZ-slágerlistás megjelenés 2003 és 2022 között. Az egyes oszlopokra mutatva az összes megjelenés száma és a legjobb elért helyezés is látszik.

A legnépszerűbb nemzedék

Mely korszakokra vagyunk a leginkább kíváncsiak? Megszámoltuk az előadók átlagos Wikipédia-megtekintését az első daluk vagy albumuk megjelenésének évtizede szerint.

A projektről

A dalszövegeket a Kaggle (Genius dataset), Wikidata, Common Crawl adatbázisokból nyertük ki, illetve korábban a zeneszoveg.hu oldalról scrapeltük. Az adatgyűjtés 2026.06.01. és 2026.06.12. között történt.

A metaadatok (megjelenés éve, szerző, előadó, stílus) a MusicBrainz, Discogs, Wikipedia (dbpedia), Wikidata adatbázisokból származnak, illetve a MAHASZ oldalait scrapeltük.

A langdetect csomag segítségével kiszűrtük a nem magyar dalszövegeket, majd MinHash-LSH segítségével kiszűrtük a duplikátumokat. HuSpaCy segítségével dolgoztuk fel a szövegeket (lemmatizálás, tokenizálás, stb.). A topikmodell BERTopic segítségével készült, huBERT beágyazásokkal. A szókincs változatosságát a MATTR (mozgóablakos típus-token arány) mérőszámmal mértük, a dalok zenei stílusát pedig a Discogs-kiadások alapján határoztuk meg.

Az érzelemfelismeréshez a MilaNLProc/xlm-emo-t modellt használtuk. A diakrón szóbeágyazásokat a chronowords csomaggal készítettük el.

A projekt korábbi, 2020-as változata a blogunkon olvasható: „Ezek minden idők leggyakoribb és legfontosabb szavai a magyar popslágerekben” (2020).

Licenc: Nevezd meg! – Ne add el! – Így add tovább! 4.0 Nemzetközi (CC BY-NC-SA 4.0)

info: hello@crowintelligence.org