Sémantické prostory českého zpravodajství

Algoritmus word2vec, zjednodušeně řečeno, umožňuje vyhledat ve velkých textových korpusech sémanticky blízká slova. V podstatě jde o natrénovanou neuronovou síť, která se snaží předpovědět, jaká slova budou tvořit kontext konkrétního slova.

My jsme se v naší aplikaci inspirovali projektem serveru Pro Publica How Machines Learn to Be Racist, který naučil tuto neuronovou síť najít blízká slova v korpusech amerických médií.

Pro naše účely jsme vytvořili korpusy pro pět skupin českých médií, u nichž jsme měli dostatek dat. Proto oproti původní typologii nejsou některá média zahrnuta a média zařazená do hlavního proudu jsme rozdělili na dvě skupiny. Do první jsme zařadili samostatně Novinky.cz, které mají spíš středolevé a levicové publikum, do druhé pak média se spíše středopravicovým a pravicovým publikem.

  • Antisystémové: Nová republika, Vlastenecké noviny, Rukojmí, Svobodné noviny, AC 24, Czech Free Press, ČeskoAktuálně, Aeronet, NWOO, Protiproud, Bez Politické Korektnosti, Outsider Media a Zvědavec
  • Politický bulvár: Parlamentní listy, První zprávy a Eurozprávy
  • Bulvár: Blesk a Aha Online
  • Hlavní proud – levý střed: Novinky
  • Hlavní proud – pravý střed: iHned, iDnes, Lidovky a Aktuálně

Analyzované korpusy obsahují všechny články publikované na uvedených serverech v době mezi zářím 2017 a zářím 2018. Pro lepší výsledek jsme strojově převedli všechna tato slova do základních tvarů (tzv. lemmatizovali) pomocí knihovny UDPipe.

Výsledky jsou seřazeny podle abstraktní vzdálenosti. Tučně jsou pak zvýrazněna ta slova, která jsou typická pro jednotlivé typy médií.

Tento projekt byl připraven ve spolupráci se Studii nových médií FF UK.

Bez nezávislých médií se nemůžeme správně rozhodovat. Podpořte nás.

Užíváme cookies, abychom vám zajistili co možná nejsnadnější použití našich webových stránek. Pokud budete nadále prohlížet naše stránky předpokládáme, že s použitím cookies souhlasíte.