Diskuse:Strong

Pokus

Nejnovější komentář: před 9 lety2 komentáře2 lidé v diskusi

Tak tohle je spíš jen takový pokus, nástin, jak by to třeba mohlo vypadat. A vlastně nějak potřebuju vyřešit ten jediný verš. A ručními pracemi jsem trávil celý den :-( Takže je jasné, že kdyby se to mělo začít dělat "ve velkém", asi by to chtělo vymyslet trochu chytřejší model. Na to téma by pak mohla probíhat obdobná diskuse jako je třeba na Diskuse s uživatelem:Chomsky/Cizojazyčný slovníček (způsoby zobrazení). Ale co mě hlavně překvapilo, ptal jsem se na to už několika theologů a na VŠ jim v biblistice nikdo neříkal o Strongových číslech, neměli tušení, o co se jedná. A přitom to není žádná novinka, vydal to už před sto lety, bez počítačů, asi to měl všechno jen na kartičkách. Tak nevím, byl to z lingvistického či biblickovědného hlediska nějaký krok stranou, který moc praktického upotřebení nemá? --Kychot (diskuse) 17. 2. 2015, 15:56 (UTC)Odpovědět

Neřekl bych, že to byl krok stranou, spíše bych to považoval za nedoceněnou technologii. Rozhodně jsou Strongovy čísla něco, co trochu poodhaluje sémantiku slov, popřípadě vět. Když si člověk uvědomí, že slovo je tvořeno z několika částí (kořen, přípona, předpona, koncovka) a jistě by se našlo i detailnější vysvětlení ale nejsem lingvista; tak právě kořen slova nám říká o významu slova nejvíce, zatímco třeba koncovka (i když je samozřejmě důležitá) říká o významu slova méně. Například slovo "Doktor" a "Doktorka", mezi slovy je patrný rozdíl ale také mají velmi mnoho společného. Informace v sobě často obsahují i informační šum, ten na informaci působí jako entropie. Informací šum si tak lze představit jako něco co narušuje čitelnost nebo pochopení informace. Pokud jde o sémantiku, potom informační šum narušuje pochopení informace. Jinak řečeno hledání podle kořene není nejspolehlivější (ale je to možná i trochu dobře) ale umožnuje najít slova s podobným významem, tedy s určitou tolerancí na sémantický informační šum. Problémem se také zabývá téma "Rozšiřování dotazu pomocí sémantických prostorů", kde je sémantika slova reprezentována jako matice vektorů (tedy hodnot nabývající kladných i záporných čísel). Ty jsou využívány jako vyhledávací algoritmy CLEF, LSA, Coals, HAL, Beagle, RI. Tyto algoritmy jsou založeny na statistice slov a jejich výskytu v kontextu (nápadná podobnost se Strongovými čísly).--Kenjiro995 (diskuse) 17. 2. 2015, 17:59 (UTC)Odpovědět