Odstranění nejednoznačnosti Odstranění nejednoznačnosti je proces identifikace významu slova v rámci věty nebo jiného kontextu. V lidském jazykovém zpracování a poznání je tento proces obvykle podvědomý/automatický, ale může se dostat do vědomého povědomí, když nejednoznačnost naruší jasnost komunikace, vzhledem k všudypřítomné polysémii přirozeného jazyka. V počítačové lingvistice je to otevřený problém, který ovlivňuje jiné počítačové psaní, jako je diskurz, zlepšování relevance vyhledávačů, řešení anafory, soudržnost a inference. Vzhledem k tomu, že přirozený jazyk vyžaduje odraz neurologické reality, jak je utvářen schopnostmi poskytovanými neuronovými sítěmi mozku, informatika má dlouhodobou výzvu ve vývoji schopnosti počítačů provádět zpracování přirozeného jazyka a strojové učení. Bylo zkoumáno mnoho technik, včetně metod založených na slovnících, které využívají znalosti zakódované v lexikálních zdrojích, metod strojového učení s učitelem, ve kterých je pro každé odlišné slovo na korpusu ručně označených příkladů vycvičen klasifikátor, a zcela nesupervidovaných metod, které seskupují výskyty slov, čímž indukují slovní významy. Mezi těmito přístupy byly dosud nejúspěšnějšími algoritmy strojového učení s učitelem. Přesnost současných algoritmů je těžké uvést bez řady výhrad. V angličtině je přesnost na hrubozrnné (homografové) úrovni běžně nad 90 % (k roku 2009), přičemž některé metody u konkrétních homografů dosahují přesnosti přes 96 %. U jemnějších rozlišení významu byly v hodnotících cvičeních (SemEval-2007, Senseval-2) hlášeny nejvyšší přesnosti od 59,1 % do 69,0 %, kde základní přesnost nejjednoduššího možného algoritmu, který vždy vybírá nejčastější význam, byla 51,4 % a 57 %.
Facebook Twitter