Что такое Лемматизация


Поиск по сайту:



Лемматизация использующаяся поисковыми системами при индексировании контента

Термин «Лемматизация» имеет англоязычное происхождение и обозначает собой способ анализа морфологии слова. В ходе лемматизации слово приводится к своей изначальной форме, которая называется «лемма».

Лемматизация используется поисковыми системами в процессе индексирования текстового веб-контента.

Например:

- существительные сохраняются в единственном числе именительном падеже: голубей – голубь;

- глаголы сохраняются в инфинитивной форме: летавший – летать;

- прилагательные сохраняются в единственном числе, именительном падеже, мужском роде – серебристыми – серебристый.

Подобная практика позволяет объединить различные словоформы одного и того же слова под одним понятием (леммой), что облегчает процесс хранения и поиска информации.

Однако, стоит учитывать, что данный процесс не совершенен. В русском языке, как и любом другом, довольно часто встречаются слова-омонимы, которые имеют совершенно разный смысл при одинаковом написании.

Например, слова: Ной (имя собственное или глагол), вой (глагол или существительное). При лемматизации может быть утрачен первоначальный смысл понятия.


 
Автор: Vellte
http://wmr1000.ru/
Запрещено копировать без ссылки на сайт

 
Сделать закладку: