Как работают поисковики

Принципы работы поисковиков, системы индексирования сайтов и способы определения тональности текста.
Как работают поисковики

Что это такое лингвистические технологии? Люди говорят на естественных языках, таких, как английский, французский, немецкий, русский. Всего в мире более 6 тысяч живых языков. Языков, на которых говорят более миллиона человек, триста. Но есть языки, на которых говорят сотни миллионов, а есть языки, на которых говорят несколько сотен человек. Мы часто говорим об океане информации, в котором мы все утопаем. Но если посмотреть на эту информацию, то более 80% этой информации — это текст, речь, видео. Лингвистические технологии помогают нам найти эту информацию, обработать и сделать что-то полезное с этой информацией. Должен сразу оговориться, что мы говорим не о науке лингвистике, мы говорим о лингвистических технологиях, то есть о практических технологиях, которые позволяют нам сделать что-то полезное с информацией, заключенной в тексте или в речи.

Какие это технологии? Их примерно 5 областей. Во-первых, это технологии поиска информации. Мы все знакомы с поисковиками типа Google или Яндекс, уже трудно себе представить жизнь без таких технологий, без поисковиков. Во-вторых, это технологии извлечения информации. Скажем, если я напечатаю в Google или в Яндекс «на какие карты ставил Герман в повести “Пиковая дама”, поисковик найдет пиковую даму, но я-то уже знаю, что это пиковая дама, а вот тройка, семерка, туз — это уже извлекатель должен найти. Третья область технологий — это машинный перевод. Четвертая область — это генерация текста и речи. Например, из огромного количества данных как коротко объяснить, скажем, медсестре или врачу состояние больного ребенка или больного человека, или сделать прогноз погоды из тысяч данных, которые собирают метеорологические станции. Наконец, пятая область — это распознавание речи и общение с машинами.

Комментарии
Комментарии