Полiт.ua Государственная сеть Государственные люди Войти
21 октября 2017, суббота, 15:19
Facebook Twitter LiveJournal VK.com RSS

НОВОСТИ

СТАТЬИ

АВТОРЫ

ЛЕКЦИИ

PRO SCIENCE

СКОЛКОВО

РЕГИОНЫ

Новый метод значительно ускорит поиск информации

МФТИ

Сотрудниками Московского физико-технического института и Вычислительного центра РАН Андреем Кулунчаковым и Вадимом Стрижовым предложен новый метод автоматического построения ранжирующих моделей, которые используются для обработки запросов от пользователей на поиск информации в коллекциях документов или в интернете. Предлагаемый метод значительно повышает скорость построения моделей. Результаты исследования опубликованы в журнале Expert Systems with Applications, кратко о нем сообщает пресс-релиз МФТИ.

При поиске среди миллионов документов в сети пользователь ожидает в результате получить небольшой полезный список. Документы списка должны быть проранжированы согласно поисковому запросу. Остальные документы для пользователя являются информационным мусором. Цель поисковой системы – найти нужный документ по запросу небольшой длины. Предложенный метод строит ранжирующие модели, позволяющие быстро достигнуть этой цели. Подобные модели являются ядром современных поисковых систем. Ранжирующие модели, предназначенные для быстрого и точного поиска информации, используются во многих областях от спам-фильтров до колл-центров.

Ранжирующая модель строится на основе простейших математических функций. Подобная модель предполагает создание из них сложной функции, которая бы решала поставленную задачу. Работа ученых была направлена на оптимизацию способа построения такой модели. Качество построенной модели определяли в том числе, с помощью живой экспертной оценки адекватности получаемого списка документов.

Одним из способов построения моделей является генетическое программирование. Название оно получило из-за схожести с механизмом естественного отбора в природе. В ходе решения задачи строится множество промежуточных решений – «поколений» моделей, в большей или меньшей степени похожих на искомую модель высокого качества, максимально соответствующую запросу. Алгоритм отсеивает модели низкого качества путем «естественного отбора» и на основе оставшихся создает более подходящие. Лучшие «особи» имеют большую вероятность быть включенными в следующие поколения. Сменяя множество поколений, алгоритм приближается к оптимальному решению.

К сожалению, так происходит лишь в теории. На практике число моделей растет чрезвычайно быстро с ростом сложности. Для перебора моделей, состоящих всего лишь из восьми функций, вычисления занимают не менее суток. При этом следует перебрать все варианты, из которых в будущем может эволюционировать наилучшее решение. Андрей Кулунчаков и Вадим Стрижов в рамках своего исследования создали новый подход к порождению  ранжирующих моделей для поиска документов в больших коллекциях, не имеющих этих недостатков. Также исследователи решили проблему «стагнации».  Когда в сменяющих друг друга «поколениях» модели  структурно похожи и их «скрещивание» не дает существенно новых результатов, происходит «стагнация», или «застой». В таком случае вероятность появления качественной модели существенно снижается. Для того, чтобы избежать стагнации, в поколение добавляются новые модели с целью повышения разнообразия.

Чтобы показать, что созданный метод получает модели, превосходящие по качеству  современные альтернативы, авторы поставили численный эксперимент. Были использованы базы данных Национального института стандартов и технологий США, предназначенные для анализа и сравнения подобных систем. Они состояли из двух миллионов документов и двухсот тысяч запросов. Эксперимент показал, что полученные модели имеют более высокое качество ранжирования, согласно принятому критерию МАР – Mean Average Precision (популярная мера эффективности поиска информации). Сам же метод позволяет получить модель высокого качества за существенно меньшее время.

Обсудите в соцсетях

Система Orphus
Loading...
Подпишитесь
чтобы вовремя узнавать о новых спектаклях и других мероприятиях ProScience театра!
3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi Адыгея Александр Лавров альтернативная энергетика «Ангара» антибиотики античность археология архитектура астероиды астрофизика аутизм Байконур бактерии бедность библиотека онлайн библиотеки биология биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера бозон Хиггса британское кино Византия визуальная антропология викинги вирусы Вольное историческое общество воспитание Вселенная вулканология Выбор редакции гаджеты генетика география геология геофизика глобальное потепление грибы грипп дельфины демография дети динозавры ДНК Древний Египет естественные и точные науки животные жизнь вне Земли Западная Африка защита диссертаций землетрясение змеи зоопарк зрение Иерусалим изобретения иммунология инновации интернет инфекции информационные технологии искусственный интеллект ислам историческая политика история история искусства история России история цивилизаций История человека. История институтов исчезающие языки карикатура картография католицизм квантовая физика квантовые технологии КГИ киты климатология комета кометы компаративистика компьютерная безопасность компьютерные технологии космический мусор космос криминалистика культура культурная антропология лазер Латинская Америка лексика лженаука лингвистика Луна мамонты Марс математика материаловедение МГУ медицина междисциплинарные исследования местное самоуправление метеориты микробиология Минобрнауки мифология млекопитающие мобильные приложения мозг моллюски Монголия музеи НАСА насекомые неандертальцы нейробиология неолит Нобелевская премия НПО им.Лавочкина обезьяны обучение общество О.Г.И. одаренные дети онкология открытия палеолит палеонтология память папирусы паразиты педагогика планетология погода подготовка космонавтов популяризация науки право преподавание истории продолжительность жизни происхождение человека Протон-М психоанализ психология психофизиология птицы РадиоАстрон ракета растения РБК РВК РГГУ регионоведение религиоведение рептилии РКК «Энергия» робототехника Роскосмос Роспатент Россотрудничество русский язык рыбы Сергиев Посад сердце Сингапур сланцевая революция смертность СМИ Солнце сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры торнадо транспорт ураган урбанистика фармакология Фестиваль публичных лекций физика физиология физическая антропология финансовый рынок фольклор химия христианство Центр им.Хруничева черные дыры школа школьные олимпиады эволюция эволюция человека экология эмбриональное развитие эпидемии эпидемиология этика этнические конфликты этология Юпитер ядерная физика язык

Редакция

Электронная почта: politru.edit1@gmail.com
Адрес: 129090, г. Москва, Проспект Мира, дом 19, стр.1, пом.1, ком.5
Телефон: +7 495 980 1894.
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003г. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2014.