Сегодня четверг, 25.04.2024, 04:03, ньюсмейкеров: 44181, сайтов: 1206, публикаций: 3429203
25.08.2005 00:00
Новости.
Просмотров всего: 3567; сегодня: 1.

Поиск информации. Взгляд со стороны пользователя

Поиск информации. Взгляд со стороны пользователя

Каждый из нас не один раз в своей жизни сталкивался с проблемой поиска информации. Не важно, какой источник данных мы используем: интернет, файлы на диске, база данных или глобальная информационная система какой-либо крупной компании. Проблем может быть множество: это и физический объем «базы» в которой осуществляется поиск, и неструктурированность информации, и различные типы файлов, в которых эта информация содержится и даже сложность формулировки поискового запроса. Уже сейчас объемы информации, к примеру, на отдельно взятом персональном компьютере можно сравнить с объемами текстов приличной библиотеки. А потоки неструктурированных знаний в будущем будут только возрастать, притом гигантскими темпами. Если для обычных пользователей это еще пол беды, то для крупных компаний отсутствие контроля за информацией может означать большие проблемы. Таким образом, давно возникла потребность в создании систем и технологий поиска, облегчающих и ускоряющих доступ к нужной нам информации. Таких систем множество, да и не каждая система – это уникальная технология. И какую технологию именно выбрать – напрямую зависит от тех задач, которые предстоит решать. Спрос на совершенные инструменты поиска и обработки информации все более возрастает. Что же обстоит с предложением?
Не вдаваясь в различные изюминки технологий, программы и системы поиска можно поделить на три группы. Это глобальные поисковые интернет-системы, готовые решения для бизнеса (корпоративные технологии поиска и обработки информации) и простой файловый или фразовый поиск на локальном компьютере. Различные направления – по идее различное исполнение.
Локальный поиск. С файловым поиском на отдельно взятом персональном компьютере все просто. Он не отличается особыми возможностями и какими-либо изысками, разве что выбором типа файла (медиа, текст и так далее и места поиска). Вводим имя искомого файла (или часть текста, например, документа Word) и вперед. Скорость поиска и результат напрямую зависят от того, что мы вводим в строке запроса. Интеллектуальности тут по нулям – обычный перебор наличествующих файлов на предмет соответствия. Что, в общем-то, и оправдано – зачем создавать навороченную систему для столь нехитрых нужд?
Технологии глобального поиска. Совсем иначе дело обстоит с поисковыми системами, работающими в глобальной сети. Тут уже не до перебора. Гигантские объемы (тот же Яндекс может похвастаться индексацией более чем 11 терабайт данных), специфика организации и структуризации информации и глобальная хаотичность сделают простой поиск не только неэффективным, но и долгим и трудоемким. Поэтому в последнее время так продвинулись вперед разработки именно по оптимизации и улучшению поиска. Но пока схема все еще остается довольно простой (за исключением секретных нововведений каждой отдельно взятой системы) – фразовый поиск в проиндексированной базе документов с учетом морфологии и синонимов. Само собой, такой подход работает, хотя проблемы до конца не решает. Читая десятки страниц из различных статей, посвященных улучшению поиска с помощью того же Google или Yandex, можно прийти к выводу, что без знания скрытых возможностей данных систем найти нужный документ по запросу – дело не одной минуты, а иногда и не одного часа. Проблема в том, что такая реализация «поиска» очень зависима от фразы или слова «запроса», вводимого пользователем. Чем запрос расплывчатей, тем поиск хуже. Это уже аксиома. Или догма – как угодно. Конечно, при знании и толковом использовании ключевых функций поисковиков и правильном подборе фразы, по которой ищутся документы или сайты можно добиться вполне неплохих результатов. Но это плод кропотливого умственного труда пользователя и времени, затраченного на просмотр ненужной информации, но все же содержащей «наводки» хотя бы для «апгрейда» запроса. В общем, вводим фразу, просматриваем несколько результатов, убеждаемся, что искали не так, вводим новую фразу и так до того момента, пока соответствие не становится максимальным. Но и тогда шансы найти нужный документ все еще остаются довольно низкими. Заморачиваться с «расширенным поиском» (а он представлен, в принципе, неплохим набором функций – выбор языка, формата файла и так далее) обычный пользователь не будет. Хотелось бы просто ввести слово/фразу и получить ответ. А как он будет получен – не важно. Пусть лошадь думает – у нее голова большая. Может быть, это и не к месту, но одна из функций Гугля - «Мне повезет» очень хорошо характеризует поиск с помощью существующих технологий. Но все-таки она вертится. То есть, технология работает. Пусть не идеально и не всегда как нам хочется, но если сделать скидку на сложность поиска в хаосе интернет и на объем данных, то даже приемлемо.
Корпоративные системы. Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ «Hummingbird» или «Verity») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).
Промежуточное «Итого». Как видим, существующие на сегодняшний день системы и технологии поиска документов хоть и работают (частью даже замечательно), но все же не решают основной проблемы поиска в полной мере. Если устраивает скорость, то качество поиска оставляет желать лучшего. А если поиск точный и адекватный, то это требует уйму времени и вычислительных ресурсов. Можно, конечно, решить данную задачу очевидным способом – повышением вычислительной мощности. Но, ставить в офис систему из нескольких десятков ультра-скоростных компьютеров, которые будут без перерыва обрабатывать фразовые запросы из тысяч уникальных слов, перепахивая десятки гигабайт входящей корреспонденции,

Тематические сайты: PublisherNews - портал системы продвижения публикаций, Бизнес России, Глобализация, Клуб "Бизнес, информация", Центр положительного имиджа

Ньюсмейкер: SearchInform — 142 публикации
Поделиться:

Интересно:

Ранее неизвестные поселения позднего бронзового века найдены в Крыму
24.04.2024 18:02 Новости
Ранее неизвестные поселения позднего бронзового века найдены в Крыму
Учёные Крымского федерального университета обнаружили поселение позднего бронзового века на территории Караларского природного парка в керченском Приазовье. Об этом сообщила заведующая отделом естественнонаучных методов в археологии Научно-исследовательского центра истории и археологии Крыма КФУ...
Свыше 102 млрд руб. составила годовая выручка социального бизнеса
24.04.2024 17:05 Новости
Свыше 102 млрд руб. составила годовая выручка социального бизнеса
Минэкономразвития России актуализировало данные по деятельности социальных предпринимателей в экономике в целом и в региональном разрезе. На январь 2024 года в России зарегистрировано почти 11 тысяч социальных предприятий. Из них 7,8 — тысяч...
Объявлен конкурс на проект памятника «Детям войны» в Горно-Алтайске
24.04.2024 12:43 Новости
Объявлен конкурс на проект памятника «Детям войны» в Горно-Алтайске
Российское военно-историческое общество объявляет о начале творческого конкурса на лучший архитектурно-художественный проект памятника «Детям войны» в Горно-Алтайске. Подача конкурсных проектов авторами осуществляется до 18 часов 00 минут по московскому времени 20 мая 2024 года. В...
В Москве представили первый том издания «История России. В 20 томах»
24.04.2024 10:33 Новости
В Москве представили первый том издания «История России. В 20 томах»
В Доме Российского исторического общества был представлен первый вышедший том академического издания «История России. В 20 томах».  «История России. В 20 томах» — масштабный проект по написанию единой, научно выверенной отечественной истории. Идея создания подобного проекта была...
Как в Москве помогают бизнесу адаптироваться к правовым новшествам
24.04.2024 9:06 Новости
Как в Москве помогают бизнесу адаптироваться к правовым новшествам
Предприниматели обязаны следить за правовыми нововведениями и своевременно менять подходы к работе, а городские власти им в этом помогают. Законодательство в сфере торговли меняется и совершенствуется в интересах потребителя — это касается продажи алкогольной продукции и товаров с обязательной...