Сегодня четверг, 02.07.2020, 19:12, ньюсмейкеров: 41618, сайтов: 1167, публикаций: 3239054
25.08.2005 00:00. Новости. Просмотров всего: 1766; сегодня: 2.

Поиск информации. Взгляд со стороны пользователя

Поиск информации. Взгляд со стороны пользователя

Каждый из нас не один раз в своей жизни сталкивался с проблемой поиска информации. Не важно, какой источник данных мы используем: интернет, файлы на диске, база данных или глобальная информационная система какой-либо крупной компании. Проблем может быть множество: это и физический объем «базы» в которой осуществляется поиск, и неструктурированность информации, и различные типы файлов, в которых эта информация содержится и даже сложность формулировки поискового запроса. Уже сейчас объемы информации, к примеру, на отдельно взятом персональном компьютере можно сравнить с объемами текстов приличной библиотеки. А потоки неструктурированных знаний в будущем будут только возрастать, притом гигантскими темпами. Если для обычных пользователей это еще пол беды, то для крупных компаний отсутствие контроля за информацией может означать большие проблемы. Таким образом, давно возникла потребность в создании систем и технологий поиска, облегчающих и ускоряющих доступ к нужной нам информации. Таких систем множество, да и не каждая система – это уникальная технология. И какую технологию именно выбрать – напрямую зависит от тех задач, которые предстоит решать. Спрос на совершенные инструменты поиска и обработки информации все более возрастает. Что же обстоит с предложением?
Не вдаваясь в различные изюминки технологий, программы и системы поиска можно поделить на три группы. Это глобальные поисковые интернет-системы, готовые решения для бизнеса (корпоративные технологии поиска и обработки информации) и простой файловый или фразовый поиск на локальном компьютере. Различные направления – по идее различное исполнение.
Локальный поиск. С файловым поиском на отдельно взятом персональном компьютере все просто. Он не отличается особыми возможностями и какими-либо изысками, разве что выбором типа файла (медиа, текст и так далее и места поиска). Вводим имя искомого файла (или часть текста, например, документа Word) и вперед. Скорость поиска и результат напрямую зависят от того, что мы вводим в строке запроса. Интеллектуальности тут по нулям – обычный перебор наличествующих файлов на предмет соответствия. Что, в общем-то, и оправдано – зачем создавать навороченную систему для столь нехитрых нужд?
Технологии глобального поиска. Совсем иначе дело обстоит с поисковыми системами, работающими в глобальной сети. Тут уже не до перебора. Гигантские объемы (тот же Яндекс может похвастаться индексацией более чем 11 терабайт данных), специфика организации и структуризации информации и глобальная хаотичность сделают простой поиск не только неэффективным, но и долгим и трудоемким. Поэтому в последнее время так продвинулись вперед разработки именно по оптимизации и улучшению поиска. Но пока схема все еще остается довольно простой (за исключением секретных нововведений каждой отдельно взятой системы) – фразовый поиск в проиндексированной базе документов с учетом морфологии и синонимов. Само собой, такой подход работает, хотя проблемы до конца не решает. Читая десятки страниц из различных статей, посвященных улучшению поиска с помощью того же Google или Yandex, можно прийти к выводу, что без знания скрытых возможностей данных систем найти нужный документ по запросу – дело не одной минуты, а иногда и не одного часа. Проблема в том, что такая реализация «поиска» очень зависима от фразы или слова «запроса», вводимого пользователем. Чем запрос расплывчатей, тем поиск хуже. Это уже аксиома. Или догма – как угодно. Конечно, при знании и толковом использовании ключевых функций поисковиков и правильном подборе фразы, по которой ищутся документы или сайты можно добиться вполне неплохих результатов. Но это плод кропотливого умственного труда пользователя и времени, затраченного на просмотр ненужной информации, но все же содержащей «наводки» хотя бы для «апгрейда» запроса. В общем, вводим фразу, просматриваем несколько результатов, убеждаемся, что искали не так, вводим новую фразу и так до того момента, пока соответствие не становится максимальным. Но и тогда шансы найти нужный документ все еще остаются довольно низкими. Заморачиваться с «расширенным поиском» (а он представлен, в принципе, неплохим набором функций – выбор языка, формата файла и так далее) обычный пользователь не будет. Хотелось бы просто ввести слово/фразу и получить ответ. А как он будет получен – не важно. Пусть лошадь думает – у нее голова большая. Может быть, это и не к месту, но одна из функций Гугля - «Мне повезет» очень хорошо характеризует поиск с помощью существующих технологий. Но все-таки она вертится. То есть, технология работает. Пусть не идеально и не всегда как нам хочется, но если сделать скидку на сложность поиска в хаосе интернет и на объем данных, то даже приемлемо.
Корпоративные системы. Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ «Hummingbird» или «Verity») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).
Промежуточное «Итого». Как видим, существующие на сегодняшний день системы и технологии поиска документов хоть и работают (частью даже замечательно), но все же не решают основной проблемы поиска в полной мере. Если устраивает скорость, то качество поиска оставляет желать лучшего. А если поиск точный и адекватный, то это требует уйму времени и вычислительных ресурсов. Можно, конечно, решить данную задачу очевидным способом – повышением вычислительной мощности. Но, ставить в офис систему из нескольких десятков ультра-скоростных компьютеров, которые будут без перерыва обрабатывать фразовые запросы из тысяч уникальных слов, перепахивая десятки гигабайт входящей корреспонденции,

Сферы деятельности: Бизнес России, Глобализация, Клуб "Бизнес, информация", Центр положительного имиджа

Ньюсмейкер: SearchInform — 129 публикаций. Вы можете направить ньюсмейкеру обращение, заявку

Контакты с пресс-службой:
E-mail: press@searchinform.com
Поделиться:
Ваше мнение
Каково Ваше отношение к выходу на работу по окончании карантина коронавируса?
 Хочу выйти на рабочее место
 Вполне могу продолжить работу дома
 Хочу работать только в удаленном режиме
 Работа требует присутствия на рабочем месте
Предложите опрос

Интересно:

Росгвардейцы приняли участие в всеармейском конкурсе "Военное ралли"
01.07.2020 12:45 Мероприятия
Росгвардейцы приняли участие в всеармейском конкурсе "Военное ралли"
В Кызыле подошел к концу всеармейский этап «Военное ралли» с участием представителей всех военных округов Министерства обороны России, воздушно-десантных войск, Северного флота и Росгвардии. В этом году сборную команду войск национальной гвардии представили военнослужащие Северо-Кавказского...
Роскультцентр проведет пленарную сессию "Креативного четверга"
30.06.2020 19:32 Мероприятия
Роскультцентр проведет пленарную сессию "Креативного четверга"
ФГБУ «Роскультцентр» и Фонд Инносоциум проведут пленарную сессию с лидерами креативных индустрий России. 2 июля состоится онлайн-митап региональных инициатив в творческих индустриях «Креативный четверг». Масштабное мероприятие пройдет в 4-х часовых поясах и продлится рекордные 24 часа. В...
Ржевскому мемориалу Советскому солдату присвоен кадастровый номер
30.06.2020 11:32 Новости
Ржевскому мемориалу Советскому солдату присвоен кадастровый номер
Ржевскому мемориалу Советскому солдату, который сегодня откроют президенты России и Белоруссии, присвоен кадастровый номер 30 июня 2020 года - Ржевский мемориал Советскому солдату поставлен на кадастровый учёт Управлением Росреестра по Тверской области 8 мая, накануне празднования 75-летия Победы...
«Савушкин продукт» провел марафон для миллионов пользователей Сети
29.06.2020 20:49 Мероприятия
«Савушкин продукт» провел марафон для миллионов пользователей Сети
Компания «Савушкин продукт» провела бесплатный онлайн-марафон #мотивацияTEOS, в котором четыре эксперта делились полезными практическими советами по правильному питанию, физическому здоровью и гармонии с самим собой в условиях удаленки и самоизоляции. В течение месяца публикации экспертов и...
Конаково: 16 квартир в подарок ветеранам ВОВ
29.06.2020 19:07 Персоны
Конаково: 16 квартир в подарок ветеранам ВОВ
26 июня  2020 года бизнесмен-строитель Юрий Шеляпин вручил 16 ветеранам Великой Отечественной войны ключи от новых квартир в построенном его холдингом доме на берегу Волги в городе Конаково Тверской области. В начале этого года президент московского строительного холдинга «Эко-Тепло» Юрий...