Сегодня четверг, 27.02.2020, 01:58, ньюсмейкеров: 41311, сайтов: 1139, публикаций: 3177059
25.08.2005 00:00. Новости. Просмотров всего: 1602; сегодня: 1.

Поиск информации. Взгляд со стороны пользователя

Поиск информации. Взгляд со стороны пользователя

Каждый из нас не один раз в своей жизни сталкивался с проблемой поиска информации. Не важно, какой источник данных мы используем: интернет, файлы на диске, база данных или глобальная информационная система какой-либо крупной компании. Проблем может быть множество: это и физический объем «базы» в которой осуществляется поиск, и неструктурированность информации, и различные типы файлов, в которых эта информация содержится и даже сложность формулировки поискового запроса. Уже сейчас объемы информации, к примеру, на отдельно взятом персональном компьютере можно сравнить с объемами текстов приличной библиотеки. А потоки неструктурированных знаний в будущем будут только возрастать, притом гигантскими темпами. Если для обычных пользователей это еще пол беды, то для крупных компаний отсутствие контроля за информацией может означать большие проблемы. Таким образом, давно возникла потребность в создании систем и технологий поиска, облегчающих и ускоряющих доступ к нужной нам информации. Таких систем множество, да и не каждая система – это уникальная технология. И какую технологию именно выбрать – напрямую зависит от тех задач, которые предстоит решать. Спрос на совершенные инструменты поиска и обработки информации все более возрастает. Что же обстоит с предложением?
Не вдаваясь в различные изюминки технологий, программы и системы поиска можно поделить на три группы. Это глобальные поисковые интернет-системы, готовые решения для бизнеса (корпоративные технологии поиска и обработки информации) и простой файловый или фразовый поиск на локальном компьютере. Различные направления – по идее различное исполнение.
Локальный поиск. С файловым поиском на отдельно взятом персональном компьютере все просто. Он не отличается особыми возможностями и какими-либо изысками, разве что выбором типа файла (медиа, текст и так далее и места поиска). Вводим имя искомого файла (или часть текста, например, документа Word) и вперед. Скорость поиска и результат напрямую зависят от того, что мы вводим в строке запроса. Интеллектуальности тут по нулям – обычный перебор наличествующих файлов на предмет соответствия. Что, в общем-то, и оправдано – зачем создавать навороченную систему для столь нехитрых нужд?
Технологии глобального поиска. Совсем иначе дело обстоит с поисковыми системами, работающими в глобальной сети. Тут уже не до перебора. Гигантские объемы (тот же Яндекс может похвастаться индексацией более чем 11 терабайт данных), специфика организации и структуризации информации и глобальная хаотичность сделают простой поиск не только неэффективным, но и долгим и трудоемким. Поэтому в последнее время так продвинулись вперед разработки именно по оптимизации и улучшению поиска. Но пока схема все еще остается довольно простой (за исключением секретных нововведений каждой отдельно взятой системы) – фразовый поиск в проиндексированной базе документов с учетом морфологии и синонимов. Само собой, такой подход работает, хотя проблемы до конца не решает. Читая десятки страниц из различных статей, посвященных улучшению поиска с помощью того же Google или Yandex, можно прийти к выводу, что без знания скрытых возможностей данных систем найти нужный документ по запросу – дело не одной минуты, а иногда и не одного часа. Проблема в том, что такая реализация «поиска» очень зависима от фразы или слова «запроса», вводимого пользователем. Чем запрос расплывчатей, тем поиск хуже. Это уже аксиома. Или догма – как угодно. Конечно, при знании и толковом использовании ключевых функций поисковиков и правильном подборе фразы, по которой ищутся документы или сайты можно добиться вполне неплохих результатов. Но это плод кропотливого умственного труда пользователя и времени, затраченного на просмотр ненужной информации, но все же содержащей «наводки» хотя бы для «апгрейда» запроса. В общем, вводим фразу, просматриваем несколько результатов, убеждаемся, что искали не так, вводим новую фразу и так до того момента, пока соответствие не становится максимальным. Но и тогда шансы найти нужный документ все еще остаются довольно низкими. Заморачиваться с «расширенным поиском» (а он представлен, в принципе, неплохим набором функций – выбор языка, формата файла и так далее) обычный пользователь не будет. Хотелось бы просто ввести слово/фразу и получить ответ. А как он будет получен – не важно. Пусть лошадь думает – у нее голова большая. Может быть, это и не к месту, но одна из функций Гугля - «Мне повезет» очень хорошо характеризует поиск с помощью существующих технологий. Но все-таки она вертится. То есть, технология работает. Пусть не идеально и не всегда как нам хочется, но если сделать скидку на сложность поиска в хаосе интернет и на объем данных, то даже приемлемо.
Корпоративные системы. Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ «Hummingbird» или «Verity») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).
Промежуточное «Итого». Как видим, существующие на сегодняшний день системы и технологии поиска документов хоть и работают (частью даже замечательно), но все же не решают основной проблемы поиска в полной мере. Если устраивает скорость, то качество поиска оставляет желать лучшего. А если поиск точный и адекватный, то это требует уйму времени и вычислительных ресурсов. Можно, конечно, решить данную задачу очевидным способом – повышением вычислительной мощности. Но, ставить в офис систему из нескольких десятков ультра-скоростных компьютеров, которые будут без перерыва обрабатывать фразовые запросы из тысяч уникальных слов, перепахивая десятки гигабайт входящей корреспонденции,

Тематические сайты: Бизнес России, Глобализация, Клуб "Бизнес, информация", Центр положительного имиджа

Ньюсмейкер: SearchInform — 124 публикации. Вы можете направить ньюсмейкеру обращение, заявку

Контакты с пресс-службой:
E-mail: press@searchinform.com
Поделиться:
Ваше мнение
Какая инфраструктура жилой недвижимости наиболее приоритетна для Вас? Можно указать до 3-х вариантов ответа.
Возможных ответов: 3
 Общественный транспорт
 Личный транспорт
 Торговля, бытовые услуги
 Инфраструктура детства
 Медицина, здравоохранение
 Парки, скверы, зеленые насаждения
 Культура, развлечения
 Общественное питание
 Другое
 В приоритете цена-качество недвижимости
Предложите опрос

Интересно:

Первый в России фестиваль «Мир футбола» берет новые вершины.
22.02.2020 11:52 Мероприятия
Первый в России фестиваль «Мир футбола» берет новые вершины
«Некоторые говорят, что футбол — это вопрос жизни и смерти. Меня удручает такой подход. Уверяю, что футбол гораздо важнее!» Билл Шенкли Фестиваль «Мир футбола» казалось бы не так давно успешно отгремел в столице, собрав около 60 000 гостей, а также состоялся и в Сочи, где насчитывалось около 5000...
Топ-7 бизнес-идей в 2020 году
21.02.2020 23:06 Консультации
Топ-7 бизнес-идей в 2020 году
Стать успешным предпринимателем — не самая простая задача, но вполне выполнимая. Успех всегда проявляется с опытом, который достигается как на провалах, так и на достижениях предпринимателя и компании в целом. Главное не перекладывать свои проблемы и неудачи на правительство, налоги и отсутствие...
Вкусотеррия приглашает на Масленицу, 8 Марта и бразильский карнавал
20.02.2020 18:06 Мероприятия
Вкусотеррия приглашает на Масленицу, 8 Марта и бразильский карнавал
Кулинарная студия Вкусотеррия приглашает на весенние мастер-классы по приготовлению блюд и напитков перуанской, итальянской, грузинской, бразильской и других кухонь мира. Все мероприятия проходят под руководством известных шеф-поваров, на профессиональном оборудовании и в интерьерах одной из самых...
Создана комиссия по управлению здоровьем персонала
18.02.2020 19:12 Новости
Создана комиссия по управлению здоровьем персонала
Ассоциация менеджеров объявляет о работе новой площадки - межотраслевой комиссии по управлению здоровьем персонала, генеральным партнером которой выступила компания "АльфаСтрахование". Сопредседателями комиссии стали: Алиса Безлюдова, директор департамента маркетинга «Медицина» группы...
Откройте для себя лето с Pablosky
18.02.2020 2:58 Предложения товаров и услуг
Откройте для себя лето с Pablosky
Одна из ведущих международных компаний по производству обуви для детей и подростков Pablosky анонсирует поступление в продажу с 17 февраля 2020 г. новой коллекции сезона весна-лето 2020 под названием «Летнее приключение». Коллекция представлена широким ассортиментом обуви из натуральной кожи и...