Проблемы использования Мастера поиска англоязычной научно-технической информации и некоторые способы их разрешения.

1. Неудачная формулировка технического задания на поиск
  Пример
2. Неудачный перевод
  Примеры
  Частные выводы

1. Неудачная формулировка технического задания на поиск.

В Мастере поиска англоязычной научно-технической информации (далее - "Мастер") для ввода технического задания на поиск используется поле НАЗВАНИЕ (название проекта поиска, название поискового проекта, название проекта, задача поиска, формулировка проблемы). Оперируя словами названия, Мастер поэтапно приводит пользователя к поисковым запросам высокого качества для различных англоязычных баз научно-технической информации (далее - "НТИ") и поисковых служб.

Поисковыми запросами высокого качества считаются запросы к базам данных, результаты поиска по которым достаточно точны и максимально полны.

Точными считаются результаты поиска, 80-90% которых нравятся или полезны пользователю. Для повышения точности поиска в Мастере можно внутри альтернативных полей формы вместо одиночных терминов использовать группы терминов, например, вместо "formalin" искать "in formalin". Кроме того, в Мастере предусмотрена возможность последовательно "Повысить точность поиска в текстах".

Достаточно полными можно считать результаты, число которых хотя бы на порядок (в 10 раз) превышает количество нравящихся пользователю материалов, полученных по запросам только из слов формулировки названия поискового проекта. Для увеличения полноты поиска Мастер предлагает достаточно много способов, в частности, автоматическое и ручное расширение поисковых запросов словоформами, однокоренным словами, синонимами, эквивалентами существенных терминов из названия проекта.

По опыту взаимодействия разработчика Мастера с конкретными заказчиками услуг поиска уточнение задачи поиска - важнейший процесс, требующий определенных усилий от заказчика и исполнителя работ. Для уточнения задания на поиск можно использовать стандартный бланк типа http://www.5186364.ru/webagent.htm. Неточное название поискового проекта превращает использование Мастера в бесполезную трату времени.

При единоличном использовании Мастера создается иллюзия совмещения в одном лице и заказчика и исполнителя поиска. На следующий день или год Вы будете с ужасом смотреть на неряшливо названный проект и мучительно вспоминать, что же все-таки Вы имели ввиду. Ситуация усугубляется при коллективном создании поисковых проектов с использованием Мастера и при повторном их использовании.

Поэтому тщательное формулирование названия поискового проекта

  1. гарантирует достаточную точность результатов поиска,
  2. спасает Вас от потери времени при его исполнении на Мастере, при повторном использовании сохраненного проекта, в случае коллективной работы с результатами поиска и
  3. упрощает поиск и систематизацию сохраненных поисковых проектов, а также автоматическое пополнение корпоративной базы научно-технической информации.

Хорошая формулировка названия поискового проекта одновременно является

  1. ПРОДУКТИВНОЙ, т.е. результаты поиска полезны для решения проблемы потребителя,
  2. ИСЧЕРПЫВАЮЩЕЙ, т.е. включает все существенные условия решаемой проблемы потребителя,
  3. ДЕТАЛЬНОЙ, т.е. совокупность всех терминов не требует уточнения, а отдельные термины не нуждаются в замене на подчиненные термины,
  4. ПОНЯТНОЙ, т.е. использует общепринятые термины в лексическом окружении, исключающих их неоднозначное понимание третьими лицами (а не только автором),
  5. СТАНДАРТНОЙ, т.е. в основном использующей термины из официального или корпоративного стандарта, нормативного акта, классификатора, словаря, тезауруса,
  6. ПЕРСПЕКТИВНОЙ, т.е. отражает планы и намерения пользователя результатов поиска. Тут нужно быть аккуратным в случае размещения заказа на поиск на стороне. Не все сторонние исполнители задумываются над проблемой утечки конфиденциальной информации заказчика и берут на себя ответственность в части ее защиты и неразглашения.

Пример. Пользовательская формулировка названия проекта: "Исследование олигомерного состава формалина" неудачна по многим причинам:

2. Неудачный перевод.

Проблема адекватного машинного перевода текста с одного языка на другой не будет решена никогда. Разработчики Мастера являются последовательными противниками теории искусственного интеллекта и не планируют заниматься созданием систем машинного перевода. Поэтому Мастером автоматически используются и предлагается для ручного использования одновременно несколько сравнительно неплохих баз данных для переводов слов, фразеологических оборотов и фрагментов текста. Все эти машинные переводчики разработаны третьими лицами. За качество машинного перевода разработчики Мастера ответственности не несут, однако считают, что использование баз данных из миллионов отраслевых русско-английских фразеологических эквивалентов полезно для улучшения полноты англоязычного поиска. Для облегчения работы с переводом русскоязычного названия можно использовать поле для пользовательских терминов и многочисленные машинные переводчики.

Окончательное решение о формулировке англоязычного названия поискового проекта и об используемых для поиска иностранных терминах принимает пользователь. Все поля с иностранным эквивалентами открыты для редактирования и оставление в них некорректных по мнению пользователя иностранных терминов и формулировок остается на совести авторов поисковых проектов, выполненных на Мастере.

Для расширения реестра изучаемых иностранных эквивалентов нужно на этапе разбора названия нужно из отчета Мастера изучить ссылки "+ дополнительно : ПТ 1, ПТ 2, ПТ 3" и вставить в предшествующее им поле заинтересовавший Вас термин.

Для принятия решения об использовании конкретного термина в поиске на этапе разбора названия нужно из отчета Мастера для конкретного термина, например,

  1. по ссылке с названием термина жирными заглавными буквами, например, MEASURING нужно оценить число материалов НТИ, использующих этот термин; если термин используется более чем в 10 тыс. документов, продолжаем изучение;
  2. по следующей ссылке перевод можно оценить многозначность термина и его соответствие русскоязычному существенному термину; по опыту разработчиков Мастера достаточно продуктивен для подбора новых терминов и оценки соответствия просмотр отраслевых подборок, например, Полимеры, а также просмотр реестров отсортированных по числу документов, найденных Гугл g-sort; интересные термины тут же добавляются в поле снизу реестра англоязычных эквивалентов;
  3. по следующей ссылке терминологическая статья можно изучить синонимы (Synonyms), подчиненные термины (Narrower terms), ретроспективную частоту использования (Word frequency history); интересные термины также добавляем в реестр для изучения;
  4. если остались сомнения в части многозначности термина, можно (но необязательно) изучить англоязычные определения термина по ссылке определения;
  5. если все проверки базового термина (кроме п.iv.) завершились положительно, по ссылкам после слова "Словоформы:" изучаем частоту использования словоформ, например, инфинитива measure. Отмечаем все словоформы с частотой использования более 10 тыс.

Примеры:

  1. Никто не мешает неудачный автоматический перевод названия "Исследование олигомерного состава формалина" => "Investigation of the oligomeric formaldehyde" заменить на более подходящий, например, "Determination of Formaldehyde Oligomers in Formalin". Такой перевод можно взять из названий или подходящих фрагментов текстов, которые Вам нравятся.
  2. Неудачный перевод редко используемых существенных терминов из названия проекта может катастрофически сказаться на полноте поиска. Термин "олигомерный" может быть переведен как "oligomerous" (115+), "oligomeric" (284,000+), "oligo" (518,000+), "oligomer" (254,000+) и "oligomers" (375,000+). В скобках приведено число документов по базе "СЦИРУС МЕТАПОИСК НТИ". Очевидно, что использование единственного термина "oligomerous" вместо цепочки альтернатив "oligomerous OR oligomeric OR oligo OR oligomer OR oligomers" снижает полноту поиска в 10000 раз. Добавление в цепочку альтернатив низкочастотного термина "oligomerous" никак не сказывается на полноте поиска, а лишь бесполезно удлиняет поисковый запрос.
  3. За неадекватным с точки зрения логики и в контексте решаемой задачи англоязычным переводом термина "формалин" как "formalin" или "Formaldehyde" следует генерация Мастером
    сильно шумящих (точность менее 5%) поисковых запросов:
    ГУГЛ (438+) + ГУГЛ Академия (1000+) + ГУГЛ Патенты США (1000+) + ГУГЛ Книги (393+) + ГУГЛ Картинки (1000+)
    СЦИРУС МЕТАПОИСК НТИ (16)
     ПОИСК И АНАЛИЗ ПАТЕНТОВ (13 патентов, 9+ патентных семейств)
    Причина неудовлетворительной точности результатов этого поиска в том, что в Мастере в один ряд альтернатив попали эквиваленты сразу двух существенных понятий "формалин" и "формальдегид", а существенный термин "исследование" вообще опущен. Неудовлетворительная полнота поиска обусловлена тем, что в Мастер попали редко используемые эквиваленты термина "олигомерный". Заметное превышение числа найденных материалов в Гугл против СЦИРУС и ПатСнап обусловлено Гугл-поиском с морфологией термина "oligomerous", что эти две специализированные поисковые системы не делают.
  4. С учетом приведенных выше соображений в части уточнения результатов поиска может быть проведена следующая замена в Мастере
    В результате последовательного применения обеих методов уточнения точность поиска возрасла до 80%, объем материалов для анализа сократился до обозримого количества, а полнота поиска возрасла минимально в 5 раз:
    ГУГЛ (85+) + ГУГЛ Академия (104+) + ГУГЛ Патенты США (1) + ГУГЛ Книги (103+) + ГУГЛ Картинки (46+)
    СЦИРУС МЕТАПОИСК НТИ (79+)
    ПОИСК И АНАЛИЗ ПАТЕНТОВ (126 патентов, 103+ патентных семейств).
    Интересно, что объем найденного через основной поисковый сервис Гугл меньше или сопоставим с объемами найденного через специализированные поисковые сервисы того же Гугл и специализированные базы НТИ.

Частные выводы на основе разобранного примера:

  1. Мастер позволяет пользователю без изучения языка поисковых запросов конкретной базы данных достичь точности поиска выше 80% по каждой базе данных из группы.
  2. Мастер уменьшает до обозримого минимума число документов для анализа.
  3. В сравнении с традиционной работой пользователя Мастер в 4 раза увеличивает число подходящих документов, найденных через отдельные поисковые сервисы (Гугл и др.).
  4. В сравнении с традиционной работой пользователя через основный поиск Гугл использование через Мастер всей совокупности поисковых служб Гугл позволяет в 6 раз увеличить число найденных подходящих документов.
  5. Использование через Мастер 16 баз данных позволяет в сравнении с основным поиском Гугл увеличить число найденных подходящих документов (полноту поиска) в 10 и более раз.
  6. Продуктивное использование Мастера требует от пользователя лояльности, аккуратности, некоторой практики самообучения или обучения.

Опубликовано по адресу: http://www.onlineti.ru/snt_sm_problem_solving.htm
Дата последнего редактирования 11.02.2016
© Кузнецов Сергей Валентинович