Лінгвістичні інформаційні системи

Не зупиняючись на відмінностях в інтерпретації поняття “лінгвістичне забезпечення” в сучасній проектній документації та класичній інформатиці, розглянемо його розробку для інформаційних, зокрема бібліотечних систем, як одну з прикладних задач комунікативної лінгвістики. При цьому процес роботи користувача з системою в режимі діалогу будемо інтерпретувати як вигляд мовного спілкування між двома комунікантами.

При дослідженні діалогу між двома комунікантами виділяються такі його аспекти, як комунікативна установка (інтенція, намір) розмовляючого, пресупозиціональна вимога спілкування, тобто "загальний фон знань" (база знань) користувача і системи, актуальне розчленовування тексту ( тобто співвідношення нового і старого, відомого в структурі його смислового змісту), а також способи знакового вираження значення, що передається, які в сукупності з "фоном знань" забезпечують адекватну передачу інформації, тобто узгодження передаючої та приймаючої частин системи комунікації. Справа в тому, що передаючому (розмовляючому) доводиться моделювати в своїй свідомості того, що приймає (адресата, що розуміє), настроюватися на свого співрозмовника, точніше - на його систему знань, способи вираження значення, комунікативну установку.

При розробці інформаційних систем створюються спеціальні засоби лінгвістичного забезпечення (ЛЗ) банків даних, які по можливості оптимальним образом формують умови для необхідного "розуміння" в комунікативній системі "людина - машина" і успішного вирішення інформаційно-пошукових задач. Засоби формування цих умов - формати представлення елементів машиночитаємих записів, інформаційно-пошукові мови (ІПМ) для тематичного або фактографічного пошуку і структура діалогу.

Якщо не звернути увагу на який-небудь аспект мовної комунікації користувача і системи, можуть виникати ситуації, коли відмінності в моделюванні ситуації спілкування, нерідко виникаючи і в розмові двох співрозмовників-людей, приведуть до істотних втрат інформації, до шуму при пошуку або іншого несприятливого результату.

Причина звертання в бібліотеку і зокрема до електронного каталогу (ЕК) - загальна комунікативна установка читача отримати документи (видання, рукописи), що володіють відомими йому характеристиками: належать певному автору, мають конкретні заголовки, опубліковані даним видавництвом, відповідають певній темі, трактують даний предмет і т.д., або відомості про наявність (місцезнаходження) таких документів.

"Установка" АІБС ЕК як комуніканта може бути лише одна - надати користувачеві максимально сприятливі умови для пошуку і забезпечити пошук необхідної інформації по довільному поєднанню пошукових ознак. Можливі "наміри" читачів розглядаються в ЕК як пошукові задачі. Розробник ЛЗ повинен в структурі ЛЗ передбачити засоби ідентифікації відповідних пошукових ознак і методи їх виявлення в записах бази даних. Природно, це виливається в розробку передмашинних форматів представлення елементів запису (наприклад, бібліографічних або авторитетних/нормативних) і засобів відображення смислового змісту документів.

Приступаючи до діалогу з ЕК, читач передбачає (можливо, несвідомо, аналогічно із зверненням до людини), в якості передумови, наявність у електронного каталогу деяких необхідних "знань" енциклопедичного характеру, зокрема, про ієрархічні або асоціативні зв’язки між поняттями. Крім того, читач в праві вимагати від ЕК "розуміння" (ідентифікації), що таке "автор", "рік видання" або "тема", інакше можуть виникнути непорозуміння, не кажучи про значне збільшення часу пошуку за кожною характеристикою шляхом суцільного перегляду машиною бібліографічних записів (БЗ) в базі даних ЕК.

Розумно вважати, що, насамперед, ЕК повинен пристосуватися до читача, у відповідності зі своєю "установкою", і в меншій мірі - читач до каталогу. У зв’язку з цим розробник забезпечує пресупозиціональні умови (попередню домовленість, попередні умови) комунікації, в цьому випадку - загальний фон знань комунікантів.

Знання бібліографічного характеру, як це прийнято в більшості систем, задаються машині у вигляді згаданого передмашинного формату. Так звані "енциклопедичні" знання про структуру предметних областей фіксуються в спеціальній базі даних ЕК, умовно званої "база знань", і що має вигляд словника -тезауруса або класифікації.

Як правило, в бібліотеках використовуються також такі допоміжні картотеки, або довідники, як "Картотека різночитань іноземних прізвищ", "Найменування організацій" (перейменування організацій, варіанти найменувань, абревіатури) і т.п. Їх введення в електронний каталог в формі нормативних записів означає формування цілого ряду довідкових баз даних, як додаткової пресупозиціональної умови успішного спілкування читача з ЕК. Дійсно, фіксація допустимих способів вираження одного і того ж поняття дає читачеві і ЕК шляхом звертання того або іншого з них в довідкові бази даних забезпечити однозначність вираження і сприйняття значення в діалозі. Таку ж роль узгодження лексики спілкування з системою виконують переліки допустимих значень окремих елементів БЗ. Хороші приклади - переліки кодів назв країн, видів носіїв, кодів мов і т.д. Тут необхідність взаємодії бібліотек безперечна.

Відносно підготовки форматів співпраця бібліотек в Україні і між бібліотеками різних країн досить розвинена. Прикладами можуть служити міжнародні конференції та семінари по форматах UNIMARC і USMARC, робочі групи по підготовці комунікативних форматів для бібліографічних і нормативних (авторитетних) записів на основі UNIMARC-форматів для відповідних записів.

Зараз, у відповідності зі спеціальною угодою, РДБ (Украіна) бере участь в спільних дослідженнях з фахівцями Бібліотеки Конгресу США, Національної бібліотеки Канади і Британської бібліотеки, направлених на зближення форматів з метою створення єдиного формату представлення елементів бібліографічних записів для вказаних бібліотек.

Що стосується забезпечення "взаєморозуміння" між читачем і ЕК на основі "баз знань", то, наприклад, РДБ пропонує в такій якості використати формалізовану і модернізовану Бібліотечно-бібліографічну класифікацію (ББК) в машиночитаємому вигляді з предметним входом до неї.

Користувач ЕК вводить гіпотетичний набір понять, висловлених звичайною мовою як пошуковий аргумент. Програмне забезпечення демонструє при виведенні на екран варіанти найменувань ділень класифікації, пов’язаних з цими словами, і показує семантичні відносини між найменуваннями. Потім користувач вибирає потрібну тему (предмет), і система показує на екрані бібліографічні записи. При цьому індекси він може не використати.

Цю відповідність між предметами (поняттями, термінами) і найменуваннями ми називаємо "предметним входом, або доступом" в ЕК або класифікації. Предметний доступ може служити засобом з’єднання лексичних одиниць різних природних мов з діленнями різних класифікацій і дескрипторів різних тезаурусів. Користувач зможе побачити найменування ділень з різних класифікацій, пов’язаних з пошуковим аргументом.

Як проект майбутнього, можна уявити собі банк даних, утримуючий багатомовний словник слів і словосполучень, які пов’язані з нормативними/ авторитетними записами для різних класифікацій і тезаурусів. Використання такого масиву даних корисне при пошуку в чужих базах даних. Бібліотеки не будуть залежати при цьому від відмінностей в мові та типі класифікації власного ЕК і придбаної бази даних або бази даних на чужому комп’ютері. Такий проект може сприяти організації тематичного пошуку в INTERNET.

Невеликим експериментом в даному напрямі можна вважати випуск в 1995р. декількома організаціями загального CD-ROM "Класифікаційні системи". Програмне забезпечення, що використовується на цьому диску, дозволяє шукати по слову відразу в різних класифікаціях і класифікаторах, отримуючи на екрані список відібраних ділень (рубрик).

Багато які бібліотеки в наш час вирішили використати в своїх автоматизованих системах тезауруси, але при цьому відчувається, що ними майже не використовується колишній досвід в цій області, накопичений при створенні інформаційно-пошукових систем.

Перші пропозиції про використання тезаурусів в інформаційно-пошукових системах з’явилися в 1957 р., а перші тезауруси для підвищення якості пошукових процесів створювалися на початку 60-х років. У 60-і - 70-і роки повністю розроблена теорія інформаційно-пошукових тезаурусів, опубліковані десятки, якщо не сотні, робіт зарубіжних і вітчизняних авторів. У публікаціях пропонуються методичні принципи збору і лексикографічної обробки ключових слів (КС), принципи встановлення семантичних відносин між ними, описується стандартна структура тезауруса.

Ми розглядаємо метод побудови тезаурусів за категоріальним принципом. Цей метод заснований на концептуальній моделі системи знань і використовувався в ряді ІПС.

Мова представлення знань розглядається в структурі людської діяльності, а формалізація семантики складається у вичлененні та формалізованому представленні деяких компонентів діяльності. Спосіб моделювання знань базується на гіпотезі про організацію знань в людській свідомості при пошуку інформації в масиві текстів.

Кожна область діяльності людини (галузь науки, техніки, господарства) виділяється, з ряду інших або за об’єктом діяльності, або за специфікою процесів, складаючих дану діяльність, або за засобами здійснення деякого класу процесів. Коротке визначення області діяльності можна дати, як правило, за допомогою пари вигляду < "предмети", "процеси">, < "процеси", "предмети"> або трійки < "предмет", "процес", "предмет">,, < "процес", "предмет", "процес">, в яких один з елементів виступає як ведучий.

У результаті виділяються наступні семантичні категорії елементів: процеси доцільної діяльності, або просто "процеси"; об’єкти діяльності і її засоби, тобто "предмети" як деякі матеріальні або ідеальні сутності (речі, особи, теорії, конструкти і т.д.); елементи, що характеризують "процеси" або "предмети" або що є слідством їх здійснення, існування, появи ( "супутні процеси, явища, стани)", "негативні явища", "характеристики" і "умови".

Подальший розподіл по більш вузьких категоріях виливається в процес побудови ієрархічних дерев по відношенню "рід-вигляд".

При цьому в одні і ті ж точки гілок цих дерев попадають ключові слова (КС), семантично умовно еквівалентні в даній області знання з точки зору інтересів інформаційного пошуку. Вони утворять дескриптори.

Вважаємо, що використання КС і тезаурусів доцільно лише в спеціальних бібліотеках, з каталогами по досить обмеженій тематиці. В універсальних бібліотеках це веде або до невиправданих витрат на непомірно трудомісткі розробки, або при їх відсутності - до дуже великих, спочатку непомітних, але непоправних втрат інформації при пошуку.

Аналогічно з теорією актуального розчленовування тексту в лінгвістиці, можна вважати, що, видаючи на екран меню і маски в якості повідомлення (реми), ЕК задає теми текстів - відповідей користувача. Тексти-відповіді виходять шляхом введення користувачем реми для запропонованої теми у вигляді тексту при заповненні екранних масок або номерів вибраних рядків меню.

Слід зауважити, що розробляємі для ЕК екранні тексти виявляються тим більше працездатними, чим, по-перше, повніше і точніше виражають майбутню тему тексту читача і, по-друге, чим менших знакових засобів вираження реми вимагають для формування повноцінного тексту-відповіді читача. Очевидно, що в людинно-машинній системі мовної комунікації однозначно зрозуміла тема (про що говориться на даному кроці діалогу) і максимально обмежені способи вираження реми стають однією із застав успіху роботи ЕК при пошуку. ЕК як би веде діалог за системою "підказка читачеві". Маска, меню, HELP і уточнення способів вираження по довідкових базах даних і являють собою не що інше, як 4 типи підказки. Саме в цьому і полягає значення вдосконалення структури діалогів в інформаційних системах.

<118 119 120121122 123 124 >

Дата добавления: 2014-12-04; просмотров: 1135;