Машины фонд башкирского языка
Лингвистическая информационная система “Машинный фонд башкирского языка”
заведующий лабораторией лингвистики
ЛИНГВИСТИЧЕСКАЯ ИНФОРМАЦИОННАЯ СИСТЕМА
“МАШИННЫЙ ФОНД БАШКИРСКОГО ЯЗЫКА”
В печати периодически появляются сообщения о работе над машинными фондами татарского, чувашского, шорского языков [4]. Но нет указаний и ссылок на функционирующие информационные ресуры.
Основные положения МФБЛ были выдвинуты нами еще в начале 90-х годов прошлого столетия [5]. Непосредственная работа по созданию фонда началась в конце 2003 г. с разработки концепции и структуры фонда как системы баз данных, работающей на отдельных компьютерах Института истории, языка и литературы УНЦ РАН. В дальнейшем было принято решение о разработке сетевой концепции для ИИЯЛ и гуманитарных вузов. В 2005 г. окончательно утвердилась концепция машинного фонда в виде открытой сетевой системы с доступом через Интернет.
Что же собой представляет этот фонд, какие возможности в ней заложены? Данная информационная система включает в себя специализированные базы данных, интерфейсы для выполнения запроса к базам и программные обеспечения для обработки этих запросов. На рис. 1 представлена структурная схема информационной системы.
Рис. 1. Структура машинного фонда башкирского языка.
Фонд разработан на базе СУБД Oracle и функционирует на специально выделенном сервере по адресу www. mfbl. ru.
На сегодня информационная система имеет 7 крупных разделов, состоящих из нескольких баз данных, которые образуют подфонды единого машинного фонда:
— подфонд генеральной картотеки;
— подфонд каталога рукописных книг;
— подфонд каталога старопечатных книг;
1. Подфонд генеральной картотеки содержит основную информацию о лексической системе языка. В базе в структурированном ввиде находятся более 100000 слов всех пластов языка.
Подфонд дает информацию о таких характеристиках слова как часть речи, происхождение слова, стиль, диалектное/литературное, устаревшее/активное, нарицательное/собственное и др. Всего разработаны более 50 помет для каждого слова. Все слова представлены в базе своими парадигмами употребления в языке и для каждой парадигмы приводятся примеры употребления из текстов с указанием источника печатного материала (названия, автора и даты издания). Баз данных этого подфонда связана с базами других подфондов, в частности, в генеральной картотеке можно поставить задачу выяснения “зафиксировано ли рассматриваемое слово в каком либе лексикографическом труде”. При этом система выдает список словарей из лексикографического подфонда. Поскольку основную часть базы данных лексикографического подфонда составляют русско-башкирские терминологические словари, было решено осуществлять поиск фиксации слова как по заглавному слову словаря, так и по встречаемости слова в статье перевода.
2. Лексикографический подфонд дает информацию о слове исходя из существующих словарей башкирского языка. База данных этого подфонда на сегодня состоит из более 50-ти структурированных словарей с общим объемом словарных статей порядка 500 000 единиц.
В базе представлены как академические, так и учебные одноязычные и двуязычные словари, словари-справочники. Для удобства работы все они сгруппированы в шесть тематических групп: общефилологические двуязычные словари с башкирского языка; общефилологические двуязычные на башкирский язык; двуязычные терминологические словари; одноязычные словари (толковый, фразеологический, синонимический); словари-справочники; частотные словари.
Пользователь может работать с одним выбранным словарем, с группой словарей или со всеми словарями одновременно. Возможен поиск слова по совпадению как с начала, так и по фрагменту в любой части. Словари представлены в базах данных в структурированном виде.
3. В экспериментально-фонетическом подфонде даются артикуляционные и экспериментальные характеристики вокализмов и консонант башкирского языка. На данный момент экспериментальные характеристики представлены амплитудно-частотными графиками и сонограммами, которые получены силами сотрудников лаборатории. Фонемы можно прослушать. В подфонде также представлен фонетический словарь объемом в 8000 единиц. Кроме научного интереса, фонетический подфонд представляет большой интерес для изучающих башкирский язык самостоятельно.
4. С целью ознакомления научного мира с существующими источниками башкирского письменного литературного языка в МФБЯ представлены два каталога: рукописных и старопечатных книг. Общий объем баз этих каталогов составляет более 2000 единиц. Каталог рукописных книг содержит в себе описание рукописных книг из фонда Института истории, языка и литературы УНЦ РАН.
В каталогах описываются такие характеристики книг как заглавие (перевод на русском языке), заглавие в транслитерации, автор (автор произведения), автор в транслитерации, переписчик (кем переписана рукописная книга), год (дата когда переписана книга переписчиком), объем (в листах), формат (кодекса и текста, количество строк на странице), характеристика, аннотация (краткое описание содержания книги), коллекция (кем, где и когда найдена книга, последний владелец книги), язык текста, палеографические сведения, библиография (ссылки на данную рукописную книгу), место издания книги, типография, год издания, сигл и т. д.
Рис.2. Вид интерфейса лексикографического подфонда.
5. Работа по диалектологическому подфонду была начата в 2008 году. На сегодня этот подфонд состоит из трех самостоятельных баз данных. Это лексическая, картографическая и текстологическая базы.
В лексическом представлена информация о диалектной лексике. База данных содержит более 52000 диалектных единиц с шестью информационными полями: само диалектное слово, часть речи, диалект, говор, литературная норма, русский перевод.
В картографическом разделе представлена информация по диалектологическому атласу башкирского языка. База данных диалектологического атласа позволяет выбрать типы языковых явлений (фонетический, морфологический, синтаксический, лексический), для каждого типа определены конкретные изоглоссы. Изоглоссы выделяются по 250 опорным пунктам республики и сопредельных районов, по которым сотрудниками Института истории, языка и литературы были собраны экспедиционные материалы с 1973 г. по 1980 г.
Текстологическая база данных начала создаваться в 2009 г. Здесь представлены образцы устной речи, собранные во время экспедиций в разные годы сотрудниками ИИЯЛ. В базе можно производить выбор текстов по лингвистическим и экстралингвистическим параметрам: диалект, говор, год записи, образование информатора, пол информатора, возраст информатора, национальность.
6. Грамматический подфонд включает гипертекстовое представление академической грамматики, алгоритмическую грамматику словоизменительной системы башкирского языка и квантитаивную морфологическу базу, выдающую статистические показатели по словоизменительным морфемам, включая и комбинаторные данные этих морфем.
В чем же заключается практическое значение разработанной информационной системы?
1. Во-первых, Фонд является инструментом для новых лингвистических исследований как по лексикологии, так и по морфологии языка, поскольку иллюстрационные материалы в генеральной картотеке даются по морфологическим парадигмам слов.
2. Во-вторых, Фонд является инструментом для лингводидактических целей. В частности при подготовке текстовых иллюстраций для учебников. В учебной лексикографии. В последнем случае ключевым моментом является отбор слов, составление самого словника. Представленные в фонде частотные словари позволяют также оптимизировать этот процесс. В плане лингводидактики, Министерство образования РБ активно пропагандирует Машинный фонд учителям башкирского языка.
3. Машинный фонд является инструментом для реализации башкирского языка как второго государственного. Для освоения языка необходим широкий доступ к справочным материалам: грамматическим, фонетическим, словарным. Да, такие печатные материалы издаются, но не всегда они бывают под рукой. Функционирование фонда в сети Интернет помогает решать эту проблему. В этом плане с фондом работают все члены терминологических комиссий как городских, так и районных. Поскольку к ним много обращений для перевода текстов вывесок, бланков и аншлагов. Искать перевод в базе — гораздо удобнее чем в более 50 книжных словарях. В лексикографический подфонд много обращений со стороны учащихся школ и техникумов республики.
Рис. 3: Диаграмма посещаемости разделов Машинного фонда.
4. Информационная система вносит вклад и в обучение представителей этноса, живущих за пределами республики, которые испытывают трудности в самих печатных материалых.
Рис.4 Диаграмма географии посещаемости фонда.
К фонду обращаются из Оренбургской, Пермской, Челябинской, Свердловской, Саратовской и других областей, из Казани, Санкт-Петербурга, Владивостока. Это показывает, что МФБЯ становится не только инструментом сугубо научного и образовательного значения но и своего рода площадкой духовного сплочения этноса, каковыми являются все информационные порталы гуманитарного направления.
А обращения из стран ближнего и дальнего зарубежья (Норвегия, Германия, Польша, Турция, Йемен, Украина, Казахстан, Узбекистан и т. д.) напрямую указывает, что фонд становится средством активной пропаганды и ознакомления мировой цивилизации с башкирским языком.
2. Машинные фонды языков народов СССР: Материалы рабочего совещ. (Тбилиси, 15-22 сент. 1987 г.). – Тбилиси, 1988; Машинные фонды языков народов СССР: материалы рабочего совещания (Таллинн, 19-22 декабря 1988). Таллинн: Инст. яз. и литературы АН ЭстССР, 1988. 21с.
Презентация Машинного фонда башкирского языка
12 апреля 2019 г. во время Всероссийского съезда учителей башкирского языка и литературы в Конгрес-холле «Торатау» прошла презентация Машинного фонда башкирского языка (МФБЯ), на котором присутствовали исполняющий обязанности Главы Республики Башкортостан Радий Фаритович Хабиров и члены Правительства Республики Башкортостан. Презентацию открыл директор Института истории, языка и литературы УФИЦ РАН д.г.н., проф. Айбулат Валиевич Псянчин. С информацией о Машинном фонде выступил заведующий лаборатории лингвистики и информационных технологий ИИЯЛ УФИЦ РАН к.ф.н. Зиннур Амирович Сиразитдинов. Он рассказал о структуре и содержании Машинного фонда, отметив, что информационная система Машинный фонд башкирского языка разработана в лаборатории лингвистики и информационных технологий ИИЯЛ УФИЦ РАН для широкого круга лингвистов: ученых, учителей, студентов и учащихся школ. МФБЯ представляет систему поиска лингвистической информации по башкирскому языку и включает 10 разделов на сегодняшний день.
З.А. Сиразитдинов подробно остановился на словарном разделе, который представляет информацию о слове на основе толкования его в словарях башкирского языка, включает 382701 словарное слово из 58 изданных в разные годы учеными Института и вузов словарей (двуязычные общефилологические словари, терминологические словари, словари-справочники, толковый, синонимический, фразеологический словари и др.). Руководитель лаборатории привел примеры использования корпусных разделов МФБЯ, которые на сегодня включают:
корпус прозаических текстов (15 млн. словоупотреблений);
корпус публицистических текстов (8 млн. словоупотреблений);
корпус башкирского фольклора (900000 словоупотреблений).
Особо были выделены функциональные возможности башкирских корпусов как: поиск по запросу примеры употребления отдельных слов, словосочетаний, грамматических форм и сочетаний грамматических форм, строить индивидуальные частотные словари произведений писателей.
Интерес у Радия Фаритовича вызвали примеры, выданные при поиске употребления слова “ҡыҙыл”. В частности, корпусный раздел по фольклору показал употребление словосочетания “ҡыҙыл тел” `красноречивый`, которое в современном башкирском языке уже забыто, и вместо него употребляется словосочетание с нейтральной окраской “матур тел”. Словосочетание “ҡыҙыл тел” является экспрессивным и стилистически окрашенным, входит в активный словарный запас родственных казахского и кыргызского языков. Данный пример показывает, что корпусы могут выступать как средство ознакомления носителей языка со всем лексическим богатством родного языка, способствовать восстановлению утраченной лексики, дальнейшему развитию литературного языка.
Машинный фонд башкирского языка является инновационным средством обучения родному языку, активно используется учителями при подготовке иллюстративных материалов к урокам, учениками при выполнении домашних и самостоятельных работ, методистами при подготовке учебников и контрольных тестов.
Машинный фонд башкирского языка (МФБЯ)
Описание: Машинный фонд как база лингвистических данных в России реализован только для русского языка. Данная информационная система является первой для башкирского языка. Для носителей башкирского языка 40 процентов которых проживает вне пределов республики это в особенности актуально.
Дата добавления: 2015-07-14
Размер файла: 17.31 KB
Работу скачали: 1 чел.
Поделитесь работой в социальных сетях
Если эта работа Вам не подошла внизу страницы есть список похожих работ. Так же Вы можете воспользоваться кнопкой поиск
Машинный фонд башкирского языка (МФБЯ).
1. Краткое описание разработки
Потребность в словарях, грамматическом и фонетическом материале остается всегда высокой, в особенности если материалы выставлены в виде базы данных а Интернете. Машинный фонд, как база лингвистических данных в России реализован только для русского языка. Разработка лаборатории лингвистики и информационных технологий является второй системой такого рода. Данная информационная система является первой для башкирского языка. Для носителей башкирского языка, 40 процентов которых проживает вне пределов республики, это в особенности актуально. Представление всей лингвистической информации в структурированном виде как системы баз данных с интерфейсом поиска позволяет мгновенно находить нужную для исследования или для дидактических целей информацию, является мощным инструментом для исследователей.
2. Преимущества разработки и сравнение с аналогами.
В отличии от машинного фонда русского языка (МФРЯ), фонд башкирского языка имеет более разнообразный материал. МФРЯ имеет лексикографическую и текстовую базы данных. МФБЯ включает в себя генеральную картотеку ФГБУН ИИЯЛ УНЦ РАН (накопленную коллективом филологов в течение 60 лет), лексикографический, экспериментально-фонетический, грамматический, диалектологический подфонды, каталоги рукописных и старопечатных книг. Аналогичные исследования ведутся в ряде тюркоязычных государств. В данной области ведется сотрудничество с Республикой Казахстан. Однако, машинный фонд языка не создан ни в одном из тюркоязычных государств.
3. Области коммерческого использования.
Области использования разработки: образование, обучение башкирскому языку, система машинного перевода.
Лингвистическая информационная система “Машинный фонд башкирского языка”
заведующий лабораторией лингвистики
ЛИНГВИСТИЧЕСКАЯ ИНФОРМАЦИОННАЯ СИСТЕМА
“МАШИННЫЙ ФОНД БАШКИРСКОГО ЯЗЫКА”
В печати периодически появляются сообщения о работе над машинными фондами татарского, чувашского, шорского языков [4]. Но нет указаний и ссылок на функционирующие информационные ресуры.
Основные положения МФБЛ были выдвинуты нами еще в начале 90-х годов прошлого столетия [5]. Непосредственная работа по созданию фонда началась в конце 2003 г. с разработки концепции и структуры фонда как системы баз данных, работающей на отдельных компьютерах Института истории, языка и литературы УНЦ РАН. В дальнейшем было принято решение о разработке сетевой концепции для ИИЯЛ и гуманитарных вузов. В 2005 г. окончательно утвердилась концепция машинного фонда в виде открытой сетевой системы с доступом через Интернет.
Что же собой представляет этот фонд, какие возможности в ней заложены? Данная информационная система включает в себя специализированные базы данных, интерфейсы для выполнения запроса к базам и программные обеспечения для обработки этих запросов. На рис. 1 представлена структурная схема информационной системы.
Рис. 1. Структура машинного фонда башкирского языка.
Фонд разработан на базе СУБД Oracle и функционирует на специально выделенном сервере по адресу www. mfbl. ru.
На сегодня информационная система имеет 7 крупных разделов, состоящих из нескольких баз данных, которые образуют подфонды единого машинного фонда:
— подфонд генеральной картотеки;
— подфонд каталога рукописных книг;
— подфонд каталога старопечатных книг;
1. Подфонд генеральной картотеки содержит основную информацию о лексической системе языка. В базе в структурированном ввиде находятся более 100000 слов всех пластов языка.
Подфонд дает информацию о таких характеристиках слова как часть речи, происхождение слова, стиль, диалектное/литературное, устаревшее/активное, нарицательное/собственное и др. Всего разработаны более 50 помет для каждого слова. Все слова представлены в базе своими парадигмами употребления в языке и для каждой парадигмы приводятся примеры употребления из текстов с указанием источника печатного материала (названия, автора и даты издания). Баз данных этого подфонда связана с базами других подфондов, в частности, в генеральной картотеке можно поставить задачу выяснения “зафиксировано ли рассматриваемое слово в каком либе лексикографическом труде”. При этом система выдает список словарей из лексикографического подфонда. Поскольку основную часть базы данных лексикографического подфонда составляют русско-башкирские терминологические словари, было решено осуществлять поиск фиксации слова как по заглавному слову словаря, так и по встречаемости слова в статье перевода.
2. Лексикографический подфонд дает информацию о слове исходя из существующих словарей башкирского языка. База данных этого подфонда на сегодня состоит из более 50-ти структурированных словарей с общим объемом словарных статей порядка 500 000 единиц.
В базе представлены как академические, так и учебные одноязычные и двуязычные словари, словари-справочники. Для удобства работы все они сгруппированы в шесть тематических групп: общефилологические двуязычные словари с башкирского языка; общефилологические двуязычные на башкирский язык; двуязычные терминологические словари; одноязычные словари (толковый, фразеологический, синонимический); словари-справочники; частотные словари.
Пользователь может работать с одним выбранным словарем, с группой словарей или со всеми словарями одновременно. Возможен поиск слова по совпадению как с начала, так и по фрагменту в любой части. Словари представлены в базах данных в структурированном виде.
3. В экспериментально-фонетическом подфонде даются артикуляционные и экспериментальные характеристики вокализмов и консонант башкирского языка. На данный момент экспериментальные характеристики представлены амплитудно-частотными графиками и сонограммами, которые получены силами сотрудников лаборатории. Фонемы можно прослушать. В подфонде также представлен фонетический словарь объемом в 8000 единиц. Кроме научного интереса, фонетический подфонд представляет большой интерес для изучающих башкирский язык самостоятельно.
4. С целью ознакомления научного мира с существующими источниками башкирского письменного литературного языка в МФБЯ представлены два каталога: рукописных и старопечатных книг. Общий объем баз этих каталогов составляет более 2000 единиц. Каталог рукописных книг содержит в себе описание рукописных книг из фонда Института истории, языка и литературы УНЦ РАН.
В каталогах описываются такие характеристики книг как заглавие (перевод на русском языке), заглавие в транслитерации, автор (автор произведения), автор в транслитерации, переписчик (кем переписана рукописная книга), год (дата когда переписана книга переписчиком), объем (в листах), формат (кодекса и текста, количество строк на странице), характеристика, аннотация (краткое описание содержания книги), коллекция (кем, где и когда найдена книга, последний владелец книги), язык текста, палеографические сведения, библиография (ссылки на данную рукописную книгу), место издания книги, типография, год издания, сигл и т. д.
Рис.2. Вид интерфейса лексикографического подфонда.
5. Работа по диалектологическому подфонду была начата в 2008 году. На сегодня этот подфонд состоит из трех самостоятельных баз данных. Это лексическая, картографическая и текстологическая базы.
В лексическом представлена информация о диалектной лексике. База данных содержит более 52000 диалектных единиц с шестью информационными полями: само диалектное слово, часть речи, диалект, говор, литературная норма, русский перевод.
В картографическом разделе представлена информация по диалектологическому атласу башкирского языка. База данных диалектологического атласа позволяет выбрать типы языковых явлений (фонетический, морфологический, синтаксический, лексический), для каждого типа определены конкретные изоглоссы. Изоглоссы выделяются по 250 опорным пунктам республики и сопредельных районов, по которым сотрудниками Института истории, языка и литературы были собраны экспедиционные материалы с 1973 г. по 1980 г.
Текстологическая база данных начала создаваться в 2009 г. Здесь представлены образцы устной речи, собранные во время экспедиций в разные годы сотрудниками ИИЯЛ. В базе можно производить выбор текстов по лингвистическим и экстралингвистическим параметрам: диалект, говор, год записи, образование информатора, пол информатора, возраст информатора, национальность.
6. Грамматический подфонд включает гипертекстовое представление академической грамматики, алгоритмическую грамматику словоизменительной системы башкирского языка и квантитаивную морфологическу базу, выдающую статистические показатели по словоизменительным морфемам, включая и комбинаторные данные этих морфем.
В чем же заключается практическое значение разработанной информационной системы?
1. Во-первых, Фонд является инструментом для новых лингвистических исследований как по лексикологии, так и по морфологии языка, поскольку иллюстрационные материалы в генеральной картотеке даются по морфологическим парадигмам слов.
2. Во-вторых, Фонд является инструментом для лингводидактических целей. В частности при подготовке текстовых иллюстраций для учебников. В учебной лексикографии. В последнем случае ключевым моментом является отбор слов, составление самого словника. Представленные в фонде частотные словари позволяют также оптимизировать этот процесс. В плане лингводидактики, Министерство образования РБ активно пропагандирует Машинный фонд учителям башкирского языка.
3. Машинный фонд является инструментом для реализации башкирского языка как второго государственного. Для освоения языка необходим широкий доступ к справочным материалам: грамматическим, фонетическим, словарным. Да, такие печатные материалы издаются, но не всегда они бывают под рукой. Функционирование фонда в сети Интернет помогает решать эту проблему. В этом плане с фондом работают все члены терминологических комиссий как городских, так и районных. Поскольку к ним много обращений для перевода текстов вывесок, бланков и аншлагов. Искать перевод в базе — гораздо удобнее чем в более 50 книжных словарях. В лексикографический подфонд много обращений со стороны учащихся школ и техникумов республики.
Рис. 3: Диаграмма посещаемости разделов Машинного фонда.
4. Информационная система вносит вклад и в обучение представителей этноса, живущих за пределами республики, которые испытывают трудности в самих печатных материалых.
Рис.4 Диаграмма географии посещаемости фонда.
К фонду обращаются из Оренбургской, Пермской, Челябинской, Свердловской, Саратовской и других областей, из Казани, Санкт-Петербурга, Владивостока. Это показывает, что МФБЯ становится не только инструментом сугубо научного и образовательного значения но и своего рода площадкой духовного сплочения этноса, каковыми являются все информационные порталы гуманитарного направления.
А обращения из стран ближнего и дальнего зарубежья (Норвегия, Германия, Польша, Турция, Йемен, Украина, Казахстан, Узбекистан и т. д.) напрямую указывает, что фонд становится средством активной пропаганды и ознакомления мировой цивилизации с башкирским языком.
2. Машинные фонды языков народов СССР: Материалы рабочего совещ. (Тбилиси, 15-22 сент. 1987 г.). – Тбилиси, 1988; Машинные фонды языков народов СССР: материалы рабочего совещания (Таллинн, 19-22 декабря 1988). Таллинн: Инст. яз. и литературы АН ЭстССР, 1988. 21с.