Смекни!
smekni.com

Электронные словари и их применимость для традиционного машинного перевода (стр. 6 из 13)

Особое использование алфавитного принципа имеем в обрат­ных словарях. Слова в этих словарях располагаются по алфавиту не начальных, а конечных букв слова: а, ба, баба, жаба, ...амёба, ...служба, ...изба, ...шайба, ...колба, ...дамба и т. д. до последних слов, оканчивающихся на -яя: передняя, ...безмужняя. Среди неалфавитных принципов расположения материала важней­шим является принцип систематики (логической классификации) понятий, выражаемых лексическими единицами. Именно по этому принципу строятся упомянутые выше идеографические словари (называемые также «идеологическими» или «тематическими»). Вырабатывается та или иная логическая классификация понятий, и все, что подлежит включению в словарь, располагается по рубрикам этой классификации. Идеографические словари могут быть также двуязычными и многоязычными. Особую разновидность идеографических составляют «картинные словари» (по-французски «vocabulaires par l'image», по-немецки «Bildwörterbücher»), обычно двуязычные или мно­гоязычные. Они содержат рисунки, изображающие тот или иной «ку­сок действительности» (например, комнату с обстановкой, цех завода, угольную шахту, птицеводческую ферму, улицу и т. д.) и обильно снабженные номерами, под которыми на той же или соседней странице приводятся названия соответствующих предметов на одном, двух или нескольких языках. Из упомянутых выше словарей систематический принцип расположения применен в словарях пословиц Даля и Челаковского (ср. например, рубрики Челаковского: I. Бог. Религия. Черт. Грех... II. Добро - зло... III. Правда - ложь... и т.д.).

Составление словарей — очень сложная работа. Кроме обще­лингвистических положений о слове, его значениях и употребле­нии, грамматических и фонетических характеристик, надо знать технику составления словарей и понимать состав словаря.

Словарь состоит из: 1) словника, т. е. подбора со взаимными ссылками и отсылками, 2) филиации, т. е. расчлененной подачи значений той или иной вокабулы, 3) стилистических, грам­матических и фонетических ремарок или помет к словам и их значениям, 4) иллюстративных примеров, 5) идиоматических и фразео­логических сочетаний к данному слову и 6) перевода (в разноязыч­ных словарях) или толкования (объяснения — в одноязычных сло­варях).

Особо следует оговорить, что взаимно противоположные словари (допустим, русско-казахский и казахско-русский) никак нельзя мыслить просто как перестановку «правой колонки» (переводы) в «левую» (подлинники), и наоборот. Такие словари по словнику перекрывают друг друга лишь частично, так как каждый словарь «в подлинниках», т. е. в вокабулах, исходит из лексического состава своего языка, а, как известно, лексический состав разных языков (даже близкородственных) не совпадает. Поэтому любой перевод­ный словарь (есть ли уже «обратный словарь» или его нет) должен иметь свой идиоматичный данному языку словник, для чего лучше всего опиратьсяна одноязычный толковый словарь данного языка.

Глава II. ЭЛЕКТРОННЫЕ СЛОВАРИ

С появлением компьютерной техники, создатели программного обеспечения создали новый тип словарей - электронный словарь. Такой тип словаря - абсолютно новое слово в истории лексикографии, отметившее новую качественную ступень ее развития. Именно сейчас электронные словари вышли из тени бумажных и становятся самостоятельными игроками на языковой площадке, причем игроками, которые, похоже, в ближайшее время сделают остальных действующих лиц экспонатами Музея книги. Ведь электронные словари обладают рядом очевидных и существенных преимуществ по сравнению со словарями традиционными. Единственным же их недостатком является привязанность к персональному компьютеру и, следовательно, ограниченная доступность. Однако этот недостаток будет достаточно скоро устранен если не полностью, то, по крайней мере, большей частью, вследствие все возрастающих темпов компьютеризации, в том числе и растущей доступностью переносным компьютеров типа Laptop.

Электронных словарей сейчас выпущено довольно много, поэтому остановимся только на двуязычных англо-русских и русско-английских словарях. Для примера возьмем два самых известных: Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Эти словари любопытно сравнить, ведь создающие их команды, исповедуют разные взгляды на принципы электронной лексикографии.

Электронные словари "МультиЛекс"

Компания МедиаЛингва придерживается при создании словарей МультиЛекс довольно простой стратегии. Она создает цифровую копию известных книжных изданий. На сайте фирмы можно найти формулировку этого принципа: "В основу электронных словарей заложены словарные базы книжных изданий, уже завоевавших популярность и признание среди переводчиков, преподавателей иностранных языков, студентов и школьников". Некоторые эксперты считают, что такая политика покоится на эксклюзивном договоре МедиаЛингва с "естественным монополистом" рынка российских словарей, издательством "Русский язык". С точки зрения МедиаЛингва, задача электронной лексикографии - как можно точнее перевести традиционный словарь в электронную форму.

За основу словаря МультиЛекс взят "Новый большой англо-русский словарь" под редакцией А.Д. Апресяна. Есть и расширенная версия, где к основному словарю добавлены экономико-финансовый, юридический, строительный, политехнический словари и словарь по полиграфии и издательскому делу.

Конечно, словарь Апресяна - выдающееся достижение лексикографии, но подход МедиаЛингва имеет и недостатки. Первое, традиционные словари довольно серьезно отстают от языковой реальности. Обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно. Второе, словари, содержащие сотни тысяч словарных статей, какими бы квалифицированными лексикографами они не составлялись, всегда содержат ошибки и неточности, не говоря уже о возникновении дополнительных значений слов. Жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный, тем более изменять структуру построения словарной статьи.

Электронные словари "Lingvo"

По другому и, вероятно, более перспективному пути пошла компания Abbyy. Конечно, и в их большом электронном словаре Lingvo7.0 есть переведенные в цифровой вид лицензированные бумажные словари - это политехнический, юридический, экономический, финансовый, медицинский и - что очень своевременно - динамично пополняемый компьютерный словарь. Но основу Lingvo, по словам руководителя лингвистического отдела фирмы Владимира Селегея, составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике.

Удачной находкой Abbyy выглядит приглашение всем желающим размещать на их Интернет-узле словари собственного изготовления http://www.lingvo.ru/dictionaries/index.htm. Такое вовлечение пользователей в лексикографическую работу вполне соответствует духу открытых Интернет-сообществ. Дополнительных словарей на сайте уже набралось 23 штуки. Причем всякий желающий может скачать их из Интернета и присоединить хоть все к уже имеющимся в базовой версии. Надо сказать, что базовая версия Lingvo-7.0 содержит миллион двести тысяч словарных статей. Причем основные статьи тщательно проработаны. Например, не самая большая статья о слове 'go' содержит более двадцати пяти тысяч знаков.

Первое, что бросается в глаза, когда мы говорим об электронных словарях - это резкое сокращение объема. На десятиграммовом компакт-диске помещается целая полка толстых словарей общим весом в двадцать пять килограмм. Но, естественно, не это главное. Важно, что электронный словарь принципиально может обойти ключевое противоречие книжной лексикографии: чем больше информации предлагает словарь, чем развитее его научный аппарат, тем сложнее им пользоваться. Поэтому классические словари разделяется на две категории. Первая - популярные, относительно удобные, но довольно простые. Вторая - обстоятельные академические издания, не позволяющие быстро получить искомую информацию.

Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Причем искать можно в любой форме. Некоторые, например Lingvo, встраиваются во все основные офисные приложения и выделенное слово можно переводить нажатием нескольких клавиш.

Преимущества электронных словарей

При традиционном подходе минимальной единицей доступа является лексема (имя словарной статьи): нужно прочесть всю статью, чтобы определить, содержится ли в ней ответ на наш запрос. Для таких словарей, как оксфордский, это представляет серьезную проблему. Например, глагол 'set' имеет там 400 только основных значений (и у многих из них имеются подзначения).

Пользователь хотел бы, чтобы словарь максимально локализовал релевантную информацию. При этом речь не идет об автоматическом выборе переводного эквивалента (если мы говорим о переводном словаре). Специфика словарного ответа в том, что он дает весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор пользователя из нескольких возможных хорошо обоснованных альтернатив.

Однако попытка решить проблему адекватной реакции словаря на запрос неизбежно наталкивается на сопротивление самого словарного материала, перенесенного из бумажного словаря.