Информационные технологии и лингвистика XXI века - читать онлайн бесплатно, автор Алла Викторовна Гуслякова, ЛитПортал
bannerbanner
На страницу:
3 из 8
Настройки чтения
Размер шрифта
Высота строк
Поля

Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отклонен. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные возможности, поскольку в этом случае можно находить предложения, лишь отдаленно напоминающие искомые фразы, но тем не менее пригодные для последующего редактирования.

Преимущества от использования такого программного обеспечения поначалу могут быть неочевидны – однако по мере наполнения базы данных результаты автоматической подстановки основ для перевода будут становиться все более точными и регулярными.

Архитектура автоматизированной системы и ее функциональные возможности могут различаться. Средства поиска могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск. В систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.

Автоматизированный перевод (Computer-Aided Translation) – это перевод текстов на компьютере с использованием компьютерных технологий. В отличие от машинного перевода в данном случае человек осуществляет весь процесс перевода, а компьютер всего лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

Идея автоматизированного перевода появилась с момента появления компьютеров. Переводчики всегда выступали против стандартной в те годы концепции машинного перевода, на которую было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. В 1960-е годы Европейское объединение угля и стали (предшественник современного Евросоюза) стало создавать терминологические базы данных под общим названием Eurodicautom. В Советском Союзе для создания баз такого рода был создан ВИНИТИ (Всероссийский институт научной и технической информации).

В современной форме идея автоматизированного перевода была развита в 1980 году в статье Мартина Кея[9], который выдвинул следующий тезис: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (компьютер берет на себя рутинные операции и освобождает человека для операций, требующих человеческого мышления).

В настоящее время наиболее распространенными способами использования компьютеров при письменном переводе является работа со словарями и глоссариями, с системой памяти переводов (translation memory), содержащей примеры ранее переведенных текстов, а также использование так называемых корпусов, больших коллекций текстов на одном или нескольких языках, что дает сжатое описание того, как слова и выражения реально используются в языке в целом или в конкретной предметной области.

Для локализации программного обеспечения часто применяются специализированные средства, например, SDL Passolo 2015, которые позволяют переводить меню и сообщения в программных ресурсах и непосредственно в откомпилированных программах, а также тестировать корректность локализации. Для перевода аудиовизуальных материалов (главным образом фильмов) также используются специализированные средства, например, Aegisub[10], которые объединяют в себе некоторые аспекты памяти переводов, но дополнительно обеспечивают возможность появления субтитров по времени, их форматирования на экране, следования видеостандартам и т. п.

При синхронном переводе использование средств автоматизированного перевода по необходимости ограничено. Одним из примеров является использование словарей, загружаемых на карманный персональный компьютер (КПК). Другим примеров может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.

В узких предметных областях при большом количестве исходных текстов и устоявшейся терминологии переводчики могут использовать и машинный перевод, который может обеспечить хорошее качество перевода терминологии и устойчивых выражений в узкой области. Переводчик в этом случае осуществляет пост-редактирование полученного текста. Более половины текстов внутри Еврокомиссии (главным образом юридические тесты и текущая корреспонденция) переводится с использованием машинного перевода.

Память переводов, или накопитель переводов (translation memory) – это база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (translation unit), за которую обычно принимается одно предложение (реже – часть сложносочинённого предложения, либо абзац). Если очередное предложение исходного текста в точности совпадает с предложением, хранящимся в базе (точное соответствие, или exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы памяти переводов также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе памяти переводов данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт ТМХ (Translation Memory eXchange format), который основан на XML () и который могут порождать практически все системы памяти переводов. Благодаря этому результаты работы переводчиков можно обменивать между приложениями, то есть переводчик, работающий с программой OmegaT может использовать память переводов, созданную в Irados и наоборот.

Большинство систем памяти переводов как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов[11] (alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

На сегодняшний день наиболее популярными программными системами автоматизированного и машинного перевода с использованием памяти переводов являются: Яндекс. Перевод, Deja Vu, OmegaT, SDLX, Trados), STAR Transit NXT, Wordfast (реализована как набор макросов для MS Word), ABBYY Lingvo, Apertium, Ectaco, Google Translate, PROMT, Across.

Основными достоинствами выше перечисленных программ являются следующие.

1. Высокая скорость. В течение нескольких секунд получается перевод многостраничного текста. Это позволяет быстро понять смысл текста, а если система настроена на перевод текстов определенной тематики, требуется минимальная редакторская правка.

2. Низкая стоимость. При обращении к профессиональным переводчикам приходиться платить за каждую страницу переведенного текста, либо нанимать штатного переводчика, которому приходится платить зарплату. В случае с системой автоматизированного перевода платить деньги необходимо только один раз – при покупке программы, что впоследствии окупается в несколько раз.

3. Доступ к услуге. Немаловажный фактор, который многие критики систем автоматизированного перевода не принимают в расчет. Программа-переводчик всегда под рукой, а обращаться в переводческое бюро во многих случаях связано с дополнительными затратами времени и сил.

4. Конфиденциальность. Системе машинного перевода можно доверить любую (даже конфиденциальную) информацию. Программа-переводчик способна хранить в тайне любые тексты, которой ей доверяет переводчик.

5. Универсальность. Любой переводчик всегда имеет специализацию, т. е. переводит тексты по той теме, которой он хорошо владеет. Когда переводчик художественной литературы берется за перевод, например, технических текстов, ошибок в переводе не избежать. Система автоматизированного перевода выгодно отличается тем, что она абсолютно универсальна. Нужно только грамотно подключить специализированный словарь по соответствующей тематике. Следует учесть и еще одно преимущество подобных систем: пополнение их специализированных словарей новейшими терминами значительно опережает аналогичные словари полиграфического исполнения. В ряде случаев также рекомендуется вести свой собственный словарь новых терминов или новых значений. В этом случае переводчик гарантированно получает необходимое качество перевода.

6. Перевод информации в Интернете. В виртуальном пространстве глобальной сети наиболее ярко проявляются все преимущества систем машинного перевода. Более того, в большинстве случаев переводить информацию в Интернете, если человек сам не знает нескольких языков, можно только с помощью программ-переводчиков. Именно эта потребность обусловила огромный рост интереса к системам машинного перевода сейчас в мире. Только благодаря онлайновым системам перевода появилась возможность просматривать иностранные сайты, не затрудняясь с их переводом – быстро, удобно и конфиденциально.

Коллективное использование систем машинного перевода в организациях имеет дополнительные преимущества.

1. Единообразие стиля и используемой терминологии. Как известно, затраты на постредактирование при работе коллектива переводчиков составляют около 100–140 % от стоимости перевода. Перевод, выданный системой машинного перевода, гораздо легче править, поскольку он выдержан в одном стиле. Если в тексте, какой-либо часто встречающийся термин переведен неправильно, то все эти ошибки можно исправить простой функцией автозамены. Когда объемный текст переводится группой переводчиков, то приходится выявлять отдельные неточности, допущенные каждым переводчиком. Редактору в этом случае требуется также «выравнивать» и стиль перевода.

2. Отсутствие затрат на форматирование. Это особенно важно при переводе электронной документации. Программа-переводчик полностью сохраняет исходное форматирование, что позволяет сэкономить время и деньги при подготовке перевода.


Вопросы для самоконтроля

1. Что такое машинный перевод?

2. Что такое автоматизированный перевод?

3. В чем отличие автоматизированного от автоматического перевода?

4. Дать определение памяти перевода (Translation Memory).

5. Каковы программные характеристики персонального компьютера, необходимые для оптимального перевода?

6. Перечислить современные программы машинного и автоматизированного перевода и их базовые характеристики.

7. Каковы ключевые достоинства современных программ машинного перевода.


Задания для самостоятельного исследования

1. Подготовить доклад по перспективам развития информационного общества XXI тысячелетия.

2. Подготовить доклад по Интернет-лингвистике. Оценить и спрогнозировать влияние Интернет-лингвистики на общее состояние современной и будущей лингвистической науки.

3. Подготовить доклад по модели представления современного переводческого процесса «автор – переводчик (человек) – переводчик (компьютерная программа) – читатель».

4. Перевести на английский язык отрывок из произведения А.П. Чехова «За двумя зайцами погонишься, ни одного не поймаешь»[12], используя программы машинного и автоматизированного перевода текста.

5. Перевести с английского языка на русский язык отрывок из произведения О. Henry «Aristocracy Versus Hash», [13]используя программы машинного и автоматизированного перевода текста.


Рекомендованная литература

1. Анисимов, Д.В. Правда о машинном переводе / Д.В. Анисимов. – Москва: Сам Полиграфист, 2014. – 340 с.

2. Коммисаров, В.Н. Теория перевода (лингвистические аспекты): Учеб, для ин-тов и фак. иностр. яз. / В. Н. Комиссаров. – Репр. изд. – Москва: Альянс, 2013. – 250 с.

3. Кутузов, А.Б. Компьютерные технологии в формировании профессиональной компетенции переводчика/А.Б. Кутузов // Языки профессиональной коммуникации: сборник статей Третьей международной научной конференции, т. 2. – Челябинск, 2007. [Электронный ресурс] – URL: http://tc.utmn.ru/files/kutuzov_it.pdf (дата обращения: 24.09.2015).

4. Орёл М.А. Словарь переводчику – друг, товарищ и Брут / М.А. Орел// Перевод: информационные технологии. – М.: Всероссийский центр переводов науч. – техн. лит. и документации, 2009. – С. 79–106.

5. Попов, С.А. Информационные технологии в лингвистике: учебное пособие / С.А. Попов, Е. Ф. Жукова; М-во образования и науки Российской Федерации, Федеральное гос. бюджетное образовательное учреждение высшего проф. образования «Новгородский гос. ун-т им. Ярослава Мудрого» Великий Новгород: Новгородский гос. ун-т,2014.-235 с.

6. Соловьёва А.В. Профессиональный перевод с помощью компьютера. – СПб. Литер, 2008. – 160 с.

7. Bowker, L. Computer-Aided Translation Technology: A Practical

Introduction. – University of Ottawa Press, 2002. – 185 p. Retrieved from http://books.google.com/books7id4y29-mc6dOOC.

8. Encyclopaedia of Translation Studies / Ed. M. Baker. – London: Routledge, 2004. – 654p.

9. Kenny, D. Teaching Machine Translation and Translation Technology: a Contrastive study. Retrieved from URL: http://doras.dcu.ie/15830/1/ Teaching_Machine_Translation_%26_Translation_Technology.pdf.

10. An Introduction to CAT Tools (Translation Memory). – Keypot corporation. Retrieved from URL: http://www.horsefrog.com/japanese-translator-patent/ mod/resource/view.php?id= 108.

Глава 3

ПОИСК И ПУБЛИКАЦИЯ ИНФОРМАЦИИ В ИНТЕРНЕТЕ

Краткое описание: информационный поиск, поисковая машина, поисковые системы, правила эффективного поиска информации.


В жизни, как правило, преуспевает больше других тот, кто располагает большей информацией.

Бенджамин Дизраэли

In this electronic age we see ourselves being translated more and more into the form of information, moving toward the technological extension of consciousness.

Marshall McLuhan

В Интернете с каждым днём скапливается всё больше информации, когда-либо созданной и вновь создаваемой людьми. Равнодоступность большей части информации в Интернете уравнивает возможности доступа к этой информации как обычных пользователей Интернета и журналистов локальных СМИ, так и сотрудников мировых информационных агентств.

Благодаря Интернету перед каждым человеком ежедневно и даже ежесекундно открывается доступ к многомиллионной аудитории, которой он может передать свой информационный материал, полученный, например, с помощью обычного мобильного телефона с диктофоном и встроенной фотокамерой. Следовательно, уровень монополизации деятельности по распространению информации также снижается благодаря Интернету.

До недавнего времени ограничения в прямой коммуникации между людьми, порождаемые пространством и временем, во многом определяли потребность людей в услугах журналистов. По мере роста общего количества пользователей Интернета, а среди них – числа владеющих английским языком, эти ограничения всё в большей степени снимаются, что закономерно ведёт к уменьшению спроса на услуги журналистов. Одновременно с этим растёт объем «сырой» информации, доступной каждому отдельному пользователю Интернета, что актуализирует проблему её отбора и редактирования. Последнее всегда входило в перечень функций журналистики, но с ростом числа пользователей Интернета эффективный информационный поиск начинает приобретать всё большую значимость не только в журналистской деятельности, но и в других разнообразных сферах общественной деятельности.

Таким образом, информационный поиск – это процесс поиска неструктурированной документальной информации.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов), которые посвящены заданной теме (предмету) и удовлетворяют заранее определенному условию поиска (запросу), а также содержат необходимые (соответствующие информационной потребности) факты, сведения и данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

Комплекс программ, предназначенных для информационного поиска, называется поисковой машиной. Обычно является частью поисковой системы – автоматизированного программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации в Интернете. Самая известная поисковая система в мире – это Google, самая популярная в России – Яндекс, а одной из самых старых поисковых систем является Yahoo. Как уже было отмечено ранее, в архитектуре поисковой системы можно выделить поисковую машину – ядро системы, представленное набором программных модулей; базу данных или индекс, хранящую информацию обо всех известных поисковой системе Интернет ресурсах; и набор сайтов, являющих собой точки входа пользователей в систему (www.google.com, www.yandex.ru, ru.yahoo.com, и т. д.). Все это соответствует классической трехуровневой архитектуре информационных систем: есть пользовательский интерфейс, бизнес логика, которая в данном случае представлена реализацией алгоритмов поиска и база данных.

Для того, чтобы найти в Интернете требуемую информацию, необходимо знать либо адрес её местоположения (например, адрес Ыт\-страницы или файла), либо пользователя Интернета, который может предоставить информацию. Если мы не знаем ни адреса, ни человека, который мог бы нам помочь, то следует перейти к вопросам «Как можно узнать адрес размещения информации?» или «Как найти человека, который мог бы нам помочь с поиском информации?». При этом не следует переоценивать возможности Интернета. Лучшие результаты может дать совмещение онлайновых и оффлайновых методов поиска информации.

Сегодня существует достаточно большое количество методов информационного поиска в Интернете и через Интернет. В каждом конкретном случае успешность поиска определяется знаниями возможных методов и навыками владения ими, знанием этнических языков, на которых эта информация может быть представлена, либо нашими социальными связями.

Выделяется 4-е этапа поиска информации.

1. определение (уточнение) информационной потребности и формулировка информационного запроса;

2. определение совокупности возможных держателей информационных массивов (источников);

3. извлечение информации из выявленных информационных массивов;

4. ознакомление с полученной информацией и оценка результатов поиска.

Поисковые запросы бывают явные и неявные. В явных вопросах конкретно указывается объект поиска. В неявных вопросах, например, «какая сегодня погода», «происходит ли сейчас что-то важное», «можно ли проехать по городу», или, как у А. С. Пушкина в «Сказке о мертвой царевне и о семи богатырях»:

Свет мой, зеркальце! СкажиДа всю правду доложи:Я ль на свете всех милее,Всех румяней и белее?

объект поиска конкретно не указывается.

Поисковые запросы также делятся в зависимости от требуемой системы поиска. Первая группа поисковых систем предназначена лишь для линейного поиска информации, то есть для обнаружения в текстах фрагментов, аналогичных заданному. Следовательно, в запросе должен содержаться фрагмент текста. Вторая группа систем позволяет выбирать данные о связях между объектами, что требует указания в запросе на связь между теми или иными объектами.

Чтобы спланировать поиск, следует, прежде всего, определить объект поиска, сформулировать какую информацию необходимо найти. Если однозначно ответить на этот вопрос не представляется возможным, то поиск следует разделить на задачи с разными объектами. В планировании поиска также следует определить соотношение видов информации в поисковой задаче.

Например, если необходимо представить какую-то компанию, то полезными могут стать не только стандартные характеристики фирмы (данные об обороте, клиентах и пр.), но и сведения о связях ее первых лиц. И наоборот – физическое лицо можно охарактеризовать через компанию, которой оно владеет или в которой работает.

Надо определиться и с возможными форматами, файлов в которых может содержаться требуемая информация. Это может быть html-страница, текстовый документ в форматах txt, rtf, odt, doc или docx, документ pdf, презентация в форматах odp, ppt или pptx, электронная таблица в форматах ods, xls или xlsx, аудио в формате mp3, flash-ролик формата swf, видео в формате avi и т. д.

Важно отметить, что на первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки SQL запроса[14] к базе данных или от задачи поиска файла на компьютере. Так считали и разработчики первых поисковых систем в интернете, но со временем они осознали, что заблуждались.

Первое отличие поиска в Интернете от обычного состоит в том, что алгоритм поиска по той же базе данных предполагает, что ее структура заранее известна поисковой машине и автору запроса. В интернете, по понятным причинам, это не так. Интернет страницы образуют собой не структуру каталога, а сеть, что также влияет на алгоритмы поиска, а формат данных, размещаемых на интернет ресурсах, никем не контролируется.

Второе отличие, как одно из следствий первого – это то, что запрос представляется не в виде набора значений параметров (критериев поиска), а в виде текста, написанного человеком на естественном для него языке. Таким образом, перед тем, как начать поиск нужно еще понять, чего именно хочет автор запроса. Замечу, понять не другому человеку, а вычислительной машине.

Третье отличие уже менее очевидное, но не менее принципиальное: в каталоге или базе данных все элементы равноправны. В интернете имеет место конкуренция, а, следовательно, и разделение на более «благонадежных поставщиков информации» и источников, близких по статусу к «информационному мусору». Так классифицируют ресурсы люди, и также к ним относятся поисковые машины.

И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в Интернете не позволяют им обрабатывать все это многообразие «на лету» и в полной объеме.

Принципиально важным моментом функционирования поисковой машины в Интернете является является тот факт, что поиск и отбор информации осуществляется на базе формирования запросов в собственное информационное хранилище – баз данных, называемых индексами, где хранятся досье на все известные машине сайты. Эти базы данных периодически обновляются.

Иными словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Поэтому последние изменения в Интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы – добавлены в индекс поисковой системы. Таким образом, поисковая система Интернета в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в эту систему. Сама поисковая машина также является совокупностью приложений, позволяющих делать работу эффективно и быстро.

Перечислим компоненты поисковой машины.

На страницу:
3 из 8