Информационные технологии и лингвистика XXI века - читать онлайн бесплатно, автор Алла Викторовна Гуслякова, ЛитПортал
bannerbanner
На страницу:
8 из 8
Настройки чтения
Размер шрифта
Высота строк
Поля

Первым, кто использовал слово как глагол, был сам Лэрри Пэйдж, 8 июля 1998 года подписавший одно из своих сообщений для списка рассылки: «Have fun and keep googling!». Американское диалектическое сообщество назвало глагол «to google» словом десятилетия.

Опасаясь возможной утраты товарного знака, Google не одобряет использование глагола google, особенно когда подразумевается поиск в Интернете вообще. Например, 23 февраля 2003 года компания направила письмо «прекратить и воздерживаться» (англ, cease and desist) Полу МакФедрису, основателю Word Spy – сайта, отслеживающего неологизмы. Также, в своей статье в «Вашингтон пост», Фрэнк Арэнс обсуждал письмо, полученное от юристов Google, иллюстрирующее «правильное» и «неправильное» употребление глагола google. В ответе на эту статью лексикографы словаря Merriam-Webster заметили, что записали глагол to google со строчной буквы, но для обозначения поисковой системы Google употребили заглавную букву (англ, to use the Google search engine to seek online information – пользоваться Google для поиска информации в Интернете), впрочем, редакторы оксфордского словаря не стали сохранять обе «версии» для истории. В 2006 году Google выпустил публичное заявление с требованием «использовать слова, образованные от Google, только когда речь идет о Google Inc. или его сервисах».


Яндекс (www.yandex.ru) – российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов (свыше 6,3 млрд в месяц на начало 2014 года). По состоянию на 5 июля 2015 года, согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает 19-е место в мире и первое место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовалась в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

Приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2013 году «Яндекс» предоставляет более 50 сервисов. Некоторые из них – Яндекс. Поиск, Яндекс. Карты, Яндекс. Маркет, Поиск по блогам, Яндекс. Пробки – доминируют на рынке.

Бренд

Поисковый продукт «Яндекс» появился в 1993 году. Название системы – Яндекс, Япбех, – придумали вместе Аркадий Волож и Илья Сегалович.

Есть несколько вариантов происхождения названия:

Слово «Яндекс», или латиницей «Yandex», расшифровывается как Yet another indexer (англ, ещё один индексатор; очередной индексатор). Затем Волож заменил «Ya» на «Я» (сделав слово «Япбех») с целью подчеркнуть российское происхождение бренда.

Слово «Япбех» получилось в результате замены первой буквы в слове «Index».

Слово «Яндекс» расшифровывается как «Языковой индекс».

По трактовке Артемия Лебедева, название поисковика созвучно «Яньдекс», где янь – мужское начало.

Яндекс как наименование поисковых и иных продуктов на письме не должно выделяться кавычками. Подобное написание идёт от изначально гибридного названия Япбех, на которое не могли распространяться правила русского языка. Кроме того, за годы существования поисковика его имя стало нарицательным и позволяет употреблять его с маленькой буквы – яндекс как синоним поиска (ср. ксерокс, мерседес, браунинг и т. д.). Напротив, в значении юридического лица – ООО «Яндекс» – слово должно заключаться в кавычки как название организации.


Рамблер (www.rambler.ru) – популярный премиальный медийносервисный интернет-портал. Такое же название носила поисковая система «Рамблер-Поиск», существовавшая в 1996–2011 годах.

«Рамблер» стоял у истоков российского интернета. Появившись в 1996 году, он быстро завоевал огромную популярность и оставался ведущим игроком на рынке поиска России вплоть до 2001 года. «Рамблер» запустил первый в рунете рейтинг-классификатор (Rambler Тор 100), первый интернет-портал, первым среди отечественных интернет-компаний вышел на биржу.

В 2012 году философия портала была полностью переосмыслена – «Рамблер» стал медиапорталом персонализированных новостей.

Состоит в группе компаний Rambler&Co, образованной в мае 2013 года в результате объединения активов «Афиши-Рамблер» (ранее входила в холдинг «ПрофМедиа» Владимира Потанина) и SUP Media Александра Мамута.

«Рамблер» четырежды завоёвывал «Премию Рунета».

По данным на июль 2013 года, «Рамблер» занимал 11-е место по популярности среди сайтов России (по другим данным – 9-е).

Сегодняшний «Рамблер» вовсе не «странник» (от англ. Rambler – «странник», «бродяга»), блуждающий по сети в поисках ответов. Это индивидуальная картина дня и помощь в главных аспектах жизни. На «Рамблере» можно прочитать важные новости, разобраться в сфере финансов, недвижимости и авто, отправиться в путешествие, посмотреть популярные видео, купить билеты в кино или театр, собрать ребенка в садик и школу, познакомиться, узнать точный прогноз погоды и весело провести выходные. «Рамблер» – портал, которому доверяют.

Месячная аудитория «Рамблера» в 2015 году составляет 26 миллионов человек.


Yahoo (www.yahoo.com) – американская компания, владеющая второй по популярности (7,57 %) в мире поисковой системой (при этом в США и Канаде в соответствии с соглашением с Майкрософт от 2009 года и по состоянию на 2012 год поиск на сайте Yahoo! осуществляется поисковой машиной Bing) и предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo! Mail, один из старейших и наиболее популярных в Интернете.

Согласно статистике Alexa Internet, в феврале-апреле 2012 г. Yahoo! – четвёртый по посещаемости веб-сайт в сети Интернет, и примерно 28 % посещений состоят из просмотра только одной страницы.


Bing (www.bing.com) (рус. Бинг) – поисковая система, разработанная международной корпорацией Microsoft. Bing был представлен генеральным директором Microsoft Стивом Балмером. Ранее имела следующие наименования и адреса:

MSN Search (http://search.msn.com/) – с момента появления в 1998 году и до 11 сентября 2006 года;

Windows Live Search (http://search.live.com/) – до 21 марта 2007 года;

Live Search (http://www.live.com/) – до 1 июня 2009 года.

Кроме того, с октября 2006 до января 2009 года действовал сайт Ms. Dewey (www.msdewey.com), а с августа 2007 до 30 июня 2009 года – Таfiti (tafiti.com), основанные на тех же технологиях Live Search, но имевшие иной, экспериментальный интерфейс.

В настоящее время сайт Bing занимает 2-е место в списке самых популярных поисковых сайтов по объёму трафика, в отличие от которых обладает рядом эксклюзивных возможностей, таких как просмотр результатов поиска на одной странице (вместо пролистывания многочисленных страниц результатов поиска), а также динамическое корректирование объёма информации, отображаемой для каждого результата поиска (например, только название, краткая или большая сводка).

Логотип

Сменил 4 логотипа. Нынешний – 5-й по счёту.

В 1994–1995 годах логотипом было слово «Yahoo» чёрного цвета и написано шрифтом Times New Roman.

В 1995–1997 годах логотипом было слово «Yahoo!» коричневого цвета и прыгающими буквами, шрифт поменялся на жирный.

В 1997–2009 годах логотипом было слово «Yahoo!» красного цвета и поменялся шрифт на обычный.

В 2009–2013 годах в логотипе слово «Yahoo!» стало фиолетового цвета.

С 2013 по настоящее время логотипом является слово «Yahoo!» фиолетового цвета и шрифт расширили.

С осени 2013 «Yahoo» начала проводить политику препятствования пользователям входа в свои почтовые ящики без предоставления им дополнительных персональных данных, что нарушает политику конфиденциальности.

С 7 августа 2013 года на протяжении 30 дней логотип менялся каждый день в рамках 30 days of change. Окончательный вариант логотипа был представлен 5 сентября


Baidu (www.baidu.com) (кит. упр. 图们, пиньинь: Bàidù, Байду) – китайская компания, предоставляющая веб-сервисы, основным из которых является поисковая система с таким же названием – лидер среди китайских поисковых систем. По количеству обрабатываемых запросов поисковый сайт «Байду» стоит на 2 месте в мире (с долей в глобальном поиске 18.03 %). С запуском японской версии уверенно обогнал Bing.

В индексе Байду содержится свыше 740 млн. веб-страниц, 80 млн. изображений и 10 млн. медиафайлов.

Baidu также имеет онлайн-энциклопедию – Энциклопедию Байду, которая обогнала Китайскую Википедию.

В настоящее время выпускает (совместно с немецкими производителями) Baidu Antivirus 2013 Beta. Антивирусная программа сочетает в себе движок Baidu Antivirus и облачный движок Baidu Cloud Security вместе с антивирусным движком Avira Antivirus для предоставления комплексной защиты от всех видов онлайн-угроз. Baidu Antivirus 2013 имеет статус экспериментальной (Beta) программы.

Энциклопедия Байду, или Байдупедия

20 апреля 2006 года ведущий китайский поисковик baidu.com заявил о запуске альтернативного проекта – «Байдупедии» (百度百科). Уже через три недели она обогнала китайскую Википедию по числу статей. В настоящее время Байдупедия содержит более 3 500 000 статей. Правки, вносимые в Байдупедию, становятся видны не сразу, а проходят через модераторов и, предположительно, цензоров. В ней нет статей о Фалуньгун или независимости Тайваня. В то же время, в Байдупедии есть статья о Википедии, в которой Википедия описывается в нейтрально-положительном ключе. Длительное время в ней содержалась информация о её блокировке в КНР, и даже давались ссылки на зеркала Википедии, по которым можно было зайти на её главную страницу. Через некоторое время ссылки на зеркала были убраны, была оставлена лишь ссылка на официальную главную страницу http://zh.wikipedia.org/ (кит.), по которой, однако, из Китая зайти в Википедию до снятия блокировки было нельзя. Интерфейс сделан максимально удобным для пользователей из Китая.


Nigma (Нигма. РФ) (www.nigma.ru) – российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМК и психологии МГУ, а также Стэнфордского университета. Название «Nigma» (один из родов пауков семейства Dictynidae, en: Nigma) было выбрано по ассоциации со Всемирной паутиной.

На момент появления Нигма. РФ в проекте участвовало 2 человека, а именно Виктор Лавренко и Владимир Чернышов, которые познакомились на кафедре АСВК факультета вычислительной математики и кибернетики МГУ им М.В. Ломоносова в 2004-м году. В 2005-м году на сервисе появилась функция кластеризации. В 2007-м году Владимир Чернышов отправился в Стенфордский университет, где под руководством научного руководителя основателей Google разрабатывал алгоритмы для Нигмы.

Nigma осуществляет поиск как по своему индексу, так и по индексам Google, Yahoo, Bing, Яндекс, Rambler, AltaVista, Aport. По состоянию на 28 февраля 2009 года в суммарном индексе всех этих поисковых систем находилось более 7,16 млрд русскоязычных документов.

На основе введённого пользовательского запроса Нигма формирует список документов, разделённых на несколько множеств (кластеров). Пользователь может уточнить, в каком множестве продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему множества сайтов, например, документы, пришедшие с интернет-магазинов (для них формируется специальный кластер).

Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.

Nigma поддерживает русскую морфологию. Используется морфологический модуль для русского языка собственной разработки.

Nigma позволяет производить простейшие арифметические преобразования и решать математические задачи, с учётом различных единиц измерения и распознаванием математических и физических констант. Также поддерживаются запросы на конвертацию валют, решение систем уравнений и построение графиков функций. Математическая система была запущена в октябре 2008 года.

В декабре 2008 года появилась поддержка запросов по неорганическим химическим реакциям, как по исходным, так и по конечным веществам реакции. Впоследствии были добавлены поиск химических реакций и поддержка органической химии.

На 2011 год система позволяет производить поиск по более чем 12 000 неорганических реакций. Вещества можно задавать как в виде названий («хлорид натрия», «каменная соль»), так и в виде формул («NaCl»).

Кщта эффективна для обзорного поиска при сборе информации. Она позволяет быстро найти открытые сведения из различных областей и проверить, не пропустили ли вы что-либо важное, используя другие поисковики.

Приложение 6

Правила формирования запросов в поисковых системах (на примере поисковой системы Яндекс)

Правила формирования запроса в поисковой системе Яндекс

1. Ключевые слова в запросе следует писать строчными (маленькими) буквами. Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

2. При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе. Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. и.

3. Для поиска устойчивого словосочетания следует заключить слова в кавычки. Например, «фонема».

4. Для поиска по точной словоформе перед словом надо поставить восклицательный знак. Например, для поиска слова «сентябрь» в родительном падеже следует написать «¡сентября».

5. Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &. Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

6. Для того, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, необходимо поставить перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки «+» и «-» надо писать через пробел от предыдущего и слитно со следующим словом. Например, по запросу «Волга – автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

7. При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|». Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

8. Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки. Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

9. Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе. Например, по запросу «книги – магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

10. Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,—) задает поиск в пределах документа. Например, по запросу «дева— астрология» будут найдены документы со словом «дева», не относящиеся к астрологии.

11. Вернемся к примеру с аквариумными рыбками. После прочтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум – сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.


На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос: «+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) – (цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.

Прочитать предлагаемые статьи и приступить к устройству аквариума.

Примечания

1

Интернет (World Wide Web (WWW) «всемирная паутина») – это гетерогенная система, то есть соединение разнообразных аппаратных платформ, исполняющих приложения, предназначенные для решения широкого диапазона задач.

2

Теория «информационного общества» была развита такими известными авторами, как М. Порат, Й. Масуда, Т. Стоуньер, Р. Карц и др. (Porat М., Rubin М. The Information Economy: Development and Measurement. Wash., 1978; Masuda Y. The information Society as Post-Industial Society. Wash., 1981; Stonier T. The Wealf of Information. L., 1983; Katz R.L. The Information Society: An International Perspective. N.Y., 1988.); в той или иной мере она получила поддержку со стороны тех исследователей, которые акцентировали внимание не столько на прогрессе собственно информационных технологий, сколько на становлении технологического или технетронного (technetronic – от греч. techne) общества (Brzezinski Zb. Between Two Ages. N.Y., 1988.), или же обозначали современный социум, отталкиваясь от возросшей или возрастающей роли знаний как «the knowledgeable society», «knowledge society» или «knowledge-value society». Сегодня существуют десятки понятий, предложенных для обозначения отдельных признаков современного общества.

3

ТМХ (Translation Memory Exchange – обмен памятью переводов) – открытый формат файлов XML (англ, extensible Markup Language – расширяемый язык разметки) для обмена данными памяти переводов, которые создаются в процессе автоматизированного перевода.

4

Trados – профессиональный продукт для компаний, использующих переводческие процессы, основанный на выявлении в переводимом документе ранее переведенных фрагментов. Продукт был разработан в 1992 году немецкой компанией Trados GmbH. В 2005 году Trados был куплен британской компанией SDL International, и в 2006 году появился совместный продукт Trados SDLX. Trados SDLX имеет разные модули, необходимые для перевода документов различных форматов (Microsoft Word, PowerPoint, HTML, FrameMaker, InterLeaf и np.), а также для работы с терминологическими базами данных (модуль MultiTerm).

5

FTP (File Transfer Protocol – протокол передачи файлов) – стандартный протокол, предназначенный для передачи файлов по TCP-сетям (например, Интернет). Использует 21й порт. FTP часто используется для загрузки сетевых страниц и дру-

6

1С: Бухгалтерия – собирательное название бухгалтерских продуктов фирмы «1С», относящееся к некоторым конфигурациям на платформе 1С: Предприятие версий 7.7 и 8.

7

В англоязычной терминологии также различаются термины англ, machine translation, МТ (полностью автоматический перевод) и англ, machine-aided или англ, machine-assisted translation (МАТ) (автоматизированный); если же надо обозначить и то, и другое, пишут М(А)Т.

8

Локализация часто рассматривается как «перевод высокого уровня», но это не отражает всю важность и сложность этого процесса, а также все то, что она в себя включает. Хотя, иногда сложно провести границу между переводом и локализацией, в общем, локализация проводится в значительной степени для внетекстуальных компонентов товара или услуги. В дополнение к переводу (то есть, вопросам грамматики и орфографии, которые варьируются в зависимости от страны и места, где используется один и тот же язык), процесс локализации может включать адаптацию графического компонента, символов валют, формата дат, адресов и номеров телефона, выбор цветов многих других деталей, включая пересмотр физической структуры продукта.

Все эти изменения проводятся с целью, во-первых, выявить чувствительные различия и избежать возможных конфликтов с местной культурой и населением и, во-вторых, проникнуть на местный рынок, приспосабливаясь к локальным нуждам. Например, в результате локализации веб-сайт одной и той же компании может быть адаптирован к определенной стране, или издания одной и той же книги могут различаться в зависимости от места издания.

9

Martin Kay (1980). The Proper Place of Men and Machines in Language Translation. Research report CSL-80-11, Xerox Palo Alto Research Center, Palo Alto, CA. Перепечатано в 1997 году в Machine Translation 12: 3-23, 1997.

10

Aegisub – кроссплатформенный редактор субтитров с открытым исходным кодом. Имеет расширенные возможности по созданию караоке. Включает в себя проверку орфографии и редактор переводов. Поддерживает в качестве субтитров SRT, ASS, SSA, SUB, XSS, PSB и форматированный TXT. Для тайминга в неё можно загрузить аудиофайлы в форматах WAV, МРЗ, OGG Vorbis, FLAC, МР4, АСЗ, ААС и МКА, видеофайлы – в форматах AVI, AVS, D2V, MKV, OGM, МР4, MPEG, MPG и VOB. Имеет возможность работы с анаморфорным видео.

11

Параллельный текст – методика обучения иностранному языку путем чтения текста на изучаемом языке с параллельным переводом на родной язык. Чтобы пользоваться этим методом, необходимо только заранее знать правила чтения изучаемого языка.

12

Полный текст рассказа А.П. Чехова можно прочитать в Приложении 3.

13

Полный текст рассказа О. Henry можно прочитать в Приложении 4.

14

SQL запрос – структурированные запросы к базе данных.

15

Искусственный интеллект (ИИ, англ. Artificial intelligence, AI) – 1) наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ; 2) свойство интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека

16

Система SHRDLU – программа понимания естественного языка.

17

Расширенная сеть переходов (ATN – Augmented Transition Network) – Расширенная Сеть Переходов представляет собой образец программного обеспечения, продемонстрировавшего возможность использования достаточно мощных грамматических средств для обработки синтаксиса. Неправильно думать о ней только как о средстве обработки синтаксиса, потому что это нечто большее, чем просто реализация поискового алгоритма. Она представила формализм для выражения знаний о предметной области (знания записывались в виде расширенной сети переходов). Был также представлен способ использования этих сетей для поиска путей решения проблем. Применительно к АОТ речь шла о знаниях синтаксиса английских предложений, а проблемой, которую система должна была решать, был синтаксический разбор этих предложений.

18

У.А. Вудс (William Aaron Woods (born 1942), generally known as Bill Woods, is a researcher in natural language processing,continuous speech understanding, knowledge representation, and knowledge-based search technology. He is currently interested in using technology to help people organize and use information in organizations)

19

Речь идет о существовании тысячи текстов, которые необходимо сгруппировать, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации.

20

См. ссылку – https://framenet.icsi.berkeley.edu/fndmpal/home.

На страницу:
8 из 8