4 Дек

Путешествие по WWW

Автор: "СТРОГИЙ"

Как в WWW задается местонахождение документа?

Виртуальный мир WWW населен миллионами документов, обитающих на сотнях тысяч серверов. Задача WWW-путешественника — найти среди них тот, который содержит необходимую информацию, и прочитать его при помощи программы просмотра, — а для этого программа просмотра должна знать точное местонахождение данного документа. Оно однозначно определяется адресом сервера, номером порта, именем директории и именем файла с этим документом. Для успешной загрузки требуемого документа с сервера программе просмотра также нужно указать протокол, используемый этим сервером. Это связано с тем, что кроме WWW-серверов, программы просмотра могут обращаться к серверам пересылки файлов (так называемым FTP-серверам), серверам телеконференций, серверам электронной почты и некоторым другим типам серверов. Комбинация протокола, адреса сервера, номера порта, имени директории и имени файла получила название Uniform Resource Locator, или сокращенно URL. Синтаксис URL показан ниже:

протокол://адрес_сервера:номер_порта/имя_директории/имя_файла

Рассмотрим составляющие URL на конкретном примере:

http://www.scs.uiuc.edu:80/~dima/index.html

Протокол, как уже было сказано выше, это совокупность правил, по которым происходит взаимодействие клиент-сервер. Мы уже знаем (см. стр. 9), что «родной» протокол WWW называется http. Кроме http, WWW-клиенты могут общаться c серверами, поддерживающими протоколы ftp, gopher и некоторыми другими, на которых мы здесь останавливаться не будем, а расскажем о них далее по мере необходимости. Название протокола отделяется от остальной части URL двоеточием. В названии протокола прописные латинские буквы и соответствующие им строчные буквы эквивалентны.

Адрес сервера (address, или host name), для тех, кто знаком с системой адресации электронной почты в Internet, выглядит знакомо. Начало адреса отмечается двумя косыми чертами // Он состоит из нескольких частей (не обязательно четырех, как в нашем примере) — так называемых поддоменов (subdomains). Поддомены, представляющие собой сочетания букв и цифр, разделяются точками, причем, «уточнение координат адресата» от более крупных к более мелким поддоменам происходит справа налево. Так же как и в названии протокола, в адресе сервера прописные латинские буквы и соответствующие им строчные буквы эквивалентны.

В приведенном выше примере URL адрес принадлежит WWW-серверу Химического факультета Университета штата Иллинойс в Урбана-Шампейн (School of Chemical Sciences at the University of Illinois at Urbana-Champaign). Давайте взглянем на него более пристально.

www.scs.uiuc.edu
 4   3   2    1

1. edu — домен верхнего уровня. Он обозначает либо код страны, либо, как в данном случае, код сети. edu — это код сети высших учебных заведений США. Часто встречаются также следующие домены верхнего уровня: gov — правительственные организации США, mil — вооруженные силы США, com — коммерческие организации, net — сетевые службы Internet, org — некоммерческие организации, su — страны СНГ, ru — Россия.

2. uiuc.edu — поддомен второго уровня. Имена поддоменов второго уровня утверждаются в соответствии с правилами, выработанными доменами верхнего уровня. В данном случае, аббревиатура означает University of Illinois at Urbana-Champaign.

3. scs.uiuc.edu — поддомен третьего уровня. Имена поддоменов третьего уровня утверждаются в соответствии с правилами, выработанными доменами второго уровня. В нашем примере scs означает School of Chemical Sciences.

4. www.scs.uiuc.edu — поддомен четвертого, в данном случае, самого младшего, уровня. Аналогично, имена поддоменов четвертого уровня утверждаются в соответствии с правилами, выработанными доменами третьего уровня. В нашем примере поддомен назван www, потому что на данной машине расположен WWW-сервер. Заметим, что адреса WWW-серверов довольно часто, но далеко не всегда, начинаются с www.

Номер порта выражается целым положительным числом и отделяется от адреса двоеточием. Порт — это как бы «дверь», через которую можно зайти в сервер. Сервер может иметь несколько доступных портов; если номер порта WWW-сервера равен 80, то в URL его можно не указывать.

Имя директории и имя файла для пользователей IBM PC — совместимых компьютеров с операционной системой DOS выглядят знакомо. Однако, в связи с тем, что подавляющее большинство серверов WWW работает под управлением операционной системы UNIX, в URL имеют место следующие отличия от DOS‘овского стиля:

  • Не указывается имя дисковода.
  • Имена файлов и директорий могут быть гораздо длиннее скудно отпущенных DOS восьми символов ( + трех символов расширения), например: data_on_radiolysis_of_methanol.dat
  • В именах директорий и файлов прописные и строчные символы различаются. Например, Letter.txt и letter.txt являются различными файлами.
  • Имена файлов и директорий могут содержать несколько точек.  Часть имени, следующая за последней встречающейся точкой, обычно называется суффиксом (suffix), или расширением(extension). Расширение, как правило, указывает на тип файла.  Например, приведенное ниже имя файла с графической информацией в формате GIF имеет суффикс gif: picture.Caucasian_Ovcharka.dog1.gif
  • Файлы с документами, публикуемыми в WWW, часто имеют суффиксы .html или .htm. Эти суффиксы являются аббревиатурой от названия языка, на котором пишут WWW-документы, HyperText Markup Language, о котором будет подробно рассказано далее.
  • Поддиректории разделяются не обратной косой чертой \, а прямой / Например: /usr/staff/data/
  • Если имя директории начинается с символа ~ (тильда), это означает, что это — так называемая домашняя директория (home directory) пользователя данной компьютерной системы. На компьютерах с многопользовательской операционной системой UNIX каждому пользователю присваивается имя пользователя (login name), под которым он регистрируется в системе, и выделяется собственная «домашняя» директория, предназначенная для хранения принадлежащих ему файлов. Имя домашней директории совпадает с именем пользователя. Вместо абсолютного имени домашней директории с указанием всех ее поддиректорий можно использовать имя пользователя, которому предшествует символ ~ (тильда). Например, если директория /fuji1/people/dima/ является домашней директорией пользователя с именем dima, то ее можно записывать просто как ~dima/

Обратите внимание на следующие особенности задания имен директорий и файлов в URL:

  • Директория, указанная в URL, как правило, не совпадает с истинной директорией в файловой системе на том сервере, где находится требуемый файл. Преобразование директорий, заданных в URL, в истинные директории в файловой системе осуществляется WWW-сервером согласно правилам, заданным при его установке и настройке.  В частности, файл index.html, доступный по URL http://www.scs.uiuc.edu:80/~dima/index.html в действительности  расположен в директории /fuji1/people/dima/public_html/, а в URL указывается лишь ~dima/.
  • Если в URL указано только имя директории, а имя файла не задано, то сервер на такой запрос вышлет файл с определенным именем, зависящим от настройки сервера, — обычно index.html или welcome.html. Если же такого файла в заданной директории нет, то большинство серверов автоматически вышлют вам список всех файлов в данной директории. Например, URL http://www.scs.uiuc.edu:80/~dima/index.html эквивалентен следующему, в котором опущен номер порта (80 — номер порта, принимаемый по умолчанию) и имя файла (данный сервер настроен так, чтобы высылать index.html): http://www.scs.uiuc.edu/~dima/ Обратите внимание на косую черту, которой заканчивается имя директории! Ее нельзя опускать, даже если в URL имя файла не указано.

«Ну и ну,» — скажет читатель, — «со всеми этими правилами насчет директорий и файлов и запутаться недолго!» На самом деле все это не так уж сложно, как кажется на первый взгляд, — ведь применять описанные выше правила пользователю WWW практически никогда не приходится. Представьте себе, что вы просматриваете некоторый документ в WWW, и в этом документе находите гиперсвязь с интересующим вас другим документом — тогда программа просмотра по вашему желанию загрузит его автоматически, и вам даже не обязательно знать соответствующий URL. Возможен и другой вариант: вам кто-либо сообщил URL документа, который мог бы вас заинтересовать. В этом случае необходимо всего лишь ввести этот URL в программу просмотра без опечаток. О программах просмотра и работе с ними мы поговорим в следующем разделе, а этот раздел завершим списком наиболее часто встречающихся опечаток при вводе URL с клавиатуры:

  • Пробелы между символами, входящими в URL.
  • Использование обратной косой черты \ вместо прямой /.
  • Пропуск или замена символа ~ (тильда) на какой-либо другой символ.
  • Замена строчных букв на прописные и наоборот в именах директорий и файлов.
  • Замена строчной латинской буквы l на цифру 1 и наоборот, а также замена буквы o на цифру 0, латинской буквы c на русскую букву с, латинской буквы p на русскую букву р и т. п.
  • Пропуск последней косой черты, следующей за именем директории, в случае, когда в URL не указывается имя файла.

Программы просмотра

Мы уже знаем, что, программа, с которой непосредственно общается пользователь при работе с ресурсами WWW, называется программой просмотра WWW-документов (WWW-browser). Напоминаем, что работа такой программы заключается в посылке запроса к заданному серверу, интерпретации полученной информации и представления ее пользователю. Кроме того, она выполняет ряд вспомогательных задач, например, поддерживает список прочитанных документов, чтобы пользователь мог к ним вернуться в дальнейшем.

В настоящее время получили распространение более десяти программ просмотра WWW-документов. Из графических программ просмотра наибольшего внимания, на наш взгляд, заслуживают NCSA Mosaic, Netscape Navigator и Microsoft Internet Explorer

Программа NCSA Mosaic была создана в Национальном Центре Суперкомпьютерных Приложений Университета штата Иллинойс в Урбана-Шампэйн (National Center For Supercomputing Applications at the University of Illinois at Urbana-Champaign, NSCA) в начале 1993 года группой программистов, возглавляемых студентом по имени Марк Андреессен (Marc Andreessen). В то время Mosaic являлась единственной программой просмотра, написанной на профессиональном уровне, дружественной по отношению к пользователю и работающей на многих типах компьютеров от рабочих станций под управлением операционной системы UNIX с графической оболочкой X Windows до IBM PC-совместимых компьютеров с Microsoft Windows и персональных компьютеров Apple Macintosh. Не вызывает сомнений, что именно Mosaic открыла World Wide Web для большинства пользователей. В настоящее время в NCSA группа разработчиков (в основном, студентов старших курсов) продолжает трудиться над новыми версиями Mosaic, несмотря на то, что по своим возможностям эта программа уже существенно уступает более новым программам. Mosaic является некоммерческим программным продуктом, доступным для пользователей бесплатно. Исходный код программы Mosaic открыт и активно используется разработчиками многих других программ просмотра.

Netscape Navigator (сокращенно — Netscape) — это в настоящий момент, пожалуй, самая популярная программой просмотра, работающая на тех же типах компьютеров, что и Mosaic. Netscape — детище компании Netscape Communications Corporation, основанной в начале 1994 года Джимом Кларком (Jim Clark), который в свое время основал крупную компанию Silicon Graphics, знаменитую своими графическими станциями. Джиму Кларку удалось переманить в Netscape Communications Corporation первоначальных разработчиков программы Mosaic из Иллинойса, в том числе и самого Марка Андреессена. Netscape — это коммерческий продукт, за пользование которым надо платить. Однако, для пользователей в университетах Netscape доступна бесплатно. На момент написания данной книги наиболее свежая версия Netscape Navigator — 3.01. Кроме версий, работа над которыми завершена, компания периодически выпускает отладочные версии Netscape (так называемые бета-версии), которыми можно пользоваться бесплатно до наступления определенной даты, после которой программа перестает функционировать.  В конце декабря 1996 года выпущена бета-версия программного пакета Netscape Communicator 4.0, в который включен Netscape Navigator 4.0.

Microsoft Internet Explorer (сокращенно — IE) — творение фирмы Microsoft Corporation. По функциональным возможностям и удобству использования IE примерно эквивалентен упомянутой выше программе Netscape Navigator. В отличие от последней, IE работает на значительно меньшем количестве компьютерных платформ — только на IBM PC под Windows 3.1, Windows NT и Windows 95, а также Apple Macintosh. IE распространяется бесплатно для всех пользователей. На момент написания данной книги наиболее свежая версия — 3.01.

Кроме Mosaic, Netscape и IE, стоит упомянуть такие программы как Lynx, IBM Web Explorer и AOL Browser. Анализ доступа на сервер Engineering Workstations (www.cen.uiuc.edu) Университета штата Иллинойс в Урбана-Шампейн и на сервер Химического факультета МГУ (www.chem.msu.su) показывает, что наиболее широко используется Netscape Navigator (см. таблицу). В настоящее время между Microsoft Corporation и Netscape Corporation идет острейшая борьба за первенство на рынке программного обеспечения для Internet, и весьма вероятно, что Microsoft вскоре существенно потеснит Netscape и остальных своих конкурентов.

Использование различных программ просмотра согласно результатам анализа доступа на серверы.1. Сервер www.cen.uiuc.edu за период 10-17 ноября 1996 года. Зафиксировано 980182 доступов с 78675 узловых компьютеров. Указан процент от общего числа узловых компьютеров, с которых производился доступ.

2. Сервер www.chem.msu.su за период 1 сентября — 28 ноября 1996 года. Зафиксировано 89536 доступов. Указан процент от общего числа доступов.

WWW-клиент 1. 2.
Netscape for Windows 60.5 68.8
Netscape for Macintosh 12.0 7.1
Netscape for X11 4.8 7.3
Netscape for OS/2 0.1 0.02
Microsoft Explorer for Windows 18.2 12.5
Microsoft Explorer for Macintosh 0.2 0.05
Lynx 0.7 1.1
SPRY_Mosaiс 0.5 0.15
IBM WebExplorer 0.4 0.47
Spyglass Enhanced Mosaic 0.4 0.07
NetCruiser 0.2 0.03
Quarterdeck Mosaic 0.1 0.02
Остальные 1.9 2.4

Основные команды программ просмотра

Оконный интерфейс графических программ просмотра прост и интуитивно понятен всем пользователям, знакомым с Microsoft Windows. Окно программы просмотра Netscape Navigator Gold 3.0 показано на рисунке. В полосе заголовка окна (title bar), которая располагается вдоль верхней границы окна, выводится название программы просмотра — Netscape — и название текущего документа. Далее в верхней части окна расположены элементы управления программой: меню и экранные кнопки. Большую часть окна занимает собственно область, в которой выводится содержание просматриваемых WWW-документов. В нижней части окна расположена строка состояния (status line). В этой строке Netscape отображает такую информацию, как, например, процентную долю от полного размера загружаемого в данный момент файла или URL документа, на который указывает гиперссылка, если курсор мыши поместить на соответствующий участок документа.

В таблице ниже приведены команды, необходимые для выполнения простейших действий при просмотре документов в WWW при помощи Netscape Navigator версии 3.0. Система команд и меню в других графических программах ненамного отличается от принятой в Netscape. Следует учесть, что авторы программ просмотра из каких-то таинственных побуждений используют различные термины для обозначения одних и тех же понятий. Больше всего «повезло» в этом смысле терминам URL и, особенно, Bookmarks. Для URL (определение см. на стр. 11) часто используется синонимы Location и Address. Что же касается Bookmarks («Закладки»), то здесь возможны следующие варианты: Hotlist, Hot Links, Favorites и даже Faves.

Действие Команда в Netscape 3.0
Открыть документ с известным URL на WWW-сервере. Меню: File | Open LocationЗатем впечатать URL в появившемся диалоговом окне и «нажать» экранную кнопку OK.

Или:

Впечатать URL в поле «Location:», расположенное в верхней части окна, и нажать клавишу Enter.

Открыть домашнюю страницу (homepage). «Нажать» экранную кнопку c изображением домика Home
Прервать загрузку документа. «Нажать» экранную кнопку Stop
Открыть документ, находящийся в файле на локальном компьютере. Меню: File | Open File
Перезагрузить текущий документ. «Нажать» экранную кнопку Reload.
Сохранить текущий документ в файле. Меню: File | Save As
Перейти к просмотру документа, с которым имеется гиперсвязь в текущем документе. Переместить указатель мыши в выделенный подчеркиванием и/или контрастным цветом участок на экране и щелкнуть левой клавишей мыши.
Двигаться назад по цепочке документов, просмотренных в текущем сеансе работы. «Нажать» экранную кнопку << Back
Вернуться к произвольному документу, просмотренному в текущем сеансе работы. Меню: Go, затем указать название необходимого документа из списка.
Двигаться вперед по цепочке просмотренных документов. «Нажать» экранную кнопку >> Forward
Запомнить URL текущего документа в списке «закладок» для последующего возврата к нему Меню: Bookmark | Add Bookmark
Открыть документ из списка «закладок». Меню: Bookmark
Выбрать документ из спускающегося меню

Программы просмотра способны правильно отобразить содержимое файлов самых различных форматов, начиная от простейших текстовых и заканчивая графическими, звуковыми и другими специализированными форматами, с некоторыми из которых нам еще предстоит познакомиться в этой книге; при этом, как мы уже знаем, «родным» форматом для WWW является HyperText Markup Language (HTML). А что же происходит, когда программа просмотра «не понимает» формата загружаемого файла?  В первый раз столкнувшись с этой нередкой ситуацией, можно и растеряться, поэтому мы кратко опишем два возможных варианта развития событий:

1. Программа просмотра знает, какая из других программ, установленных на вашем компьютере, понимает формат данного файла. — В этом случае программа просмотра запустит требуемую программу-помощника (helper) или программу-приставку (plug-in) и передаст ей полученный файл для обработки. Например, если программа просмотра загрузила файл letter.doc с документом в формате Word for Windows 6.0 , и Word for Windows установлен на вашем компьютере, то программа просмотра запустит Word, и вы увидите документ в окне Word‘а. Как правило, программа просмотра, прежде чем запустить программу-помощника, спрашивает вашего разрешения. Это делается по той причине, что даже самый невинный на первый взгляд файл может быть потенциально опасен для вашего компьютера. В частности, документы в формате Word for Windows 6.0 могут содержать макрокоманды, способные уничтожать или переписывать файлы на вашем жестком диске!

2. Программа просмотра не знает, у какой программы попросить помощи при интерпретации данного файла. — В этом случае вам будет предложено четыре альтернативы:  1) More Info… — дать дополнительную информацию о возникшей ситуации и предложить установить программу-приставку (plug-in), которая понимает данный формат файла,  2) Pick App… — выбрать программу-помощника, уже установленную на вашем компьютере, для обработки данного файла, 3) Save File… — сохранить файл на локальном диске и 4) Cancel — отменить загрузку данного файла. Часто команду Save File… используют для того, чтобы получить (download) программное обеспечение и документацию из коллекций («aрхивов»).

Проблема русификации

Создатели программного обеспечения для работы в WWW первоначально не были слишком озабочены нуждами людей, желающих публиковать и читать информацию на своих родных языках, не использующих латинский алфавит, в том числе и на русском языке.  В последнее время ситуация начинает заметно изменяться к лучшему, но все же просмотр и публикация документов на русском языке сопряжена с некоторыми трудностями. Читайте дальше, и вы узнаете, почему эти трудности возникают и как с ними справиться.

Коды и символы

Файл, содержащий гипертекстовый WWW-документ, представляет собой текстовый файл. «Внутри» компьютера современной архитектуры и при передаче по сетям каждый символ текста представляется в виде целого числа, которое, в свою очередь, кодируется комбинацией из восьми двоичных разрядов, называемых битами (bit).  Такая комбинация из восьми бит, обрабатываемых ЭВМ как одно целое, получила название байт (byte). Каждый бит в байте может иметь ровно два состояния: «включен» и «выключен», или «1″ и «0″. Легко убедиться, что существует ровно 256 комбинаций из восьми бит, каждый из которых может быть занят либо нулем, либо единицей. Таким образом получается, что восемью битами (то есть, одним байтом) могут быть представлены числа, или коды, от 0 до 255 (то есть, от 00000000 до 11111111 в двоичной системе счисления). Каждому коду можно поставить в соответствие определенный текстовый символ, например, букву или цифру, или управляющий символ, такой как возврат каретки, переход на новую строку и т. п. Чтобы текст выглядел одинаково на мониторах разных компьютеров, необходим определенный стандарт на соответствие кодов и представляемых ими символов для текстовой информации. Такой стандарт, принятый в настоящее время на подавляющем большинстве компьютерных систем, получил название American Standard Code for Information Interchange (ASCII , произносится как «аски»). Этот стандарт охватывает лишь коды от 0 до 127. В кодовой таблице ASCII не нашлось места для многих часто используемых специальных символов, таких как, например, © или ®. Также, из буквенных символов там присутствуют только символы английского алфавита. Чтобы закодировать буквы национальных алфавитов, в том числе русского, сохранив при этом совместимость с таблицей ASCII, необходимо использовать коды в диапазоне от 128 до 255. Вот тут-то и начинаются сложности.

Кодовые таблицы для кодировки букв русского алфавита (кириллицы)

Существует довольно много различных кодовых таблиц, совпадающих в диапазоне кодов от 0 до 127 со стандартом ASCII и использующих диапазон кодов от 128 до 255 для специальных символов и букв русского алфавита. Среди них наиболее распространены следующие четыре:

1. Microsoft Windows Cyrillic code page 1251

Известна также как CP-1251 или Windows-1251. Наиболее широко применяется в «русифицированных» системах Microsoft Windows 3.1, 95 и NT.

2. KOI8-r

Базируется на государственном стандарте Кода Обмена Информацией КОИ8 (ГОСТ 19768-74). Применяется в основном на компьютерах с операционной системой UNIX. Принята за стандарт кодирования русскоязычных текстов при обмене по электронной почте. Большинство WWW-серверов хранят русскоязычные документы в этой кодировке. В настоящее время имеются наборы шрифтов для Microsoft Windows в кодировке KOI8-r. Они были разработаны специально для сетевых программ, работающих под Windows.

3. CP-866 Microsoft/IBM code page 866

Известна также как «альтернативная кодировка ГОСТа» (в некоторых документах ее обозначают Alt-GOST или alt). Применяется в основном на персональных компьютерах IBM PC с операционной системой MS-DOS при работе в текстовом режиме. Программы просмотра под DOS практически не используются (обычно на IBM-совместимых машинах они работают под Microsoft Windows). Однако, мы упоминаем эту кодировку, поскольку текст WWW-документа можно создавать в текстовом редакторе, работающем под DOS.

4. ISO-8859-5

Расположение русских букв в ней практически  совпадает с так называемой «основной кодировкой ГОСТа» (иногда можно встретить ее обозначение как Main-GOST). Применяется редко, хотя и является международным стандартом кодировки русского алфавита, зарегистрированным International Standards Organization (ISO).

Несколько особняком от вышеперечисленных кодировок стоит кодировка Unicode, которая, по замыслу ее разработчиков, входящих в в так называемый консорциум Unicode (The Unicode Consortium), должна раз и навсегда решить проблему хранения в текстовых файлах символов любой из существующих на Земле систем письменности. К сожалению, пока еще Unicode используется весьма редко.

При переносе файлов с текстами на русском языке с одного компьютера на другой, или даже из одной программы в другую, довольно часто возникает необходимость перекодировки таких файлов. В частности, несколько забегая вперед, приведем такой пример: вы разрабатываете русскоязычный WWW-документ в текстовом редакторе, работающем под Microsoft Windows и использующем кодировку кириллицы Windows-1251, а на WWW-сервере, по требованию администратора, этот документ должен быть установлен в кодировке KOI8-r. Следовательно, перед переносом документа на сервер его надо перекодировать из Windows-1251 в KOI8-r. Для перекодировки текстовых файлов используют специальные программы.

Установка кириллицы в программе Netscape Navigator 3.0, работающей под Microsoft Windows

Для чтения документов на русском языке вы должны установить в программе просмотра шрифт, использующий одну из кодовых таблиц, содержащих буквы русского алфавита (кириллицы). Если на вашем компьютере установлена пан-европейская (Pan European) версия Windows 95 с поддержкой русского языка, или русская версия Windows 95, или русифицированная версия Windows 3.1, то настройка Netscape Navigator 3.0 не займет много времени. При помощи меню Options | General Preferences вызовите диалоговое окно настройки и укажите там категорию Fonts. В диалоговом окне вам будет предложено выбрать шрифты для использования при чтении документов в различных кодировках, выбираемых из списка For the Encoding:. Для русскоязычных читателей имеет смысл установка русифицированных шрифтов для двух кодировок: 1) Cyrillic  и 2) Cyrillic (KOI8). Для каждой из кодировок устанавливается по два шрифта: один пропорциональный (proportional) и один моноширинный (fixed).  Шрифт выбирается в диалоговом окне из шрифтов, установленных в системе Windows на вашем компьютере. Для каждого шрифта надо указать его название (Font) и языковую версию (Script). В русифицированной системе Windows для кодировки Cyrillic наиболее подходящим пропорциональным шрифтом является шрифт Times New Roman языковой версии Cyrillic, а моноширинным — Courier New языковой версии Cyrillic.

Обратите внимание на то, что названия «новых» шрифтов для Microsoft Windows одной гарнитуры,  но разных языковых версий, различаются по суффиксу. Например, Times New Roman, Times New Roman Cyr и Times New Roman Tur являются шрифтами гарнитуры Times New Roman языковых версий Western, Cyrillic и Turkish соответственно. Многие программы для Windows (в том числе, программа просмотра Netscape, текстовые редакторы Word for Windows 7.0, WordPad и другие) в диалоговых окнах выбора шрифтов отбрасывают эти суффиксы из названий шрифтов и не перечисляют все установленные шрифты одной гарнитуры но разных языковых версий, что иногда приводит пользователя в замешательство. Выбор необходимой языковой версии шрифта данной гарнитуры производится при помощи специального меню Script, как в Netscape, или указанием языка (Language) при форматировании текста, как в Microsoft Word 7.0. Обратите внимание на то, что многие шрифты для Windows доступны только в одной языковой версии, как, например, русифицированный шрифт Baltica фирмы ParaGraph. Если вы знаете, что данный шрифт — русифицированный, то указывайте его в окне диалога выбора шрифта для соответствующей кодировки, игнорируя содержимое поля Script.

Со шрифтами для Cyrillic (KOI8) дела обстоят несколько сложнее: они не входят ни в комплект Windows 95, ни в большинство русификаторов Windows 3.1 и вам придется их найти либо у знакомых, либо в архивах Internet, затем установить их в Windows, а потом уже в Netscape Navigator. В частности, материал по русификации доступен в архивах FreeNet (www.free.net), откуда можно получить как шрифты в кодировке KOI8-r, так и инструкции по их установке. Кроме этого, обширный материал по русификации, собранный Андреем Черновым, можно найти в документе KOI8-R References (Russian Net Character Set) по адресу www.nagual.ru/~ache/main.html

Установка кириллицы в программе Netscape Navigator 3.0, работающей под X Windows (UNIX)

Мы предполагаем, что вы используете достаточно современную версию X Window System (скажем, версию X11R6 3.1.2) и, следовательно, уже имеете поддержку русского языка. Чтобы русифицировать Netscape, вам надо сделать всего несколько щелчков мышью. Зайдите в меню Options | Document Encoding и выберете Cyrillic (KOI8-R), затем войдите в меню Options | General Preferences | Fonts и выберете For the Encoding: koi8-r (при этом вы, наверное, захотите еще сменить тип пропорционального шрифта с Fixed (Cronyx) 12, установленного по умолчанию, на Times (Cronyx) 10. Наконец, сохраните установку, чтобы не набирать ее в следующий раз вновь: Options | Save Options. Теперь вы можете читать документы на русском языке в кодировках KOI8-r и ISO8859-5. Увы, кодировку Windows-1251 версия Netscape для X Windows не понимает.

Согласование кодировок сервера и программы просмотра

Итак, изучив предыдущий раздел, вы правильно установили русифицированные шрифты в Netscape . . . - но это еще не все! Если попытаться прочитать русскоязычный WWW-документ, закодированный при помощи одной кодовой таблицы, программой просмотра, использующей шрифты, рассчитанные на другую таблицу, то русский текст будет выглядеть как бессмысленный набор знаков. Например, слово Привет!, высланное сервером в кодировке KOI8-r, при использовании программой просмотра шрифта в кодировке Windows-1251 выглядит на экране как рТЙЧЕФ! Еще «забавнее» — — изображает это слово программа просмотра, «думающая», что этот документ написан на одном из европейских языков в кодировке Latin-1. Как же заставить сервер и программу просмотра настроиться на какую-либо одну кодировку?

Иногда заботу о соответствии кодовых таблиц сервера и программы просмотра берет на себя сервер. При этом он должен определить кодировку, на которую настроена программа просмотра, и высылать документы именно в этой кодировке.  Для автоматического определения используется возможность протокола HTTP 1.0 передавать в заголовке запроса перечисление допустимых форматов документов и наборов символов MIME content-type и charset (о MIME см.  По многим причинам этот подход довольно часто не срабатывает. В таком случае авторы документов, размещенных на сервере, часто прибегают к более универсальному приему, предлагая читателю из нескольких гиперссылок выбрать ту, которая указывает на нужный документ в желаемой кодировке. Подобное «меню» в WWW-документе может выглядеть так:

Welcome to our homepage!

  • Information in English
  • Information in Russian (Microsoft Windows Cyrillic)
  • Information in Russian (KOI8-r)

Желая получить информацию на русском языке и зная, что у вас установлен шрифт в кодировке Windows-1251, вы выбираете второй из предлагаемых вариантов.

Некоторые программы просмотра, например, Netscape Navigator 3.0 и Microsoft Internet Explorer 3.0, умеют сами подстраиваться под кодировку документа, высылаемого сервером, если кодировка правильно указана в заголовке ответа WWW-сервера в специальном поле charset, предусмотренном протоколом HTTP 1.0. К сожалению, многие серверы не настроены так, чтобы добавлять это поле автоматически.

Если вы уверены, что просматриваемый документ написан на русском языке, но вместо русского текста в окне Netscape 3.0 видите нечто невообразимое, то попробуйте принудительно указать кодировку, выбрав ее из меню Options | Document Encoding.  Версия Netscape для Microsoft Windows предлагает три варианта кодировок кириллицы: Cyrillic Win1251, Cyrillic ISO8859-5 и Cyrillic KOI8. При выборе любой из первых двух возможностей Netscape будет использовать шрифт, установленный для кодировки Windows-1251, при необходимости автоматически перекодируя текст в эту кодировку из ISO8859-5. Для Cyrillic KOI8 Netscape использует отдельный шрифт, как уже было сказано выше при описании настройки Netscape для просмотра документов на русском языке. Почему разработчики Netscape не реализовали внутреннюю перекодировку из KOI8 в Windows-1251 и, таким образом, заставили пользователей устанавливать «лишние» шрифты — неясно. Заметим, что при работе с Microsoft Internet Explorer 3.x установка дополнительного шрифта для KOI8-r не требуется.

Если вы часто читаете документы на русском языке, то имеет смысл установить одну из русскоязычных кодировок в качестве кодировки, используемой программой просмотра по умолчанию (то есть, в тех случаях, когда поле charset в загружаемом документе отсутствует). Для этого в Netscape 3.0 следует выбрать желаемую кодировку (Cyrillic Win1251, Cyrillic ISO8859-5 или Cyrillic KOI8) при помощи меню Options | Document Encoding, как это было описано выше, а потом при помощи меню Options | Document Encoding | Set DefaultNetscape for Microsoft Windows) или Options | Save Options Netscape for X Windows) «зафиксировать» ее в качестве кодировки по умолчанию.

Comments are closed.