КампутарыБазы дадзеных

Праца з тэкстам. Як вызначыць кадыроўку файла

Давайце даведаемся, што такое кадоўка файла. Кажучы прасцей, кадоўкай лічыцца набор байтавая сімвалаў, які адпавядае літарных алфавіце ў пэўным мове. Для кожнага мовы існуе свая пэўная паслядоўнасць такіх знакаў кадавання. Часам узнікае патрэба вызначыць кадыроўку. Разгледзім гэта на прыкладзе тэкставага дакумента.

Што трэба

Набор пэўных праграмных сродкаў. Для пачатку дастаткова прыкладанняў тыпу Word, KWrite, браўзэра Firefox і сродкі распазнання - enca.

Вызначыць кадыроўку файла можна пры дапамозе універсальнага рэдактара Microsoft Word. Перш, яго трэба праўсталяваць з пакета Office. Калі праграма будзе ўстаноўлена, і зможа адкрывацца з дапамогай абразкі ў выглядзе сімвала W на працоўным стале, пераходзім да наступнага кроку.

Наступны этап распазнання

Праз навігацыйную панэль прыкладання па чарзе адкрыйце пункты «Файл» - «адкрыць». Тое ж самае можна зрабіць, задзейнічаўшы камбінацыю клавіятуры Ctrl + O.

Затым у дыялогавым акне выберыце патрэбны каталог і, уласна, файл для чытання. Вылучыўшы яго мышшу, націсніце кнопку «адкрыццё».

Калі ў файла набор адпаведнікаў ня CP1251, прыкладанне спрабуе самастойна вызначыць кадыроўку. Будзе выведзены спіс магчымых адпаведнікаў. У прапанаваных наборах знакаў у правай частцы спісу выберыце адну з кадовак. Калі выбар зроблены правільна, у элеменце «ўзор» адлюструецца распазнаны тэкст.

Як вызначыць кадыроўку пасродкам KWrite

Акрамя препроцессора для апрацоўкі тэксту, Word, існуюць і іншыя функцыянальныя ўтыліты. Адна з іх - KWrite (аналаг для unix-сістэм). Каб вы не блыталіся, распішыцеся па пунктах задачу «вызначыць кадыроўку дакумента ў KWrite».

  1. Загрузка ў дадатак файла з пашырэннем .txt.
  2. Перабор кадовак да таго часу, пакуль адна з іх не апынецца падыходнай.
  3. Каб выканаць пункт 2, перайдзіце да опцыі tools у меню encoding.

Браўзэр Mozilla Firefox, мэта тая ж - вызначыць кадыроўку

Прынцып прыкладна той жа, што і ў утылітах для працы з тэкстам. Запускаем праўсталяваць браўзэр на выкананне, а калі ён не ўстаноўлены - спампоўваем ўсталёўнік з mozilla.org.

Затым у адкрытым акне праграмы трэба адкрыць тэкставы дакумент праз меню «Файл», падменю «Адкрыць файл». Калі абраны файл адлюструецца без скажэнняў, і тэкст чытаны, вызначыць кадыроўку не складзе працы.

Для гэтага перайдзіце на «Від» - «кадоўка», там адлюстравана некалькі набораў сімвалаў, а той з іх, насупраць якога варта «галачка», і ёсць пэўная браўзэрам кадоўка.

Калі ж тэкст не распазнаюцца правільна, абярыце падраздзел «дадаткова», паэксперыментуйце ў ім з кадыроўкамі або абярыце значэнне «аўто».

Спецыялізаванае ПА - працуем з enca

Існуе і шэраг дапаможных электронных сродкаў, якія даюць магчымасць вызначыць кадыроўку нефарматаванай тэксту.

Для тых, хто прывык працаваць пад unix, падыдзе ўтыліта enca. Яе можна ўсталяваць пры дапамозе сэрвісу «Дыспетчар пакетаў». Знайшоўшы даступную катэгорыю пакетаў, можна прыступіць да ўсталёўцы праграмнага забеспячэння.

Каб вывесці лістынг моў распазнання, выканайце каманду enca --list languages, выкарыстоўваючы тэрмінал.

Калі трэба вызначыць кадыроўку тэкставага файла пасля ключа (g), увядзiце яго назву, а пасля опцыі (L) прыкладна такім жа чынам увядзіце мову распазнання:

enca -L russian -g /home/vic/temp/myfile.txt.

Падагульнім сказанае аб кадоўцы

Мяркую, што названыя вышэй ўтыліты стануць для карыстальніка дастатковым наборам інструментаў для раскадыроўкі тэкставых дакументаў.

Пакуль, уласна, гэта ўсё аб тым, як распазнаць кадыроўку. Для стандартных мэтаў, думаю, азначанае праграмнае забеспячэнне цалкам падыдзе. Ёсць і больш спецыялізаваныя метады вызначэння, але іх разгляд выходзіць за рамкі гэтага артыкула.

Для праграмы Microsoft Word крыніцай распазнання можа быць як просты тэкст, так і дакумент са складаным фарматаваннем.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.delachieve.com. Theme powered by WordPress.