Читать книгу Создание электронных книг в формате FictionBook 2.1: практическое руководство, автор Кондратович Михаил онлайн страница 28 на сайте booksonline.com.ua.

Booksonline.com.ua

Компьютеры и Интернет: Прочее

Создание электронных книг в формате FictionBook 2.1: практическое руководство - Кондратович Михаил

Стр. 28

1
« ...
25
26
27
28
» ...
70

# символы, отсутствующие в кодировке win-1251 - на код 138

doswin = [192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207,

208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223,

224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239,

135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135,

240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255,

168, 184, 170, 186, 175, 191, 161, 162, 176, 149, 183, 138, 185, 164, 138, 138]

# считываем входной файл в одну строку

wtext=ARGF.readlines.to_s

ARGF.close

wtext.gsub!(/ (S)/,' 1') # склеиваем строки абзацев

wtext.squeeze!(' ') # убираем лишние пробелы

wtext.gsub!(/^ /,'') # убираем пробелы в начале строки

# перекодировка текста

for i in 0..(wtext.length-1)

case wtext[i]

when 20: wtext[i] = 182 # обработать символ 'Пи'

when 21: wtext[i] = 167 # обработать символ 'параграф'

when 128..255: wtext[i] = doswin[wtext[i]-128] # обработать все остальное

end

wtext.gsub!('...', (133).chr) # многоточие - в символ 'многоточие'

wtext.gsub!(/(s)-s/,'1'+(151).chr+' ') # компьютерное тире - в типографское

# порубим строку в массив

wtext = wtext.split(/ /)

wtext.collect! do |line|

if line =='' then

line = '<empty-line/>' # пустая строка?

else

line='<p>'+line+'</p>' # нет, не пустая

end

# добавляем заголовок

wtext.insert(0,'<?xml version='1.0' encoding='windows-1251'?>

<title-info>

<genre>nonfiction</genre>

</title-info>

<document-info>

<program-used>Yuzich Ruby script (dostxt -> FB2)</program-used>

</document-info>

</description>

<body>

<section>')

# добавляем хвост

wtext << '</section> </body> </FictionBook> '

# сохраняем выходной файл

wfile = File.new(ARGF.filename.dup.gsub!(/.txt/i,'.fb2'),'w')

wfile.puts wtext

wfile.close

После того, как скрипт отработает, в директории появится файл <имя_исходного_файла>.fb2. Небольшая правка в FB Editor и он будет полностью готов к распространению.

Пример второй. Конвертирование журналов c WiseSoft.ru

Эта задачка гораздо интереснее первой. Как раз тот случай, когда написание специализированного конвертора полностью оправдано.

На ресурсе http://www.wisesoft.ru находится множество различных журналов. Форматы в котором они представлены, различаются, Но один из них особо привлекателен для преобразования в FB2. Я говорю о журналах которые представлены в виде пачки html-файлов («Хакер», «Хакер-спец», «Мобильные компьютеры», «Хулиган» и др.). При всей простоте, конвертированию стандартными средствами этот способ хранения данных поддается с трудом.

Более близкое знакомство выявило следующее. Имеется файл index.htm с оглавлением. Статьи представляют собой кучки html-файлов, разбитые по папкам. Текст представляет собой обычные абзацы, обрамленные тэгами «<p>». Оформление html-ок везде стандартное.

К сожалению, такая лафа наблюдается не везде. С декабря 2006 года формат журналов начал эволюционировать. Статьи стали вмещаться в одну html-ку, появились списки, картинки, дополнительные стили. Хотя и не во всех журналах. Основная масса изданий представлена именно в таком виде, как описано выше. Поэтому сосредочимся именно на них.

Наша задача заключается в том, чтобы вырезать куски текста из html-файлов, склеить их в один файл.

Скрипт, представленный ниже, не только блестяще справляется с этим, но и выдает на выходе вполне приличный FB2, с заполненным заголовком, готовой аннотацией и разбитый на секции.

# Скрипт для конвертации журналов с WiseSoft.ru в FB2

# (C) Юзич, апрель-май 2008 г.

# поддерживаемый формат файлов: пачка html, журналы сделанные c ноября 2003 г. по ноябрь 2006 г. включительно.

# примечание: изменения в декабре 2006 и марте 2007 - некритичные

# теоретически должен обрабатывать журналы сделанные по июль 2007 включительно

# но уже с мая 2007 в тексте могут попадаться дополнительные тэги, мешающие правильной конвертации

# хотя все это касается, в основном, журнала 'Хакер' ('Хакер-спец').

# 'Мобильные компьютеры', к примеру, по-прежнему, как шли, так и идут в старом формате

# да и чтобы обрабатывать журналы, сделанные до ноября 2003, достаточно подправить ключевые фразы

# запускать из директории, где находится файл-оглавление журнала (index.htm)

# запуск: ruby ws_j_cnv.rb

# считываем файл-оглавление в строку

wfile=File.open('index.htm')

ltext=wfile.readlines.to_s

Вперед

Вы читаете Создание электронных книг в формате FictionBook 2.1: практическое руководство

1
« ...
25
26
27
28
» ...
70

Добавить отзыв

ВСЕ ОТЗЫВЫ О КНИГЕ В ОБРАНЕ

Вы можете отметить интересные вам фрагменты текста, которые будут доступны по уникальной ссылке в адресной строке браузера.

Отметить Добавить цитату

Матеріали, які присутні на сайті, отримані з публічних (широкодоступних) ресурсів. Якщо ви володієте авторським правом на якусь інформацію, розміщену на сайті booksonline.com.ua і не згодні з її загальнодоступністю в майбутньому, то ми згодні розглянути пропозиції з видалення певного матеріалу, а також обговорити пропозиції про домовленості, які дозволяють використовувати даний контент. Ми не відстежуємо дії користувачів, які самостійно викладають джерела текстів, які є об'єктом вашого авторського права. Всі дані на сайт, завантажуються автоматично, не проходячи заздалегідь відбору, що є нормою в світовому досвіді розміщення інформації в мережі інтернет.

Не дивлячись на це, при виникненні у Вас питань щодо посилань на інформацію, розміщену на нашому сайті, правовласниками якої Ви є, просимо звертатися до нас з запитом. Для цього потрібно переслати е- mail на адресу : [email protected] . У листі рекомендуємо подати такі відомості: 1.Документальне підтвердження ваших прав на матеріал, захищений авторським правом : відсканований документ з печаткою, або інша контактна інформація, що дозволяє однозначно ідентифікувати вас, як правовласника даного матеріалу. 2. Прямі посилання на сторінки сайту, які містять посилання на файли, які необхідно відкоригувати.

Всі права захищений booksonline.com.ua