# символы, отсутствующие в кодировке win-1251 - на код 138
doswin = [192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207,
208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223,
224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239,
135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135,
135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135,
135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135,
240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255,
168, 184, 170, 186, 175, 191, 161, 162, 176, 149, 183, 138, 185, 164, 138, 138]
# считываем входной файл в одну строку
wtext=ARGF.readlines.to_s
ARGF.close
wtext.gsub!(/ (S)/,' 1') # склеиваем строки абзацев
wtext.squeeze!(' ') # убираем лишние пробелы
wtext.gsub!(/^ /,'') # убираем пробелы в начале строки
# перекодировка текста
for i in 0..(wtext.length-1)
case wtext[i]
when 20: wtext[i] = 182 # обработать символ 'Пи'
when 21: wtext[i] = 167 # обработать символ 'параграф'
when 128..255: wtext[i] = doswin[wtext[i]-128] # обработать все остальное
end
end
wtext.gsub!('...', (133).chr) # многоточие - в символ 'многоточие'
wtext.gsub!(/(s)-s/,'1'+(151).chr+' ') # компьютерное тире - в типографское
# порубим строку в массив
wtext = wtext.split(/ /)
wtext.collect! do |line|
if line =='' then
line = '<empty-line/>' # пустая строка?
else
line='<p>'+line+'</p>' # нет, не пустая
end
end
# добавляем заголовок
wtext.insert(0,'<?xml version='1.0' encoding='windows-1251'?>
<FictionBook xmlns='http://www.gribuser.ru/xml/fictionbook/2.0' xmlns:l= 'http://www.w3.org/1999/xlink'>
<description>
<title-info>
<genre>nonfiction</genre>
<lang>ru</lang>
</title-info>
<document-info>
<program-used>Yuzich Ruby script (dostxt -> FB2)</program-used>
</document-info>
</description>
<body>
<section>')
# добавляем хвост
wtext << '</section> </body> </FictionBook> '
# сохраняем выходной файл
wfile = File.new(ARGF.filename.dup.gsub!(/.txt/i,'.fb2'),'w')
wfile.puts wtext
wfile.close
После того, как скрипт отработает, в директории появится файл <имя_исходного_файла>.fb2. Небольшая правка в FB Editor и он будет полностью готов к распространению.
Эта задачка гораздо интереснее первой. Как раз тот случай, когда написание специализированного конвертора полностью оправдано.
На ресурсе http://www.wisesoft.ru находится множество различных журналов. Форматы в котором они представлены, различаются, Но один из них особо привлекателен для преобразования в FB2. Я говорю о журналах которые представлены в виде пачки html-файлов («Хакер», «Хакер-спец», «Мобильные компьютеры», «Хулиган» и др.). При всей простоте, конвертированию стандартными средствами этот способ хранения данных поддается с трудом.
Более близкое знакомство выявило следующее. Имеется файл index.htm с оглавлением. Статьи представляют собой кучки html-файлов, разбитые по папкам. Текст представляет собой обычные абзацы, обрамленные тэгами «<p>». Оформление html-ок везде стандартное.
К сожалению, такая лафа наблюдается не везде. С декабря 2006 года формат журналов начал эволюционировать. Статьи стали вмещаться в одну html-ку, появились списки, картинки, дополнительные стили. Хотя и не во всех журналах. Основная масса изданий представлена именно в таком виде, как описано выше. Поэтому сосредочимся именно на них.
Наша задача заключается в том, чтобы вырезать куски текста из html-файлов, склеить их в один файл.
Скрипт, представленный ниже, не только блестяще справляется с этим, но и выдает на выходе вполне приличный FB2, с заполненным заголовком, готовой аннотацией и разбитый на секции.
# Скрипт для конвертации журналов с WiseSoft.ru в FB2
# (C) Юзич, апрель-май 2008 г.
#
# поддерживаемый формат файлов: пачка html, журналы сделанные c ноября 2003 г. по ноябрь 2006 г. включительно.
# примечание: изменения в декабре 2006 и марте 2007 - некритичные
# теоретически должен обрабатывать журналы сделанные по июль 2007 включительно
# но уже с мая 2007 в тексте могут попадаться дополнительные тэги, мешающие правильной конвертации
# хотя все это касается, в основном, журнала 'Хакер' ('Хакер-спец').
# 'Мобильные компьютеры', к примеру, по-прежнему, как шли, так и идут в старом формате
# да и чтобы обрабатывать журналы, сделанные до ноября 2003, достаточно подправить ключевые фразы
#
# запускать из директории, где находится файл-оглавление журнала (index.htm)
# запуск: ruby ws_j_cnv.rb
#
# считываем файл-оглавление в строку
wfile=File.open('index.htm')
ltext=wfile.readlines.to_s