
sic transit
30.08.2017
14:30:12

Denis
30.08.2017
14:30:34

Dmitry
30.08.2017
14:31:19
томилин, ты, похоже, ещё больше меня любишь вбрасывать философии в чат :D I've met my match

Google

Sergey
30.08.2017
14:31:51

Sergey
30.08.2017
14:34:14

sic transit
30.08.2017
14:34:44

Sergey
30.08.2017
14:34:45

sic transit
30.08.2017
14:36:29
?
Сидишь такой, верстаешь, ужос

Dmitry
30.08.2017
14:42:04
сидишь такой, верстаешь, ПОСЛУШАЛ ВЕБ-СТАНДАРТЫ ВНЕДРИЛ АВТОПРЕФИКСЕР ВЫПИЛ В БАРЕ С СИТНИКОМ ВЫСТУПИЛ НА КОНФЕРЕНЦИИ ВОШЁЛ В W3C ADVISORY COMMITTEE ВСЕ УВАЖАЮТ ОТЦУ ПОЗВОНИЛ МАКЕЕВ ПРОСИТ СФОТОГРАФИРОВАТЬСЯ С НИМ

sic transit
30.08.2017
14:44:31

Chikiro
30.08.2017
14:45:49
Мне после собеседования в кудаго не понравилось, что прям отрицательно к удаленке относятся, и разворачивание на сервера у них какое-то странное (или надо было админов/девопсов о таком спрашивать).

Ilia
30.08.2017
14:47:22
А мне вот интересно, что понимается под "ростом". Изучение новых технологий это интересно и здорово, но всё равно же не применишь всё новое и прикольное на текущих проектах. Выходит единственный способ расти это постоянно менять проекты, а тут уже и не важно фулстек или нет

Chikiro
30.08.2017
14:47:52

sic transit
30.08.2017
14:50:08

Andrey
30.08.2017
14:51:24

Google

Andrey
30.08.2017
14:51:39

sic transit
30.08.2017
14:52:01
Лучше быть
Ну раз про ограничения, то зачем себя ограничивать вебом?

Chikiro
30.08.2017
14:52:59

Denis
30.08.2017
14:53:16

sic transit
30.08.2017
14:53:25

Andrey
30.08.2017
14:53:28

Dmitry
30.08.2017
14:53:51

Denis
30.08.2017
14:53:58

sic transit
30.08.2017
14:54:20

Denis
30.08.2017
14:54:45

amureki
30.08.2017
14:54:56

Vadim
30.08.2017
21:03:20
Приветствую, господа! Столкунулся с проблемой парсинга pdf и дошел до отчаяния =( Здесь можно посоветоваться? есть у кого опыт использования pdfminer? проблема в том что не могу CIDFonts нормально обработать, pdf в txt конвертится как-то так "(cid:11)/(cid:19)(cid:17) (cid:44) 30101810500000000682"

Dmitry
30.08.2017
21:11:13
код покажи же, ну

Vadim
30.08.2017
21:15:22
как пример: python2.7 ./tools/pdf2txt.py ./test.pdf
test.pdf - http://www.kantei.go.jp/jp/singi/tiiki/siryou/pdf/h25yosan2.pdf
pdf с ascii проблем нет. но вот для остальных символов нужен шрифт
иначе все покрывается (cid:%)
по спецификации pdf, этот шрифт ( CIDFont ) лежит внутри pdf. так вот. У меня нет представления как его замапить на эти cid-коды
ой. прошу прощения. строка "python2.7 ./tools/pdf2txt.py ./test.pdf" выполняется в каталоге https://github.com/euske/pdfminer

Dmitry
30.08.2017
21:38:55

Google

Dmitry
30.08.2017
21:39:14

Vadim
30.08.2017
21:40:20
Да. я читал уже. Там еще на github много про это говорят. Но все сводится к предпоследнему комменту вот от сюда https://github.com/euske/pdfminer/issues/39.
Но я надеюсь что я просто что-то делаю не так и в моем случае есть способ прочитать файл используя стандартные методы библиотеки

Dmitry
30.08.2017
21:42:10
а этот японский текст важен?
оу там всё по японски

Vadim
30.08.2017
21:42:48
ага)

Dmitry
30.08.2017
21:47:34
я воспользовался pdftotext h25yosan2.pdf - вроде ок.
ты не пробовал её?
ну или pdftohtml

Vadim
30.08.2017
21:51:05
минуту..
Это про вот этот пакет https://pypi.python.org/pypi/pdftotext/1.0.0 ?
его только что попробовал, что-то не прокатило

Sergey
30.08.2017
21:56:41

Dmitry
30.08.2017
21:57:45

Vadim
30.08.2017
21:58:02
Нет. хмм.. думаю хорошая идея.
под убунту пробовал
А там точно те иероглифы?) у меня просто в unicode тоже ероглифы вывел, но они отличаются если присмотреться.
я немного даже обрадывался, но нет(

Sergey
30.08.2017
22:01:07
> 平成25年予算政府案に盛り込まれた地域活性化施策
java -jar pdfbox-app-2.0.7.jar ExtractText h25yosan2.pdf -html outjp.html
правда, без таблиц

Dmitry
30.08.2017
22:01:53
ну похожи, единственное порядок в PDF версии может быть совсем иной.

Google

Dmitry
30.08.2017
22:05:17

Vadim
30.08.2017
22:07:22
можно на ты)
не разово, нужно сделать сервис который будет это делать по запросу

Sergey
30.08.2017
22:08:57
Ну тогда точно на джаве надо

Sergey
30.08.2017
22:10:07
еще https://github.com/tabulapdf/tabula нашлась

Admin
ERROR: S client not available

Vadim
30.08.2017
22:16:25
Блин! Все ясно!
Огромное спасибо за pdfbox
файл который я скинул, он дейтсвительно хорошо парсит и выводит иероглифы
но по моим файлам:
рту 31, 2017 1:15:43 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+22 (22) in font YARJXD+TimesNewRomanPSMT
Т.е. сам pdf сформирован неверно..
постараюсь руками замапить один раз.. от этого источника думаю все файлы одинаково битые будут приходить =)

Sergey
30.08.2017
22:18:48
там force параметр был, попробуй с ним
-force Enables pdfbox to ignore corrupt objects.
https://pdfbox.apache.org/2.0/commandline.html

Vadim
30.08.2017
22:20:22
не прокатило.
я думаю если замапить, будет норм)
ща попоробую)

Dmitry
30.08.2017
22:37:32
хм pdffonts мне выдал что используется тольк 2 шрифта: MS-PMincho и MS-PGothic

Google

Alex
31.08.2017
05:14:15

Vadim
31.08.2017
05:16:44
Сегодня попробую совсем втупую. У меня шаблон файлов одинаковый, мне нужен не весь файл, а только некоторые данные. Которые (я надеюсь) записаны одним шрифтом. Вот его и замаплю и плевать что все остальное превратится в хз что!)
Ocr пока страшно. Потому что если он ошибётся регистром (к примеру) у меня все поедет.

Александр
31.08.2017
07:22:24
Привет, а кто уже пользовался gondor.io? Как впечатления

Dmitry
31.08.2017
07:27:03
^ @sysradium

Serge
31.08.2017
07:36:36
мопед не мой, если что, проспамили меня просто.
но может кому интересно будет, судя по вакансии, они такие милашки;)
https://spb.hh.ru/vacancy/21601017

Dmitry
31.08.2017
07:38:26
этот мопед уже пол года назад ещё пробегал. может больше. как-то долго ищут

b0g3r
31.08.2017
07:38:32

Serge
31.08.2017
07:39:15
Спамеры они ещё те. Мне автогенеренное письмо из данных моего гитхаба прилетело.

Dmitry
31.08.2017
07:39:25
ого

Aleksey
31.08.2017
07:39:32

sic transit
31.08.2017
07:39:55

Dmitry
31.08.2017
07:39:59

Serge
31.08.2017
07:40:15

Dmitry
31.08.2017
07:40:38
Большая компания — Большие возможности

Dmitry
31.08.2017
07:40:50