@spbpython

Страница 499 из 785
sic transit
30.08.2017
14:30:12
Denis
30.08.2017
14:30:34
Почему не плюс? Дело вкуса/скиллов, вот это всё, нет? :)
Практика показывает что это идеально подходит для тех, кто "от звонка до звонка" работает. А хорошие программисты всегда ищут чего-то и не хотят находить потолка. Находят - уходят

Зачем вам перспективы развития бизнеса?
Возможность начать что-то новое, интересное, может быть с новыми технологиями - возможность развиваться для разработчика

Dmitry
30.08.2017
14:31:19
томилин, ты, похоже, ещё больше меня любишь вбрасывать философии в чат :D I've met my match

Google
Sergey
30.08.2017
14:34:14
Чоооооооо А как фулстэк и "потолок" связаны? о_о (совсем не понял мысль)
просто телеграму не хватает слаковских тредов, ответил не туда похоже

sic transit
30.08.2017
14:34:44
Чоооооооо А как фулстэк и "потолок" связаны? о_о (совсем не понял мысль)
Когда ты будешь расти, если тебе верстать надо...

Sergey
30.08.2017
14:34:45
просто телеграму не хватает слаковских тредов, ответил не туда похоже
Вот мне тоже показалось, что это, возможно, к перспективам бизнеса относится

sic transit
30.08.2017
14:36:29
?
Сидишь такой, верстаешь, ужос

Dmitry
30.08.2017
14:42:04
сидишь такой, верстаешь, ПОСЛУШАЛ ВЕБ-СТАНДАРТЫ ВНЕДРИЛ АВТОПРЕФИКСЕР ВЫПИЛ В БАРЕ С СИТНИКОМ ВЫСТУПИЛ НА КОНФЕРЕНЦИИ ВОШЁЛ В W3C ADVISORY COMMITTEE ВСЕ УВАЖАЮТ ОТЦУ ПОЗВОНИЛ МАКЕЕВ ПРОСИТ СФОТОГРАФИРОВАТЬСЯ С НИМ

Chikiro
30.08.2017
14:45:49
Мне после собеседования в кудаго не понравилось, что прям отрицательно к удаленке относятся, и разворачивание на сервера у них какое-то странное (или надо было админов/девопсов о таком спрашивать).

Ilia
30.08.2017
14:47:22
А мне вот интересно, что понимается под "ростом". Изучение новых технологий это интересно и здорово, но всё равно же не применишь всё новое и прикольное на текущих проектах. Выходит единственный способ расти это постоянно менять проекты, а тут уже и не важно фулстек или нет

Google
Andrey
30.08.2017
14:51:39
sic transit
30.08.2017
14:52:01
Лучше быть
Ну раз про ограничения, то зачем себя ограничивать вебом?

Chikiro
30.08.2017
14:52:59
Ну раз про ограничения, то зачем себя ограничивать вебом?
обычно ограничения накладывает работа

Denis
30.08.2017
14:53:16
sic transit
30.08.2017
14:53:25
обычно ограничения накладывает работа
Работа накладывает ограничения на то как ее работать

Andrey
30.08.2017
14:53:28
Dmitry
30.08.2017
14:53:51
не работать же
работа не волк. (Ничто не волк, кроме волка.)

Denis
30.08.2017
14:53:58
это какого размера там команды, что тимлиду нужен зам?
Знакомый там скорее как сеньёр очень сильный, а тимлид просто уезжает на отдых, нужно кому-то быть ответственным и знать кого торкнуть )

sic transit
30.08.2017
14:54:20
Denis
30.08.2017
14:54:45
работа не волк. (Ничто не волк, кроме волка.)
Кроме того, что воет как волк, ест как волк и ходит как волк! //Дак-тайпинг в массы

amureki
30.08.2017
14:54:56
Vadim
30.08.2017
21:03:20
Приветствую, господа! Столкунулся с проблемой парсинга pdf и дошел до отчаяния =( Здесь можно посоветоваться? есть у кого опыт использования pdfminer? проблема в том что не могу CIDFonts нормально обработать, pdf в txt конвертится как-то так "(cid:11)/(cid:19)(cid:17) (cid:44) 30101810500000000682"

Dmitry
30.08.2017
21:11:13
код покажи же, ну

Vadim
30.08.2017
21:15:22
как пример: python2.7 ./tools/pdf2txt.py ./test.pdf

test.pdf - http://www.kantei.go.jp/jp/singi/tiiki/siryou/pdf/h25yosan2.pdf

pdf с ascii проблем нет. но вот для остальных символов нужен шрифт

иначе все покрывается (cid:%)

по спецификации pdf, этот шрифт ( CIDFont ) лежит внутри pdf. так вот. У меня нет представления как его замапить на эти cid-коды

ой. прошу прощения. строка "python2.7 ./tools/pdf2txt.py ./test.pdf" выполняется в каталоге https://github.com/euske/pdfminer

Dmitry
30.08.2017
21:38:55
Google
Vadim
30.08.2017
21:40:20
Да. я читал уже. Там еще на github много про это говорят. Но все сводится к предпоследнему комменту вот от сюда https://github.com/euske/pdfminer/issues/39.

Но я надеюсь что я просто что-то делаю не так и в моем случае есть способ прочитать файл используя стандартные методы библиотеки

Dmitry
30.08.2017
21:42:10
а этот японский текст важен?

оу там всё по японски

Vadim
30.08.2017
21:42:48
ага)

Dmitry
30.08.2017
21:47:34
я воспользовался pdftotext h25yosan2.pdf - вроде ок. ты не пробовал её?

ну или pdftohtml

Vadim
30.08.2017
21:51:05
минуту..

Это про вот этот пакет https://pypi.python.org/pypi/pdftotext/1.0.0 ?

его только что попробовал, что-то не прокатило

Dmitry
30.08.2017
21:57:45
А какая ОС?
под убунту пробовал

Vadim
30.08.2017
21:58:02
Нет. хмм.. думаю хорошая идея.

под убунту пробовал
А там точно те иероглифы?) у меня просто в unicode тоже ероглифы вывел, но они отличаются если присмотреться.

я немного даже обрадывался, но нет(

Sergey
30.08.2017
22:01:07
> 平成25年予算政府案に盛り込まれた地域活性化施策

java -jar pdfbox-app-2.0.7.jar ExtractText h25yosan2.pdf -html outjp.html правда, без таблиц

Dmitry
30.08.2017
22:01:53
ну похожи, единственное порядок в PDF версии может быть совсем иной.

Google
Dmitry
30.08.2017
22:05:17
https://pdfbox.apache.org/ пробовали?
вот да, Сковородкин умница и в корень зрит. Вам разово файл конвертнуть? Зачем вообще питон, берите что угодно, лишь бы работало

Vadim
30.08.2017
22:07:22
можно на ты)

не разово, нужно сделать сервис который будет это делать по запросу

Sergey
30.08.2017
22:08:57
Ну тогда точно на джаве надо

Sergey
30.08.2017
22:10:07


еще https://github.com/tabulapdf/tabula нашлась

Admin
ERROR: S client not available

Vadim
30.08.2017
22:16:25
Блин! Все ясно!

Огромное спасибо за pdfbox

файл который я скинул, он дейтсвительно хорошо парсит и выводит иероглифы

но по моим файлам:

рту 31, 2017 1:15:43 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode WARNING: No Unicode mapping for CID+22 (22) in font YARJXD+TimesNewRomanPSMT

Т.е. сам pdf сформирован неверно..

постараюсь руками замапить один раз.. от этого источника думаю все файлы одинаково битые будут приходить =)

Sergey
30.08.2017
22:18:48
там force параметр был, попробуй с ним

-force Enables pdfbox to ignore corrupt objects. https://pdfbox.apache.org/2.0/commandline.html

Vadim
30.08.2017
22:20:22
не прокатило.

я думаю если замапить, будет норм)

ща попоробую)

Dmitry
30.08.2017
22:37:32
хм pdffonts мне выдал что используется тольк 2 шрифта: MS-PMincho и MS-PGothic

Google
Alex
31.08.2017
05:14:15
постараюсь руками замапить один раз.. от этого источника думаю все файлы одинаково битые будут приходить =)
Я с плохим pdf в итоге сломался и не смог его спарсить питоном, ocr по знакомому шрифту оказалось проще делать.

Vadim
31.08.2017
05:16:44
Я с плохим pdf в итоге сломался и не смог его спарсить питоном, ocr по знакомому шрифту оказалось проще делать.
Я ещё повоюю. Попробовал замапить (cid:x) на букву.. провал.. оказалось что там несколько шрифтов, соответственно в одном файле (cid:1) может означать несколько разных символов.

Сегодня попробую совсем втупую. У меня шаблон файлов одинаковый, мне нужен не весь файл, а только некоторые данные. Которые (я надеюсь) записаны одним шрифтом. Вот его и замаплю и плевать что все остальное превратится в хз что!)

Ocr пока страшно. Потому что если он ошибётся регистром (к примеру) у меня все поедет.

Александр
31.08.2017
07:22:24
Привет, а кто уже пользовался gondor.io? Как впечатления

Dmitry
31.08.2017
07:27:03
^ @sysradium

Serge
31.08.2017
07:36:36
мопед не мой, если что, проспамили меня просто. но может кому интересно будет, судя по вакансии, они такие милашки;) https://spb.hh.ru/vacancy/21601017

Dmitry
31.08.2017
07:38:26
этот мопед уже пол года назад ещё пробегал. может больше. как-то долго ищут

b0g3r
31.08.2017
07:38:32
мопед не мой, если что, проспамили меня просто. но может кому интересно будет, судя по вакансии, они такие милашки;) https://spb.hh.ru/vacancy/21601017
мне за последние полгода три раза по всем каналам прилетало: и в тг, и в линкедине, и в гитхабе

Serge
31.08.2017
07:39:15
Спамеры они ещё те. Мне автогенеренное письмо из данных моего гитхаба прилетело.

Dmitry
31.08.2017
07:39:25
ого

Aleksey
31.08.2017
07:39:32
этот мопед уже пол года назад ещё пробегал. может больше. как-то долго ищут
Мне звонили год назад. Может, просто уже нового ищут?

Dmitry
31.08.2017
07:39:59
Dmitry
31.08.2017
07:40:38
Большая компания — Большие возможности

Dmitry
31.08.2017
07:40:50
так-то, там тепло, там яблоки...
и кубаноиды, казаки, отряды Путина, .. =)

Страница 499 из 785