@spbpython

Страница 500 из 785
Alex
31.08.2017
07:41:12
и кубаноиды, казаки, отряды Путина, .. =)
а тут за политику не банят?

sic transit
31.08.2017
07:41:42
Serge
31.08.2017
07:41:46
а тут за политику не банят?
@nazarov_tech забань себя

Dmitry
31.08.2017
07:41:58
*забанил себя*

Google
Dmitry
31.08.2017
07:42:03
оказывается, это больно!

больше не буду.

Serge
31.08.2017
07:42:20
оказывается, это больно!
Смотря что за баней

Dmitry
31.08.2017
08:23:35
тем временем даже сова начала учить питон https://twitter.com/etosova/status/902840678564147201

Dmitry
31.08.2017
08:24:55
а кто это?

что "даже"

Sergey
31.08.2017
08:32:16
Dmitry
31.08.2017
08:34:00
тогда уж так:



Vadim
31.08.2017
08:59:50
Dmitry
31.08.2017
09:03:14
системы OCR умеют использовать заданный шрифт для обучения на нём и сравнения с его символами.

таки не вышло с pdf to text тулами?

Sergey
31.08.2017
09:04:51
Google
Sergey
31.08.2017
09:05:12
> Tesseract is slower with large character set languages (like Chinese), but it seems to work OK.

Alex
31.08.2017
09:06:49
В общем. А какими средствами делал ocr? И что значит по знакомому шрифту?
ну я себе сам накодил т.к случай частный и нет смысла носить с собой тяжелое общее решение. в целом тесеракт который посоветовали может помочь, но мне не зашел из коробки, а если допиливать то иногда проще свое сделать

В общем. А какими средствами делал ocr? И что значит по знакомому шрифту?
если ты знаешь какой шрифт то искать символы гораздо проще...

Vadim
31.08.2017
09:14:40
таки не вышло с pdf to text тулами?
Нет. Не вышло. Кажется что очень глубоко нужно погружаться если идти таким путем :/ попробую распознать

если ты знаешь какой шрифт то искать символы гораздо проще...
Если не ошибаюсь. Где-то в интернете есть тулы, которые по картинке предполагают шрифт. Думаю это прокатит

Dmitry
31.08.2017
09:17:03
я юзал tesseract но не для иероглифов. для латиницы и языков на её основе. хорошо зашло.

если ты знаешь какой шрифт то искать символы гораздо проще...
я ему там скидывал какие используются и это легко же можно в любом pdf ридере посмотреть

Vadim
31.08.2017
09:17:59
Я думаю и с кириллицой тоже должно прокатить)

я ему там скидывал какие используются и это легко же можно в любом pdf ридере посмотреть
У меня кириллица, файл тот был тестовый с подобной проблемой.

Шрифты в pdfках проименованы, но я все же сверюсь с чем-нибудь ещё :|

Dmitry
31.08.2017
09:19:56
эм. то есть не нужно языки с иероглифами распознавать?

CID же только для них вроде используется

Vadim
31.08.2017
09:40:34
Не нужно. Не только. Cid используется для кастомного шрифта у которого не задан мапинг на unicode.

Dmitry
31.08.2017
09:55:59
таки маппинг может быть и задан таким же как в unicode. захотел ты сделать CIDFont такой же как обычный шрифт. на входе 0x0451 (русская буква 'ё'), через CMap смотрим что она мапится на 0x0451 и соответсвует в CIDFont-е значку ё.

Vadim
31.08.2017
10:00:21
Первый прогон через tesseract: "пени: краст поррно по Клие доску вона отнес» ово ов строй" =)

Dmitry
31.08.2017
10:01:14
увеличь в 3 раза картинку. и проверь ещё раз

правило которое мы используем в практике его использования)

Sergey
31.08.2017
10:02:04
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

Google
Eugene
31.08.2017
10:13:06
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
This is converting an image to black and white. Tesseract does this internally, but the result can be suboptimal, particularly if the page background is of uneven darkness. То есть они даже адаптивный тресхолдинг не осилили? Сомнительно как-то.

Vadim
31.08.2017
10:13:54
таки маппинг может быть и задан таким же как в unicode. захотел ты сделать CIDFont такой же как обычный шрифт. на входе 0x0451 (русская буква 'ё'), через CMap смотрим что она мапится на 0x0451 и соответсвует в CIDFont-е значку ё.
вот я с CMap и как там шрифты выглядят не разобрался. Единственное PDFdebugger из PDFbox достаточно пролил свет на эту область. Если бы во всех файлах шрифт был одинаковый и одинаково плох -> то можно было руками пофиксить. Но в моем случае шрифт генерируется под контент (такое ощущение что какая-то прилажуха которая его генерирует очень заботиться о размере результирующего pdf и урезает все что можно), т.е. если в тексте только 20 кириллических символа - то только они и будут в шрифте.

Возьму перерыв в попытках и прочитаю спеку pdf =)

Aleksander
31.08.2017
11:24:00
на прошлом митапе кто-то говорил что JetBrains делает IDE для DS а может кто кинуть линк на скрин или анонс ?

Alex
31.08.2017
11:24:55
в ODS слаке можно узнать

Aleksander
31.08.2017
11:25:34
спасибо

Alex
31.08.2017
11:26:23
спасибо
если попробуешь расскажи плз правда ли они весь твой код через свой сервак пропускают

Dmitry
31.08.2017
11:27:37
Alex
31.08.2017
11:30:33
Serg
31.08.2017
13:57:34
Коллеги, а есть скидки на PiterPy №4?

Dmitry
31.08.2017
14:40:32
Коллеги, а есть скидки на PiterPy №4?
только те, что на сайте указаны в сетке цен

Serg
31.08.2017
14:41:54
Эх, я думал есть волшебный купон )) тогда побежал закупать))

Dmitry
31.08.2017
15:09:14
Выдвигаюсь на митап. Для нас забронирован дальний зал.



Sergey
31.08.2017
15:09:54
питон бар-хоппит?

Andrey
31.08.2017
15:09:54
в тарабруче?

Dmitry
31.08.2017
15:10:07
Google
Andrey
31.08.2017
15:10:12
славно, люблю тот зал

Dmitry
31.08.2017
15:10:23
питон бар-хоппит?
бар-слизерит)))

Dmitry
31.08.2017
15:11:59
"Tara Brooch", 2-я совьецкая, 18. Подходите к семи или позже, гуляем! :)

Admin
ERROR: S client not available

Hot
31.08.2017
15:14:08
Ух ты, у вас оффлайн-сходочки бывают?

Есть какая-то регулярность?

А то я наверное вольюсь при случае.

Dmitry
31.08.2017
15:14:58
всё тут: meetup.com/spbpython/

у нас два основных типа сходочек: митапы (второй вторник месяца) и дринкапы (последний четверг месяца)

на митапах мы делаем интересные доклады друг другу, на дринкапах мы культурно употребляем горячительные напитки и ругаем пхп.

бывают эпизодически какие-то эксперименты с форматом, но основные эти два.

Dmitry
31.08.2017
15:19:39
Только пхп?
не только. но узнать, что ещё мы ругаем, можно, придя на наши дринкапы!

Chikiro
31.08.2017
15:20:46
Обычно ангулар на митапах ругают, и хвалят реакт :)

Sasha
31.08.2017
15:21:44
сегодня встреча намечается?

Dmitry
31.08.2017
15:22:24
сегодня встреча намечается?
в семь вечера в таре бруч же. @delimitry уже выехал

https://www.meetup.com/spbpython/events/242176147/

Google
Aleksander
31.08.2017
17:01:13




Danil
31.08.2017
17:13:51
Хорошо посидеть )) и лёгкого похмелья

Michael
31.08.2017
17:18:57
Плюсую

Dmitry
31.08.2017
17:57:14
Спасибо! :)

Mikhail
31.08.2017
18:15:40
А кто-то ещё есть в тара бруче?

Mikhail
31.08.2017
18:20:33
О, я к Вам

Aleksander
31.08.2017
18:27:00
Пока да

Dmitry
31.08.2017
19:33:31
На Рубика пошли!

Александр
31.08.2017
19:50:42
На Рубика пошли!
Уже n-ный раз читаю про рубика, это где?)

Dmitry
31.08.2017
19:51:46
На Рубинштейна :)

Александр
31.08.2017
19:53:00
На Рубинштейна :)
Окей, буду развивать алкоэрудицию :)

Страница 500 из 785