@bigdata_ru

« Назад

Страница 276 из 327

Далее »

Vova

29.05.2018
13:41:02

Врачи по МКБ норм ставят?

Artem

29.05.2018
13:41:03

а вот например как в тексте идет

Vova

29.05.2018
13:41:25

Ну то есть абы как или строго

Artem

29.05.2018
13:41:27

... Клинический диагноз: ЦВБ. Последствия перенесенного геморрагического инсульта с образованием внутримозговой гематома в левой теменной области от 21.08.2009. ...

Google

yopp

29.05.2018
13:41:50

А сколько текстов?

Ну то есть абы как или строго

Да абы как конечно.

Artem

29.05.2018
13:43:16

сколько будет обратываться системой?

yopp

29.05.2018
13:43:21

Если бы нормально писали, ставили бы код мкб

сколько будет обратываться системой?

Да

Vova

29.05.2018
13:43:51

Тогда можно считать, что мкб нет...

Paul

29.05.2018
13:44:19

Чтд

Artem

29.05.2018
13:44:25

кода мкб в самом тексте нет

Paul

29.05.2018
13:44:25

И NLP

yopp

29.05.2018
13:44:29

Да. Задача сводится к классификатору по коду МКБ из натурального текста

Artem

29.05.2018
13:44:42

а вот диагноз надо будет поставить по мкб

текстов примерно 300-600 в месяц на первом этапе

yopp

29.05.2018
13:45:14

Вам надо из текста вытащить кому, когда и что диагностировали, так?

Google

Paul

29.05.2018
13:45:17

А что мешает получать и МКБ вместе с тектом или их просто нет?

yopp

29.05.2018
13:45:19

Руками, собирайте выборку.

Vova

29.05.2018
13:45:32

Я с медиками работал, давно

yopp

29.05.2018
13:45:32

А что мешает получать и МКБ вместе с тектом или их просто нет?

Если бы были, Артём бы тут не писал ;)

У вас будут огромные проблемы с непонятными диагнозами скорее всего.

Paul

29.05.2018
13:46:15

Если бы были, Артём бы тут не писал ;)

А, ок) Тогда наверное классификатор не поможет, нужен анализатор текста.

Vova

29.05.2018
13:46:19

Они не только пишут как курица лапой, но и стилистика варьируется от врача к врачу

yopp

29.05.2018
13:46:31

И человеческий фактор

И ошибки

И опечатки

Artem

29.05.2018
13:47:04

текст составлен на Пк но пару раз отксеренный

yopp

29.05.2018
13:47:25

Банальная история: начал писать одно, отвлёкся, дописал другое. И получился несуществующий диагноз

Artem

29.05.2018
13:47:35

стилистика будет индивидуальна как я думаю у каждого врача

может быть. я понимаю что не будет 100%

yopp

29.05.2018
13:48:01

600 в месяц это очень мало

Paul

29.05.2018
13:48:08

Вам нужно тестовый датасет собрать из нормальных эталонных текстов и на нем нейронку попробовать обучить.

Artem

29.05.2018
13:48:16

если не найдет в мкб то надо обоснзать как ошибку

Paul

29.05.2018
13:48:38

А потом уже подсовывать в нее какие-нибудь с опечатками и неполные например, натренить на этом и будет профит.

yopp

29.05.2018
13:48:52

С такой выборкой, скорее всего очень долго не будет :)

Artem

29.05.2018
13:50:22

вопрос в том что для этого использовать - как я думаю что нужен справочники + API для работы с текстами чтобы он отработаывал неточные сравнения с учетом оборотов, падежей и прочими особенностями русского неструктуированного языка

Google

yopp

29.05.2018
13:50:25

Я так понимаю вы для конкретного медучереждения это делаете?

Artem

29.05.2018
13:50:44

да

yopp

29.05.2018
13:50:51

А какая цель?

Artem

29.05.2018
13:51:44

цель показать автоматизацию в действии решения этой задачи

нужно сэкономить время квалицированного персонала на ручном труде

но чтобы оператор смогут проверить что не уверенно распозналось и если что подкорректирвоать

yopp

29.05.2018
13:53:04

но чтобы оператор смогут проверить что не уверенно распозналось и если что подкорректирвоать

А почему тексты сразу с кодом мкб не ведутся?

Artem

29.05.2018
13:53:16

они присылаются из других учреждений

которые к сожалению нельзя заставить пока стандатизвоать формат

yopp

29.05.2018
13:54:19

нужно сэкономить время квалицированного персонала на ручном труде

А сколько стоит сейчас ручной труд, примерно?

И на сколько надо сократить затраты?

И какие требования сейчас к точности?

yopp

29.05.2018
13:56:17

Как часто возникают ошибки?

Какая цена ошибки?

Kek

29.05.2018
14:00:33

ФИО пишут с больших букв. Три слова подряд с больших букв = ФИО

а как же Обсессивно Компульсивное Расстройство?

хувевое фио так то

Paul

29.05.2018
14:01:04

?

yopp

29.05.2018
14:03:54

600 в месяц, это 20 в день. Если это 2 листа А4, небольшой плотности это не больше 3 тысяч знаков или 500 слов примерно. Люди в среднем читают около 120 слов в минуту, если вдумчиво. Итого ну не больше 10 минут на прочитать, выделить, найти в мкб. Итого не больше 200 минут в день. Или 3 часа. Грубо половина ставки. Хватит практиканта-терапевта. Плюс время руководителя, на первичный контроль. Если цена ошибки высокая, то многоуровневый контроль. Но полставки практиканта терапевта плюс месячная премия руководителю, это в российских реалиях сейчас сколько?

Artem

29.05.2018
14:12:39

600 в месяц, это 20 в день. Если это 2 листа А4, небольшой плотности это не больше 3 тысяч знаков или 500 слов примерно. Люди в среднем читают около 120 слов в минуту, если вдумчиво. Итого ну не больше 10 минут на прочитать, выделить, найти в мкб. Итого не больше 200 минут в день. Или 3 часа. Грубо половина ставки. Хватит практиканта-терапевта. Плюс время руководителя, на первичный контроль. Если цена ошибки высокая, то многоуровневый контроль. Но полставки практиканта терапевта плюс месячная премия руководителю, это в российских реалиях сейчас сколько?

надо вычленить не одно это поле в докумнете, а 10-ок уже других типов и может потребоваться обработать 300 документов в день.

yopp

29.05.2018
14:13:02

А может и не потребоваться

Google

Artem

29.05.2018
14:13:12

вопрос про целесообразность у меня не стоит, у меня стоит вопрос как сделать

yopp

29.05.2018
14:13:12

И будет у вас целый отдел чай пить

Kek

29.05.2018
14:13:28

Может они государственная контора

Клиника сбера например

Им надо диджитал

yopp

29.05.2018
14:13:46

вопрос про целесообразность у меня не стоит, у меня стоит вопрос как сделать

Нужно исходить из экономического эффекта

Admin

ERROR: S client not available

yopp

29.05.2018
14:16:18

Вам вероятнее всего поставили задачу сократить издержки и/или увеличить пропускную способность бизнес-процесса.

Это задача оптимизации бюджета. Предположим вы сейчас на распознавание 8 тысяч документов тратите 500 тысяч в год.

Это примерно 60 рублей на документ.

Ваша текущая пропускная способность 20 в сутки, судя по вашим словам нужно иметь возможность обрабатывать до 300 в сутки. Тут возникает вопрос: это с 20 до 300 вырастет среднее число документов или это сезонные/событийные пики? И что будет, если документ не обработают в тот-же день?

Но даже если эту проблему за скобки вынести оставить вопрос только издержек. Издержку полностью сократить нельзя, потому что чужие бизнес-процессы нет возможности изменить (хотя я бы попросил заливать документы по какой-то строгой форме. Пусть соседние учреждения сами заполняют как надо) Вопрос насколько сильно можно минимизировать эту издержку? Ну предположим, мы можем заменить практиканта программным комплексом и оставить только контроль.

Но программный комплекс несёт за собой и капитальные и операционные издержки

Капитальные: разработка комплекса, создание/настройка аппаратной инфраструктуры Операционные: поддержка программного комплекса, Поддержка аппаратной инфраструктуры.

Artem

29.05.2018
14:28:57

Ваша текущая пропускная способность 20 в сутки, судя по вашим словам нужно иметь возможность обрабатывать до 300 в сутки. Тут возникает вопрос: это с 20 до 300 вырастет среднее число документов или это сезонные/событийные пики? И что будет, если документ не обработают в тот-же день?

спасибо за интересный взгляд со стороны на бизнес процесс. я согласен что в любом деле должен экономический эффект. но пока хочу оценить трудность реализации с технической точки зрения - может кто то уже делал похожу задачу и скажет что это просто

я смотрел что есть например разбор текста резюме по ключевым полям

у Yandex

есть даже беслатные framework-и

естестественно трудозатраты буду сравниваться с человеческми затратами

yopp

29.05.2018
14:31:27

Я вас пытаюсь навести на мысль, что у вас задача очень абстрактно поставлена

Google

Artem

29.05.2018
14:31:36

очень конкретно

не хочу просто тут много людей грузить техническими подробностями

yopp

29.05.2018
14:32:31

Как мы уже тут обсудили, ваша задача сводится к классификатору мкб по тексту на естественном языке

Artem

29.05.2018
14:32:38

есть неструктированный распознанный текст - надо из его вычленить 11 полей

yopp

29.05.2018
14:32:51

Окей, к 11 классификаторам

Для выбора готового решения, у вас сейчас не хватает требований к результату работы этих классификаторов

Artem

29.05.2018
14:35:05

а в каком виде лучше сформировать эти требования?

Скрудж

29.05.2018
14:35:08

Ребят, подскажите, есть профиль вк, доступны все открытые данные(группы, личная информация, город, друзья). Чтобы определить интересы пользователя, это машинное обучение, сегментирование?

yopp

29.05.2018
14:37:49

а в каком виде лучше сформировать эти требования?

Лучше формулировать требования не к процессу, а к результату. Лучше всего в измеримых цифрах. Как минимум надо уточнить, какой процент ошибок по каким полям допустим (вероятно не меньше чем сейчас, а значит надо знать какая сейчас точность)

Теоретически ваша задача скорее всего имеет решение. Но на практике, достижение конкретных показателей точности может быть невозможным. Например тупо из-за стоимости. Или что более вероятно вашем случае — ограниченности выборки. Т.е. у вас просто не хватит документов чтоб охватить все вариации в данных

Ну и про то, зачем эта информация собирается надо тоже понимать. Потому что ошибка классификатора по интересам, имеет ничтожную стоимость. А вот ошибка классификатора диагноза, может иметь очень суровые последствия в зависимости, если эта информация потом используется для лечения. А вот если она используется для аналитики и оптимизации, то там цена может быть тоже ничтожной

Пишу на ходу, по кускам, сорян за ошибки

Ilya

29.05.2018
15:36:22

Попробуйте решение гибридное: классификатор раскрашивает текст и показывает человеку на нужные места. А название МКБ предлагает, только если уверен (по словарю). Но вообще, похоже на named entity recognition

Так вы экономите время человек на поиск, но место, где критически важна точность оставляете специалистам

Artem

29.05.2018
16:07:17

Гибридный подход. Спасибо за идею

Paul

29.05.2018
16:52:57

Паша

29.05.2018
16:53:46

лол :D

Dan

30.05.2018
09:05:06

Коллеги, есть интересная информация про курс, который в пине. 5 июня состоится онлайн вебинар для всех желающих по глубокому обучению нейронок на примере фармацевтики.

« Назад

Страница 276 из 327

Далее »

Открыть в Telegram