@bigdata_ru

Страница 276 из 327
Vova
29.05.2018
13:41:02
Врачи по МКБ норм ставят?

Artem
29.05.2018
13:41:03
а вот например как в тексте идет

Vova
29.05.2018
13:41:25
Ну то есть абы как или строго

Artem
29.05.2018
13:41:27
... Клинический диагноз: ЦВБ. Последствия перенесенного геморрагического инсульта с образованием внутримозговой гематома в левой теменной области от 21.08.2009. ...

Google
yopp
29.05.2018
13:41:50
А сколько текстов?

Artem
29.05.2018
13:43:16
сколько будет обратываться системой?

yopp
29.05.2018
13:43:21
Если бы нормально писали, ставили бы код мкб

Vova
29.05.2018
13:43:51
Тогда можно считать, что мкб нет...

Paul
29.05.2018
13:44:19
Чтд

Artem
29.05.2018
13:44:25
кода мкб в самом тексте нет

Paul
29.05.2018
13:44:25
И NLP

yopp
29.05.2018
13:44:29
Да. Задача сводится к классификатору по коду МКБ из натурального текста

Artem
29.05.2018
13:44:42
а вот диагноз надо будет поставить по мкб

текстов примерно 300-600 в месяц на первом этапе

yopp
29.05.2018
13:45:14
Вам надо из текста вытащить кому, когда и что диагностировали, так?

Google
Paul
29.05.2018
13:45:17
А что мешает получать и МКБ вместе с тектом или их просто нет?

yopp
29.05.2018
13:45:19
Руками, собирайте выборку.

Vova
29.05.2018
13:45:32
Я с медиками работал, давно

yopp
29.05.2018
13:45:32
У вас будут огромные проблемы с непонятными диагнозами скорее всего.

Paul
29.05.2018
13:46:15
Если бы были, Артём бы тут не писал ;)
А, ок) Тогда наверное классификатор не поможет, нужен анализатор текста.

Vova
29.05.2018
13:46:19
Они не только пишут как курица лапой, но и стилистика варьируется от врача к врачу

yopp
29.05.2018
13:46:31
И человеческий фактор

И ошибки

И опечатки

Artem
29.05.2018
13:47:04
текст составлен на Пк но пару раз отксеренный

yopp
29.05.2018
13:47:25
Банальная история: начал писать одно, отвлёкся, дописал другое. И получился несуществующий диагноз

Artem
29.05.2018
13:47:35
стилистика будет индивидуальна как я думаю у каждого врача

может быть. я понимаю что не будет 100%

yopp
29.05.2018
13:48:01
600 в месяц это очень мало

Paul
29.05.2018
13:48:08
Вам нужно тестовый датасет собрать из нормальных эталонных текстов и на нем нейронку попробовать обучить.

Artem
29.05.2018
13:48:16
если не найдет в мкб то надо обоснзать как ошибку

Paul
29.05.2018
13:48:38
А потом уже подсовывать в нее какие-нибудь с опечатками и неполные например, натренить на этом и будет профит.

yopp
29.05.2018
13:48:52
С такой выборкой, скорее всего очень долго не будет :)

Artem
29.05.2018
13:50:22
вопрос в том что для этого использовать - как я думаю что нужен справочники + API для работы с текстами чтобы он отработаывал неточные сравнения с учетом оборотов, падежей и прочими особенностями русского неструктуированного языка

Google
yopp
29.05.2018
13:50:25
Я так понимаю вы для конкретного медучереждения это делаете?

Artem
29.05.2018
13:50:44
да

yopp
29.05.2018
13:50:51
А какая цель?

Artem
29.05.2018
13:51:44
цель показать автоматизацию в действии решения этой задачи

нужно сэкономить время квалицированного персонала на ручном труде

но чтобы оператор смогут проверить что не уверенно распозналось и если что подкорректирвоать

Artem
29.05.2018
13:53:16
они присылаются из других учреждений

которые к сожалению нельзя заставить пока стандатизвоать формат

yopp
29.05.2018
13:54:19
нужно сэкономить время квалицированного персонала на ручном труде
А сколько стоит сейчас ручной труд, примерно?

И на сколько надо сократить затраты?

И какие требования сейчас к точности?

yopp
29.05.2018
13:56:17
Как часто возникают ошибки?

Какая цена ошибки?

Kek
29.05.2018
14:00:33
ФИО пишут с больших букв. Три слова подряд с больших букв = ФИО
а как же Обсессивно Компульсивное Расстройство?

хувевое фио так то

Paul
29.05.2018
14:01:04
?

yopp
29.05.2018
14:03:54
600 в месяц, это 20 в день. Если это 2 листа А4, небольшой плотности это не больше 3 тысяч знаков или 500 слов примерно. Люди в среднем читают около 120 слов в минуту, если вдумчиво. Итого ну не больше 10 минут на прочитать, выделить, найти в мкб. Итого не больше 200 минут в день. Или 3 часа. Грубо половина ставки. Хватит практиканта-терапевта. Плюс время руководителя, на первичный контроль. Если цена ошибки высокая, то многоуровневый контроль. Но полставки практиканта терапевта плюс месячная премия руководителю, это в российских реалиях сейчас сколько?

yopp
29.05.2018
14:13:02
А может и не потребоваться

Google
Artem
29.05.2018
14:13:12
вопрос про целесообразность у меня не стоит, у меня стоит вопрос как сделать

yopp
29.05.2018
14:13:12
И будет у вас целый отдел чай пить

Kek
29.05.2018
14:13:28
Может они государственная контора

Клиника сбера например

Им надо диджитал

yopp
29.05.2018
14:13:46
Admin
ERROR: S client not available

yopp
29.05.2018
14:16:18
Вам вероятнее всего поставили задачу сократить издержки и/или увеличить пропускную способность бизнес-процесса.

Это задача оптимизации бюджета. Предположим вы сейчас на распознавание 8 тысяч документов тратите 500 тысяч в год.

Это примерно 60 рублей на документ.

Ваша текущая пропускная способность 20 в сутки, судя по вашим словам нужно иметь возможность обрабатывать до 300 в сутки. Тут возникает вопрос: это с 20 до 300 вырастет среднее число документов или это сезонные/событийные пики? И что будет, если документ не обработают в тот-же день?

Но даже если эту проблему за скобки вынести оставить вопрос только издержек. Издержку полностью сократить нельзя, потому что чужие бизнес-процессы нет возможности изменить (хотя я бы попросил заливать документы по какой-то строгой форме. Пусть соседние учреждения сами заполняют как надо) Вопрос насколько сильно можно минимизировать эту издержку? Ну предположим, мы можем заменить практиканта программным комплексом и оставить только контроль.

Но программный комплекс несёт за собой и капитальные и операционные издержки

Капитальные: разработка комплекса, создание/настройка аппаратной инфраструктуры Операционные: поддержка программного комплекса, Поддержка аппаратной инфраструктуры.

Artem
29.05.2018
14:28:57
Ваша текущая пропускная способность 20 в сутки, судя по вашим словам нужно иметь возможность обрабатывать до 300 в сутки. Тут возникает вопрос: это с 20 до 300 вырастет среднее число документов или это сезонные/событийные пики? И что будет, если документ не обработают в тот-же день?
спасибо за интересный взгляд со стороны на бизнес процесс. я согласен что в любом деле должен экономический эффект. но пока хочу оценить трудность реализации с технической точки зрения - может кто то уже делал похожу задачу и скажет что это просто

я смотрел что есть например разбор текста резюме по ключевым полям

у Yandex

есть даже беслатные framework-и

естестественно трудозатраты буду сравниваться с человеческми затратами

yopp
29.05.2018
14:31:27
Я вас пытаюсь навести на мысль, что у вас задача очень абстрактно поставлена

Google
Artem
29.05.2018
14:31:36
очень конкретно

не хочу просто тут много людей грузить техническими подробностями

yopp
29.05.2018
14:32:31
Как мы уже тут обсудили, ваша задача сводится к классификатору мкб по тексту на естественном языке

Artem
29.05.2018
14:32:38
есть неструктированный распознанный текст - надо из его вычленить 11 полей

yopp
29.05.2018
14:32:51
Окей, к 11 классификаторам

Для выбора готового решения, у вас сейчас не хватает требований к результату работы этих классификаторов

Artem
29.05.2018
14:35:05
а в каком виде лучше сформировать эти требования?

Скрудж
29.05.2018
14:35:08
Ребят, подскажите, есть профиль вк, доступны все открытые данные(группы, личная информация, город, друзья). Чтобы определить интересы пользователя, это машинное обучение, сегментирование?

yopp
29.05.2018
14:37:49
а в каком виде лучше сформировать эти требования?
Лучше формулировать требования не к процессу, а к результату. Лучше всего в измеримых цифрах. Как минимум надо уточнить, какой процент ошибок по каким полям допустим (вероятно не меньше чем сейчас, а значит надо знать какая сейчас точность)

Теоретически ваша задача скорее всего имеет решение. Но на практике, достижение конкретных показателей точности может быть невозможным. Например тупо из-за стоимости. Или что более вероятно вашем случае — ограниченности выборки. Т.е. у вас просто не хватит документов чтоб охватить все вариации в данных

Ну и про то, зачем эта информация собирается надо тоже понимать. Потому что ошибка классификатора по интересам, имеет ничтожную стоимость. А вот ошибка классификатора диагноза, может иметь очень суровые последствия в зависимости, если эта информация потом используется для лечения. А вот если она используется для аналитики и оптимизации, то там цена может быть тоже ничтожной

Пишу на ходу, по кускам, сорян за ошибки

Ilya
29.05.2018
15:36:22
Попробуйте решение гибридное: классификатор раскрашивает текст и показывает человеку на нужные места. А название МКБ предлагает, только если уверен (по словарю). Но вообще, похоже на named entity recognition

Так вы экономите время человек на поиск, но место, где критически важна точность оставляете специалистам

Artem
29.05.2018
16:07:17
Гибридный подход. Спасибо за идею

Paul
29.05.2018
16:52:57


Паша
29.05.2018
16:53:46
лол :D

Dan
30.05.2018
09:05:06
Коллеги, есть интересная информация про курс, который в пине. 5 июня состоится онлайн вебинар для всех желающих по глубокому обучению нейронок на примере фармацевтики.

Страница 276 из 327