Добрый день Нейросети паблике для русского языка подобной задачей не с

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Добрый день!
Нейросети в паблике для русского языка с подобной задачей не справляются. Фактически 3000 знаков текста, чтобы он был более-менее похож на человеческий могут генерировать только очень большие модели, которые обучались длительное время. В нашем распоряжении есть ряд моделей, обученных на больших корпусах русского языка.
Основная сложность в задаче состоит в том, чтобы получать тексты именно на заданную тему и с заданными параметрами (командами, результатом, и т. п.). Чтобы получить то, что вам требуется нужно:
1. Собрать большую выборку подобных текстов
2. Поскольку нам нужно, чтобы текст содержал нужные значения параметров (нужные названия команд, счет и т. п., прогноз кто выиграет) нам нужно при обучении для каждого текста иметь данные о том, про что он в структурированной форме т.е. например: (команда1: Сочи, команда2: Краснодар, результат: проигрыш, счет…). Таких примеров нужно около 10000 (чем больше, тем лучше)
3. После этого нужно дообучить нейросеть, чтобы она генерировала именно нужные нам тексты.
4. Далее можно будет генерировать текст, подавая на вход данные.
По стоимости это будет примерно так:
1. Разработка плана работ и технического задания — 24000. В ходе этой работы специалист анализирует задачу, и описывает варианты решения, как и что будет выполнятся, описывается ожидаемый результат, с оценкой сроков и стоимости.
2. Сбор текстов из Интернета — 60000 руб. Вы можете предоставить нам тексты сами, если они у вас есть в нужном количестве, тогда данная работа не потребуется
3. Нам нужно обучить нейросеть находить в тексте параметры (название команды, счет и т. п.), чтобы получить нужные нам данные в структурированной форме. Это стоит 28000 руб за один параметр (но возможны варианты для сложных параметров). Если у вас есть нужный объем данных (например, ваши авторы писали такие тексты и в базе данных есть нужные параметры, которые можно выгрузить), то этот этап будет выполнять не нужно.
4. Обучение сети будет стоит 200-300 тыс. руб. Стоимость значительная, так как этот этап требует использования дорогостоящих GPU серверов и внимательной настройки со стороны специалиста, что связано с тем, что требуются длинные тексты высокого качества.
5. Генерация текстов. На нашем оборудовании генерация текстов будет стоить 5 руб/тысяча знаков, что снова связано с ресурсами, потребляемыми большой сетью. Существует возможность установки системы на ваше оборудование при оплате стоимости лицензии на ПО и заключении договора на техническую поддержку, но стоимость лицензии начинается от 400 000 руб.
Стоимость можно сократить при использовании нейросетей меньшего размера, но и качество текста будет заметно хуже
Какого рода текст можно ожидать?
Пример того, что может сгенерировать самая большая модель на спортивную тему:
Матч ознаменует первый матч Лиги чемпионов УЕФА за последние 20 с лишним лет. первая из двух игр в предсезонном графике с участием семи соревновательных матчей на новом месте встречи клуба. Помимо домашнего матча, четыре других товарищеских матча будут проходить в течение четырех дней подряд, один против «Манчестер Юнайтед» из Премьер-лиги и два против «Ювентуса». Третий товарищеский матч против итальянской стороны также состоится на том же этапе, 31 декабря 2013 года. В общей сложности три домашних матча запланированы на месте в течение сезона 2014-2015. Кроме того, два дорожных матча запланированы на нынешний домашний газон клуба, на стадионе «Красная Руда» в Белграде.
(тексты подобного рода можно генерировать без настройки и дообучения, но их содержимое никак невозможно предсказать, кроме общей темы)
Если взять модель меньшего размера, то мы текст выглядит так:
KDIT провела пресс-конференцию возле Олимпийского стадиона, на которой были предложены интервью с нынешним и бывшим главным тренером «Олимпиакоса» Антоном Кроенке. Все презентации можно увидеть кратко в конце пресс-конференции. Критические точки впереди у Луки Модрича на этом этапе будут иметь лишь ограниченную роль. В рамках нашего пресс-релиза мы сразу же выделяемся на Luka Modric G. «88» и «Краснодар» также начали титульный сезон соревнования, финишировав на вершине с непобежденным рекордом 3-1W (29-е место) и штрафной зоной 2-0. Мы верим в тех, кто любит говорить, что Бруно упомянул Борхес (как они это делали в 2008 году), когда он говорил о настольном теннисе, мы обращаем реальное внимание на Лафуза и Гудина, которые хорошо известны вам.
Если предложение Вас заинтересовало, напишите нам и мы вышлем договор на составление плана работ