Уже больше двух лет команда Tahrirchi, состоящая из трех студентов Университета Инха в Ташкенте, объединяет в своем проекте любовь к IT и узбекскому языку, популяризируя грамотность и уважение к языку. Сегодня стартап представляет из себя экосистему с несколькими продуктами — проверка орфографии, транслитерация из кириллицы в латиницу и наоборот.

Команда победила в конкурсе mGovAward2022 и получила на свое развитие $50 тыс. Сейчас ребята ищут новые источники финансирования, чтобы продолжить развивать проект. В планах среди прочего создание языковой модели, которая сможет генерировать текст на узбекском языке.

Spot поговорил с основателем проекта Мухаммадсаидом Мамасаидовым о том, как появилась идея стартапа, с какими сложностями столкнулись разработчики, а также про опыт работы с Microsoft.


Из студенческой работы в стартап

Мой отец программист, поэтому с раннего детства меня окружали компьютеры. Будучи подростком, начал пробовать себя в IT с работы над веб-сайтами. Правда потом недолгое время хотел стать врачом, но в итоге поступил в колледж с уклоном в информационные технологии, а затем в университет Инха в Ташкенте.

На втором курсе по дисциплине «Структура данных» нам дали задание на выбор. Я решил работать над проектом по орфографической проверке текста на узбекском языке. В процессе стало понятно, что это очень сложная задача — кое-как сдали, преподаватель тоже был не в восторге от результатов. Тогда это все было в базовом виде.

Мы не разбирались в том, как устроен узбекский язык, интерес был больше технический. Честно говоря, тогда я и сам не владел этим языком на том уровне, который требовался для выбранного проекта. Забегая вперед, скажу, что впоследствии я стал одержим им.

После сдачи работы мысли о проекте не покидали голову: хотелось лучше ее реализовать. Так и продолжилось исследование, которое привело к первым открытиям.

С точки зрения проверки орфографии узбекский язык отличается от других. Похожие модели я встретил лишь в финно-угорской и тюркской языковых семьях. Из этого мы вынесли важный аспект, который вошел в основу разработанной нами технологии: в разговоре и письме мы образуем очень длинные слова, некоторые в переводе на другие языке могут означать целые предложения. Например, слово «келолмаганларданмисиз?», которое означает «вы из тех, кто не смог прийти?»

Словообразование узбекского языка отличается — у нас около 200 аффиксов (аффикс — морфема, которая присоединяется к корню и служит для образования слов — прим. Spot). И задачей команды было задать правило для каждой такой морфемы — какой аффикс идет после какого, как это влияет на значение слова и так далее.

tahrirchi, стартапы

Фото: Илья Семендеев / Spot

Для проработки только этой части требуется два-три месяца кропотливой работы лингвистов. Система должна отвергать все неузбекские слова.

Над первоначальным вариантом я работал самостоятельно, опираясь на свои знания языка. Тогда для отдельной команды лингвистов не было средств. Здесь отмечу еще одну сложность, с которой мы сталкивались на протяжении всей работы — отсутствие полноценных словарей узбекского языка в электронном виде. Есть бумажные, есть отсканированные — но для наших целей они не подходили. Еще в словарях не указаны части речи. При формировании базы это было важно, так как для каждой части речи действуют свои правила словообразования.

Первые инвестиции

Первую версию Tahrirchi делали на собственные средства. Далее начали искать финансирование. Например, пытались привлечь инвестиции от Министерства инновационного развития, но безуспешно.

Позже наткнулись на конкурс mGovAward2022 для мобильных приложений. Решили, что наше решение подходит. Идей было немного, одна из которых — бесплатная программная клавиатура для проверки правописания на узбекском языке для Android.

Тогда собралась команда из трех человек — я, data scientist и дизайнер. Этим же составом продолжаем работать над Tahrirchi и сейчас. До конкурса разрабатывал модель около полугода, на саму клавиатуру ушло три месяца.

Преимущество разработки — это маленький вес расширения, всего 2 Мб. Клавиатура для Android сейчас доступна для пользователей.

Разумеется, мы не достигли такой эффективности и не оптимизировали процессы так, как например, разработчики клавиатуры «Яндекс». В нашем случае не было автозамены слов: пользователь понимал, что есть ошибка в сообщении только после набора текста. Тогда мы не могли предоставить это, так как слова в узбекском языке могут дополняться большим количеством разных аффиксов.

Проект Tahrirchi прошел во второй этап конкурса, затем в финал и победил. Призовой фонд на дальнейшее развитие проекта составил $50 тыс. Мы были рады, что на тему узбекского языка обратили внимание. Итог конкурса стал сильным толчком для дальнейшего развития.

tahrirchi, стартапы

Церемония награждения на конкурсе mGovAward2022. Фото: личный архив героя

После получения гранта мы начали работать над веб-редактором. Может показаться, что вся сложность продукта заключается в его лингвистической стороне, но на самом деле с технической точки зрения трудности тоже были. Поэтому у нас сформировались две команды — лингвисты и айтишники. Ребят для работы с узбекским языком нашли по объявлению. Перед началом работы они прошли тестовое задание и обучились нашей технологии.

Отобранные аннотаторы дополнили базу аффиксов, так что на сегодняшний день наша система распознает почти все слова узбекского языка. На формирование исчерпывающего словаря корней ушло около трех месяцев.

Дальше команда лингвистов приступила к работе над транслитерацией. Для нас было важным создать систему по детальному воспроизведению символов из кириллицы в латиницу и наоборот. Сейчас модель готова и представлена в виде орфографической проверки.

Сегодня наш пользователь может поместить текст в окно сервиса на латинице, сконвертировать его в кириллицу и наоборот.

tahrirchi, стартапы

Транслитерация и проверка орфографии на сайте Tahrirchi

Интеграция в Microsoft

Мы также занимались разработкой расширения для Microsoft Word, которое можно скачать и установить.

Microsoft — самая бюрократическая компания, с которой я сталкивался (улыбается). Сложно было вести коммуникацию. Мы нашли необходимую документацию для подготовки нашего расширения для Microsoft Word, подготовили все для релиза на маркетплейсе компании. Но после стали всплывать различные проблемы. Так, наши функции работали не во всех версиях продукта. Приходилось переписывать части кода по-разному.

Переписка с организацией растягивались на недели, вопросы решались медленно. Для стартапа это невозможные условия. Но Microsoft все-таки выложил наше расширение в свой маркетплейс.

tahrirchi, стартапы

Расширение для Microsoft

До какого-то ограничения пользователи могут применять наши продукты бесплатно.

Чтобы установить расширение для Microsoft Word нужно зарегистрироваться на нашем сайте и совершить несколько шагов по инструкции. На данный момент уже около 150 человек применяют разработку. После успешного внедрения в Microsoft я стал представлять Tahrirchi в качестве экосистемы. Теперь каждый проект требует отдельного внимания, подхода и продвижения.

К слову о продвижении: маркетингом пока не занимаемся, потому что для нас важно сохранить как можно больше средств на развитие стартапа. До победы в конкурсе продвижение проекта было активным. К примеру, про проект были публикации для Manaviyat.edu, til.gov.uz и репортажи на Uzbekiston 24 и Yoshlar.

Касательно сегодняшнего положения дел, решил, что пока у нас не будет емкого и четкого ответа на вопрос: «чем мы отличаемся от конкурентов?», мы не будем организовывать кампании по продвижению.

Конкурентами можно назвать проект Savodxon — самый первый, о котором мы узнали, также Matn.uz — бесплатный сервис, основанный на технологии, которая не подходит для узбекского языка, korrektor — похож на matn.uz и YuridaORFO — кастомное решение со своей программой по типу Microsoft Word.

Что касается монетизации, то считаю, что простая проверка орфографии и транслитерация должны быть бесплатными функциями. Однако у нас все же пока есть ограничение в 10 тыс. слов, далее начинается платная версия, которая также предоставляет дополнительные услуги по проверке написания слов — слитно или раздельно, с апострофом или без. Стоимость — 16 тыс. сумов в месяц. Когда в дальнейшем мы внедрим более сложные идеи, появится полноценная платная версия.

Из наших продуктов на сегодняшний день функционирует веб-редактор и расширение для Microsoft Word, где есть бесплатная и платная версии. Ежемесячно платных пользователей около 80−100 человек, а в общем разработкой пользуются около 1000 человек в день.

Клавиатура для Android, проверка слов, даже очень длинных

Также мы работаем над внедрением Tahrirchi в документооборот Министерства юстиции. У них есть внутренняя система, в которую мы и интегрируем нашу разработку. Сейчас мы на финальной стадии, надеюсь, по итогу сотрудничества будет договор. Первый месяц ведомство тестирует расширение на бесплатной основе, далее будет действовать формат ежемесячной подписки. Расчеты будут зависеть от нагрузки — количества пользователей. К примеру, для 100 человек сумма будет около 500 тыс. сумов в месяц.

Планы Tahrirchi

Мы понимаем, что одной проверки орфографии недостаточно, поэтому параллельно развиваем и другие идеи. Так, мы занимаемся сбором узбекских текстов в единый корпус. Коллекция различных материалов, публикаций и постов в полной мере сможет дать описание языка в тот или иной отрезок времени. Сбор проводится по периодам, начали мы с 30-х годов прошлого века.

К примеру, вас интересует, каким был язык в 90-х годах XX века — наша система покажет тональность повествования и особенности употребления языка в то время. Командой собрано уже около 40 тыс. книг — это очень большая база. Весь материал мы отсканировали, возникшие при сканировании ошибки исправили.

Все это нам нужно, как многие догадаются, для тренировки нейросети. На выходе мы хотим получить универсальную модель, которая сможет не только говорить, что в слове пропущена буква, но и распознавать стилистические недочеты текста.

Соревноваться с ChatGPT не планируем, но о функции генерации текста думаем. База текстов также станет полезной для системы перевода, где, опираясь на собранные данные, сервис будет выдавать орфографически и стилистически грамотный текст. Сейчас это тоже в стадии обсуждения и планирования.

В планах и другие решения для популяризации узбекского языка и повышения качества его употребления. За два года мы прониклись нашим языком и хотим продолжить развивать экосистему — разработать качественный переводчик и сервис по генерации текста. И здесь есть потенциал для разных сфер — к примеру, для копирайтеров. Еще развиваем идею с детекцией токсичных комментариев. Это нужная вещь для различных информационных каналов для поддержания здоровой атмосферы в комментариях.

tahrirchi, стартапы

Фото: Илья Семендеев / Spot

Tahrirchi — наше основное и единственное место работы. Мы зарегистрированы в качестве OOO и благодаря резидентству в IT Park платим подоходный налог в два раза меньше. По сути, мы стартап, который развился после конкурса IT Park.

В ближайшем будущем планируем запустить проверку грамматики, а также создавать и другие решения с применением узбекского языка, например чат-бот. Сегодня пытаемся на всем экономить: средств с гранта хватит до конца этого года. Для любого стартапа всегда актуально инвестирование, в котором мы заинтересованы. И для этого нам нужно показать способы монетизации существующих продуктов.