Разбор хакатонов: август
Привет, с вами Александр Малышев. За свою карьеру разработки я участвовал в приличном количестве соревнований и прошёл путь от начинающего джуниора до руководителя команды по разработке. Во многом мне помогли хакатоны, причём со всех точек зрения: поражения, победы, организация и судейство в контексте хакатонов продолжает развивать меня как специалиста в программировании и технологиях. Всего через мои руки прошло около 40 мероприятий, статус главного тренера сборной России по хакатонам, работа с 50 различными компаниями по организации хакатонов и инновационных лабораторий, а еще оценка и скрининг более 500 питч-деков и презентаций. Более того, я даже умудрился сделать стартап в Германии, поднять на него три гранта и все это благодаря хакатонам.
В рамках блога на RH я решил попробовать делать разбор кейсов предстоящих хакатонов – с одной стороны, это будет полезно будущим участникам, ведь порой интересно услышать независимый взгляд на задачи – тем более, что в этом я не вижу никакой выгоды, кроме улучшения ваших решений на ивентах. Возможно в один день эти публикации помогут поменяться, а вы сделаете стартап-единорога и тогда отблагодарите наше сообщество.
Итак, поехали
1) Совместный онлайн-хакатон группы компаний«Программный продукт» и «Акселератора возможностей»
Ссылка: http://rhck.me/acvo-hack
Задача-1. Автоматизация дообучения нейронной сети, осуществляющей классификацию объектов на изображении.
Довольно популярная задача, которая обычно сводится к автоматизации параметров и нейросетей при файнтюнинге – процессе дообучения уже имеющихся моделей. Т.к. это все вводные по задаче на сайте, давайте пофантазируем.
С одной стороны, есть возможность для дата-саентистов – сделать ансамбли, поработать с потенциальным дата-сетом от организаторов. В этом плане интересно, что же будут за данные. На практике, если дата-сет интересный, а ваша команда фокусируется на ML то задачу имеет смысл взять именно как минимум, чтобы пополнить копилку своих данных. С другой стороны, надо не забывать, что в перспективе 5 лет рынок решений по компьютерному зрению и ИИ вырастет еще в 6 раз (!). Поэтому никто не мешает вам интерпретировать задачу так, чтобы потом выйти в формат B2B SaaS стартапа, либо инди-проекта, который может предлагать коробочные решения на существующих маркетплейзах – вроде https://clarifai.com/ (некоторые из таких сервисов платят отличные деньги)
Задача-2. Реализация бесконтактного модуля управления веб-порталом на стелле жестами и/или с использованием микрофона.
В 2018 году на Hack.Moscow v2.0, команда AIRT делала ровно такой сервис, взяла три награды судей, в том числе приз ‘Overall Hackathon Winner' – что с этого времени поменялось сложно сказать глобально, однако стоит помнить два факта.
Во-первых, стартап Magic Leap, мягко говоря, провалился. Magic Leap – это небольшая консоль, позволяющая, словно Xbox-Kinect управлять вашим компьютером при помощи жестов в воздухе. Звучит, да и выглядит прикольно. Думаю, командам, которые выберут этот трек, нужно будет изучить почему не полетело – я ставлю на то, что удобства в этом было мало, скорее яркий эффект кик-стартера — все заказали, поигрались и выкинули. Хотя, буду рад, если ошибся.
Во-вторых, речевые технологии набирают обороты. Лидеры мнений, вроде Gary Vee вообще считают, что если через 2-3 года у вашей компании не будет навыка в Amazon Alexa (читай Яндекс.Станция или Маруся), то про тебя скоро забудут. Мол, тенденция в сторону ухода от поисковых запросов. Скажем, у многих людей уже выработалась привычка первым делом искать что-то в условном Инстаграм, а не Гугле – особенно, если речь касается одежды, косметики и всего, что хорошо продаётся через картинки. В случае с голосом – аналогично. Люди становятся слишком заняты, все чаще и популярнее люди слушают подкасты. Даже YouTube поражает – все больше юзеров не смотрит его, а слушает. В этом суть – голос рулит – он освобождает руки, глаза. У Amazon вообще шокирующая статистика – мол, те, у кого есть amazon Prime и Alexa после покупки последней начинают тратить аж на 30% больше. Слушал этот доклад на конференции, пруфы думаю нужны будут тем, кто возьмёт этот трек, я лишь даю пищу для ресеча.
В рекомбинации этого, могу сказать такую интересную вещь. Я делал близкий проект на хакатоне в Бремене (там, к слову, мы взяли Overall First Place) – очень важная тема в этом люди с ограниченными возможностями. В мире, где все больше гаджетов требуют зрения, голосовые технологии – это революция. Поэтому как минимум управление жестами будет актуально глухим, а управление голосом слепым. Ни на что не намекаю, но почему-то судьи любят отдавать призовые места тем, кто решает социальные проблемы этих категорий людей. Почему бы не совместить полезный проект для общества, скрестив его с передовой технологией?
Задача-3. Реализация модуля анализа поведения пользователей, позволяющего выявлять вредоносные соединения на основе реальных исходных данных.
Одна из топ-приоритетных задач, если хотите пилить стартап. Во-первых, с ростом биг даты тысяч стартапов, хакерские атаки остаются одним из самых проблемных моментов. GDPR, многомиллионные штрафы и суды – все это лишь капля того, что можно использовать в бизнес-обосновании таких решений.
Во-вторых, во всех направлениях B2B SaaS продуктов, так или иначе связанных с разработкой, где-то с 2016 года наблюдается очевидная революция с использованием ИИ. Казалось бы, антивирусы, решающие задачи по выявлению вредоносных соединений появились еще в 90х, но бум использования машинного обучения наблюдаем именно сейчас. Запрыгивать вовсе не рано, сейчас чуть ли не каждый первый венчур готов в это инвестировать – причину читайте выше.
Что касается того, что можно изучить – я бы советовал капнуть в первые пять-семь страниц гугла по запросу AI in Cyber Security startup и посмотреть куда идёт этот рынок – так как большинство решений скорее всего комплексные, то на хакатоне стоит сфокусироваться именно на чем-то одном, возможно даже скопировав в лоб один из имеющихся продуктов, но адаптировав это под запрос организаторов.
2) Хакатон HackTheRealty
Ссылка: http://rhck.me/realty-yandex
Этот хакатон ранее был анонсирован еще весной, но по понятным причинам был отложен на сентябрь. Возможно организаторы скоро объявят о старте, а я поделюсь мыслями по задачам.
Задача 1. Дополнение характеристик дома
Результат: методология / модель, позволяющая дополнить существующую базу данных характеристик домов для улучшения карточки объявления.
Данные: информация о домах в Москве. При выборе квартиры пользователи обращают внимание не только на цену и состояние квартиры, но и на сам дом: где он находится, когда и из чего был построен, какие в нём есть удобства и т. д. У нас на сервисе много данных о жилых домах в Москве, но не по каждому зданию у нас есть вся информация.
Ваша задача: добавить недостающие данные в «тестовом» наборе на основе правильно заполненных параметров домов. Вы можете пользоваться дополнительными источниками данных, которые находятся в открытом доступе.
Во-первых, описание выше – копипаста с сайта. И это очень круто! Описанный формат сразу дает самое ценное участнику – я, как дата-саентист (читай – сатанист) хочу знать что за данные будут. В идеале, конечно, прямо сразу говорить какие поля будут, но то, что есть общая информация – отлично!
Судя по всему, придется почитаеть ресечи по machine learning in real estate, благо на этот счет проходили очень большие соревнования и R&D в этой области востребовано. Очень вероятно, что внешние признаки нужно будет оценивать на основе 3-д реконструкции по фотографиям из условного инстаграма и яндекс.карт, либо решить какую-то более узкую задачу. Основной плюс, если организаторы дадут что-то больше, чем открытые данные яндекс.недвижимости – ведь все мы знаем, что Scrappy или Selenium могут собрать дата-сет и без хакатона ;)
Задача 2. Прогноз срока экспозиции объявления
Результат: модель, анализирующая объявление и определяющая срок его экспозиции на сервисе.
Данные: объявления из архива Яндекс.Недвижимости со сроками экспозиции. Размещая объект на Яндекс.Недвижимости, каждый хочет продать или сдать его как можно быстрее за максимальную для этого объекта цену. В архиве нашего сервиса сотни тысяч объявлений со сроками экспозиции (датами размещения и снятия объявления). На сервисе мы хотим подсказывать пользователям, сколько они будут ждать покупателя или нанимателя своего объекта при текущих характеристиках.Ваша задача: по информации из объявлений в Москве дать прогноз по срокам их экспозиции.
Склоняюсь, что задача будет приближена к каглу – как по мне возможен сильный лик в публичных данных, если соотнести размещение объявления на циане, thelocals и Яндекс.Недвижимости. (Это так, пища для хака ума).
Задача 3. Разметка активных зон
Потенциальные покупатели квартир в новостройках по-разному воспринимают информацию и выбирают квартиры. Одни сравнивают цены, площади и планировки по таблицам, другие оценивают вид из окна, уровень освещённости в квартире, расположение на этаже (подальше от лифтов, меньше соседей за стеной), инфраструктуру и комфорт района (ближе к метро, детскому саду и т. п.). Для последних придуман формат визуального выбора квартир: сначала пользователь выбирает корпус, потом этаж и квартиру, постепенно сужая воронку поиска.
Ваша задача: создать инструмент разметки активных зон произвольной формы на изображениях с выводом результатов разметки на страницу в режиме просмотра. На генплане жилого комплекса нужно разметить корпуса, на рендере корпуса ЖК —этажи, на плане этажа — квартиры.
Считаю, что задача довольно рутинная, многое будет зависеть от вводных организаторов. Вряд ли условия позволят искать объявления по близости к домам из инстаграма наличников, но кто знает.
Задача 4. Конструктор планировок
При покупке квартиры важно выбрать ту, в которой будет комфортно жить не один год. Цена ошибки тут высока: квартиру нельзя вернуть, поменять или продать за пару дней, как не подошедшую вещь. Оценить удобство жилья и сравнить разные варианты можно по планировкам. Но они есть не во всех объявлениях, а ещё их иногда просто рисуют от руки. Это неудобно.
Мы хотим, чтобы понятные планировки были в как можно большем количестве объявлений, чтобы наши пользователи могли быстро оценить достоинства и недостатки квартиры.
Ваша задача: разработать онлайн-конструктор планировок для вторичного рынка жилья, в котором можно быстро создать планировку любой квартиры.
Т.к. задача продуктовая, то здесь довольно важно понять критерии выбора аудитории. По собственному опыту, лучшее, что вы можете придумать для решения – это зайти на ютюб, посмотреть 5-10 роликов про то, как выбрать планировку квартиры и сделать из этого экспертный гайд, который в последствии запрогать. Скорее всего вместо вопросов судей, вы просто перескажете почему надо делать так, а не иначе и тем самым переложите экспертизу дизайнеров интерьеров в IT-продукт.
Задача 5. Решение, повышающее доверие к объявлениям и пользователям, их разместившим
Кто собственник квартиры? Нет ли проблемы с документами? В каком состоянии жильё? Какие там соседи? А вдруг это фейковое объявление, созданное для заманивания покупателей или нанимателей? Эти и другие вопросы задаёт себе каждый при покупке или аренде квартиры.
Ваша задача: разработать прототип сервиса, повышающего доверие к объявлению, его владельцу и, как следствие, к площадке размещения. При решении задачи можно использовать открытые источники данных и учитывать текущие решения Яндекс.Недвижимости.
Отличная продуктовая задача, тем более, что уже есть аналогичные сервисы в близкой сфере – покупке авто. В этой нише валидируется VIN-номер авто с открытыми базами автовладельцев.
Очевидно, решение на поверхности – это зайти и спарсить кадастр, соотнести его с данными, например, из задачи 1 и сделать хороший визуал. Думаю, до этого догадаются примерно все, поэтому нужно искать уловки и придумать что-то более умное. Мое предложение – идите на ютюб, вбивайте "Как не быть обманутым при покупке квартиры" и, на основе видео, реализуйте сервис, в котором будет не просто обработка данных, но и экспертиза юристов.
Вопрос к читателям
Как вам такой формат? Следует ли глубже капать в каждую из задач? Какой хакатон ещё разобрать? Пишите свои комментарии у нас в чате в тг