Исследование и анализ данных помогают Zalando в изучении языков

Будучи научным сотрудником немецкого онлайн-гиганта Zalando, доктор Алан Акбик является экспертом в области обработки языка и извлечения данных. В своей работе для компании, которая постоянно обрабатывает огромное количество онлайн-транзакций на нескольких языках, Акбик помогает раскрывать уникальную информацию о самой структуре человеческого языка, наблюдая и анализируя огромные наборы мультиязычных текстовых данных. Вот что он рассказал о возможностях как для бизнеса, так и для тех кто изучает язык.

Что вдохновило вас на карьеру ученого в области анализа данных?

Моя любовь к человеческим языкам! В некотором смысле, все знания человечества с использованием письменного языка в книгах, Интернете и многих других местах. Мы надеемся, что наука о данных — и, в частности, обработка естественного языка (NLP- natural language processing) — поможет компьютерам и нам понять весь этот массив текстовых данных.

Какая особенность или идея, которую вы обнаружили, работая в Zalando, по вашему мнению, может помочь компаниям, работающим за пределами розничного сектора?

Используйте свои текстовые данные! Я думаю, что многие компании могут быть удивлены, тем объемом текстовым данных, которые им доступны и тем сколько полезного из них они могут получить.

Какая новая технология, на данный момент, больше всего поражает вас своими возможностями?

В настоящее время мы работаем с рекуррентными нейронными сетями (RNN — recurrent neural networks) на любой вкус, которые меня очень заинтересовали в плане их языкового моделирования и возможности маркировки последовательностей. Я считаю, что эти методы могут в ближайшем будущем привести к важным прорывам в моделировании и автоматическому захвату семантики на человеческом языке.

Какие инструменты вы чаще всего используете в своей повседневной работе? Как вы понимаете многоязычность данных?

Мы исследуем метод под названием “проекция аннотаций”, который может автоматически передавать методы NLP, которые работают для одного языка (например, английского) другому (например, немецкого). Это помогает нам мгновенно масштабировать нашу NLP на многие европейские языки, актуальные для нас и наших клиентов. Мы даже запустили платформу с открытым исходным кодом для этого метода, называемую ZAP. Попробуйте!

Как на вас повлияло знакомство с Information Extraction, и сделало ли это вас более эффективным специалистом по данным? Какой навык или область знаний вы бы хотели освоить?

Information Extraction (IE) является основной целью извлечения структурированной информации из текстовых данных и поэтому чрезвычайно важно для науки о данных, которая включает такие данные. Меня интересуют базы данных, машинное обучение и вычислительная лингвистика, так как они являются важными областями знаний для IE.

Что вы знаете о клиентском поведении или о том, как мы используем язык, которого вы не знали, прежде чем начали работать в Zalando? Что-нибудь вас удивило?

Я (постоянно) удивлен многими особенностями неформального использования языка в Интернете, особенно в области моды, где каждый день изобретаются новые слова (для трендов, взглядов и т. д.). Это хорошо демонстрирует творчество и энтузиазм fashion сообщества, и представляет нам интересные исследовательские задачи для NLP и науки о данных.