Онтотекст демонстрира силата на свързаните отворени данни на Datathon 2017

Компанията отправя предизвикателство към участниците да преобразуват данните от Търговския регистър
по статията работи: biznews.bg
Онтотекст демонстрира силата на свързаните отворени данни на Datathon 2017

Българската компания за семантичен софтуер Онтотекст отправя предизвикателство към екипи от ентусиасти, които ще участват на Datathon 2017, като им предлага да преобразуват данните от Търговския регистър във формат отворени и свързани данни (Linked Open Data – LOD). Целта е да се демонстрира как семантичниите графови бази данни могат да разкрият връзки и скрити факти в масив с ненормализирани данни. Например:

- да идентифицират и класифицират най-големите групи от свързани фирми в България или в определен район;

- борд разходка: да анализират как съвместното участие на директори в бордове на различни фирми се отразява на сферите им на влияние.

Като част от първото практическо предизвикателство, свързано с обработка и анализ на данни за Централна и Източна Европа - Datathon Bulgaria, Онтотест ще участва с "Да хакнем Търговския регистър”. За целта, Онтотекст ще предостави на екипите част от данните от търговския регистър между 2008 - 2017 година. Със съдействието на ментори, участниците ще бъдат преведени през процеса на превръщането на тези данни в свързани отворени данни с помощта на прост RDF модел и свързването им с други отворени масиви от данни.

Търговският регистър се администрира от Агенцията по вписванията и е достъпен онлайн от 2008 година. Регистърът съдържа информация за всички компании и юридически лица в България, включваща адреси, собственици и управители. Това е информационен ресурс с голяма обществена значимост, чиято цел е да подпомага компаниите и ограничава корупцията.

За предизвикателството Datathon 2017 Онтотекст ще партнира с OpenCorporates – най-голямата отворена база данни от компании и бизнес информация в света, с над 120 милиона фирми от над 100 държави. OpenCorporates е партньр на Онтотекст по програмата Хоризонт 2020, по проекта euBusinessGraph, който цели да създаде платформа за интегриране, хармонизиране и публикуване на данни за европейските компании.

Основната цел на OpenCorporates е да направи информацията за компаниите по-използваема и широко достъпна за обществото, и по-конкретно - да бъде използвана за превенция на криминални и анти-обществени дейности, свързани с използването на фирми, като например корупция, пране на пари и организирана престъпност. Това е много важна задача в контекста на все по-голямата роля, която играят фирмите в съвременното общество с мрежи от юридически лица в различни държави.

Предизвикателството от страна на Онтотекст ще покаже как един голям набор от изключително сложни данни, като тези на търговския регистър - в момента те са организирани като набор от ежедневни актуализации в XML файлове - могат да бъдат агрегирани и превърнати в LOD формат, който да е достъпен, отворен (основан на отворени стандарти и препоръки от W3C) и взаимосвързан (показващ връзките между фирми, управители, местоположения, регулаторни и съдебни дела).

Полученият масив от данни ще позволи всички тези данни да се свържат лесно с други отворени източници на данни, като например Geonames (всички географски обекти на Земята), DBPedia (структурирана версия на Wikipedia), Wikidata, OpenCorporates и много други. Създаването на LOD формат на Търговския регистър има потенциала да направи данните по-прозрачни и информативни за бизнеса, както и по-лесни и ефективни за търсене в тях от страна на изследователи и журналисти. По този начин ще се улесни достъпът до тях и ще се подпомогне борбата с корупцията.

Менторите в процеса на "хакване" на търговския регистър ще са Димитър Манов и Пламен Търкаланов от Онтотекст, и Алекс Ангелов от OpenCorporates. Седмица преди събитието, Онтотекст предоставя на екипите безплатни обучителни видео материали, адаптирани от еднодневното обучение: "Какво е успешен прототип със семантични технологии". На място, преди самото предизвикателството да започне, менторите ще споделят полезни практически съвети и хитрини. Всеки участник ще получи ваучер за безплатно ползване на стандартната версия на GraphDB on the cloud, който ще важи три месеца след събитието.

Dathaton Bulgaria ще се проведе между 24 и 26 март 2017 и ще награди отборите, стигнали до най-прецизно, креативно и елегантно решение на проблемите, свързани с обработка и анализ на данни.

Препоръчани етикети / тагове: Ontotext, Онтотекст, семантични технологии, semantic web, semantic technology, Sirma, Сирма, GraphDB, софтуер, софтуерна компания

Повече за "Онтотекст"

"Онтотекст" разработва и внедрява семантични технологични решения с висока производителност, мащабируемост и богат набор от полезни функционалности за всеки бизнес, който залага на създаване, обогатяване и разпространение на големи обеми динамични свързани данни и съдържание. Онтотекст е известен с няколко свои продукта: DSP - Семантична Платформа за Динамично Публикуване на съдържание и данни (включва семантично анотиране на текстове, интелигентно търсене, препоръчване на релевантна информация на потребителите), GraphDB (семантична база данни, доказала се като най-бързото и мащабируемо RDF хранилище за свързани данни). Решенията, създавани с технологиите на Онтотекст, пестят значително време и финансови ресурси в процеса на достъп и обработка на текст и данни от множество източници в сферата на Life-sciences (фармацевтика, медицина, биология), издателската дейност на новини, научно и образователно съдържание, търговското разузнаване (Business Intelligence), телекомуникациите, културно-историческото наследство и други.

Сред клиентите на Онтотекст са организации като BBC, Press Association, Financial Times, Euromoney, AstraZeneca, Wiley, DK, Korea Telecom, Организация на Обединените Нации, Британския Парламент, Британския музей и други. През последните десет години Онтотекст се е наложила и като важен участник в редица значими проекти с отворен код, като GATE и Sesame. С привличането неотдавна на SpringerNature, Онтотекст вече има за клиенти три от петте най-големи научни издателства в света, включително Elsevier (което е номер 1) и John Wiley & Sons. Други клиенти от този сегмент са Oxford University Press и IET. Онтотекст е една от най- иновативните и успешни български софтуерни фирми и е част от Сирма Груп Холдинг.

 

 реклама