Home » Microsoft » Microsoft libera para a comunidade de IA banco de dados com 100 mil perguntas

Microsoft libera para a comunidade de IA banco de dados com 100 mil perguntas

A Microsoft deu um presentão pra galera que pesquisa inteligência artificial: um dataset com cem mil perguntas e respostas, para você usar em seu sistema de conversação, treinar seu bot em machine learning, ou seja lá qual seu plano de dominação mundial.

3 anos atrás

cw1o2x7usaaz2rh

Existe toda uma discussão filosófica sobre livre-arbítrio, quanto de nosso comportamento é determinado por nossos genes, nossas convenções sociais e nós mesmos, se é que isso existe. Entre pesquisadores de Inteligência Artificial há discussão semelhante. Uma IA que trabalhe por árvore de decisões é realmente inteligente? E uma híbrida como os replicantes de Westworld, que usam árvores de decisão mas são capazes de improvisar?

Treinar uma IA, mesmo os modelos “cérebro de comentarista de portal” que temos hoje exige esse tipo de escolha. A maioria prefere trabalhar com árvores de decisão criadas através de análises de bases de conversações, é uma forma via deep learning de produzir uma IA mais flexível.

Para isso é preciso… massa de dados. Existem vários repositórios de perguntas e respostas disponíveis, mas de longe o maior deles é o MARCO — Microsoft Machine Reading Comprehension, da Microsoft (d'oh). São cem mil perguntas e respostas, todas elas feitas e respondidas por humanos. A origem das perguntas são serviços como Cortana e Bing.

As perguntas são das mais variadas, de definições de palavras a coisas como “cabelo humano repele esquilos?” e são organizadas de forma estruturada, separadas por tipo gramatical (quem, o quê, onde) e outros conceitos semânticos. Neste paper (cuidado, PDF) aqui o pessoal da Microsoft Research detalha a base de dados, os formatos e a utilização. É bem legal e entendi várias das palavras que usaram.

Para baixar o Dataset (100 MB, comprimido) é só visitar o site oficial.

Fonte: Venture Beat.

relacionados


Comentários