Carlos Cardoso 6 anos e meio atrás
Existe toda uma discussão filosófica sobre livre-arbítrio, quanto de nosso comportamento é determinado por nossos genes, nossas convenções sociais e nós mesmos, se é que isso existe. Entre pesquisadores de Inteligência Artificial há discussão semelhante. Uma IA que trabalhe por árvore de decisões é realmente inteligente? E uma híbrida como os replicantes de Westworld, que usam árvores de decisão mas são capazes de improvisar?
Treinar uma IA, mesmo os modelos “cérebro de comentarista de portal” que temos hoje exige esse tipo de escolha. A maioria prefere trabalhar com árvores de decisão criadas através de análises de bases de conversações, é uma forma via deep learning de produzir uma IA mais flexível.
Para isso é preciso… massa de dados. Existem vários repositórios de perguntas e respostas disponíveis, mas de longe o maior deles é o MARCO — Microsoft Machine Reading Comprehension, da Microsoft (d'oh). São cem mil perguntas e respostas, todas elas feitas e respondidas por humanos. A origem das perguntas são serviços como Cortana e Bing.
As perguntas são das mais variadas, de definições de palavras a coisas como “cabelo humano repele esquilos?” e são organizadas de forma estruturada, separadas por tipo gramatical (quem, o quê, onde) e outros conceitos semânticos. Neste paper (cuidado, PDF) aqui o pessoal da Microsoft Research detalha a base de dados, os formatos e a utilização. É bem legal e entendi várias das palavras que usaram.
Para baixar o Dataset (100 MB, comprimido) é só visitar o site oficial.
Fonte: Venture Beat.