Workshop INSIDE NetDocuments AI

Por:
A Equipe NetDocuments
Outubro 25, 2017

Dentro das instalações de desenvolvimento do NetDocuments, há uma pequena sala de conferências chamada Sundance. A equipe SOLR está concentrada em torno de um script Python atualizado e coçando a cabeça: isso poderia realmente estar certo? É possível pegar o 6.1 B - isto é, com um B ou bilhões de documentos e criar um algoritmo de aprendizado de máquina de extração de entidade que pode arquivar automaticamente qualquer e-mail ou documento enviado para a plataforma. Mou está reconciliando os resultados com seu código. Ela se recosta e sorri. "Acho que temos um bom equilíbrio entre precisão e um modelo flexível."

Mou lidera a equipe de engenharia NetDocuments SOLR. SOLR é o mecanismo de pesquisa de código aberto que indexa 145 documentos por segundo, todos os dias úteis, com picos de 350 documentos por segundo. Mou e sua equipe criaram uma maneira de ...

A equipe avalia os resultados e se volta para o quadro branco, coberto com caixas, setas e anotações. A equipe resume a essência da IA: tabelas de candidatos e anti-candidatos para cada modelo relevante para a tarefa. Os gerentes de produto na sala olham para Mou e dizem "o quê?".

Mais uma vez, ela se recompõe e pega uma caneta de tinta apagável, em seguida, se move para o quadro branco caótico. "Veja", começa Mou, "esses algoritmos são apenas tabelas de pesquisa. A chave são os termos que enviamos, e o valor é o rótulo. Temos centenas de rótulos em nossos modelos de ND. Alguns dos mais comuns são demandante, especialista, juiz e tribunal. Apresento ao nosso algoritmo tantos exemplos em cada categoria quanto possível. 'Este é um juiz. Este é um reclamante. Este não é um juiz, etc.' Nosso modelo mantém essas decisões em uma tabela. Então , se um novo exemplo surgir - ou se eu pedir a ele para observar novos exemplos - bem, o algoritmo simplesmente vai e examina todos os exemplos que o alimentamos. Quais linhas na tabela parecem semelhantes? E como? Ele está tentando decidir: 'Essa coisa nova é um juiz? Acho que sim.' Se estiver certo, a entidade será colocada no grupo "Este é um documento do tribunal de contestação de moção" e, se estiver errada, será colocada no grupo "Este não é um juiz". Da próxima vez, terá mais dados para pesquisar. Existem centenas de modelos semelhantes que sua equipe criou no domínio jurídico, consistentes com a privacidade do cliente.

A equipe de Mou está hiperfocada em alguns grandes desafios. Uma delas é como resolver nomes semelhantes em comparação aos armazenados na tabela. Um aspecto do aprendizado de máquina é aprender funções de similaridade. Você sabe mais quando vê mais. Outro desafio é: o que acontece quando sua mesa fica muito grande? O valor do aprendizado de máquina é que os algoritmos podem "estimar aproximadamente qual o valor correspondente deve ser baseado em modelos de aprendizado", diz Mou.                

A equipe de engenharia franze a testa quando um gerente de produto corajoso diz. "Uau, isso parece chato, quase mecânico. Grande parte da conversa em torno da IA está repleta de descrições místicas de suas capacidades quase mágicas. "Mou não gosta disso e tenta usar termos mais prosaicos." Claro que é poderoso, mas não mágico. Tem limitações. Você precisa de dados em escala, por exemplo. Durante as apresentações, ela freqüentemente desenha a imagem de um chapéu de mago com outro embaixo e uma mesa n-dimensional, também conhecida como uma versão moderna da fábrica. O contraste define a abordagem do NetDocuments à IA como a fábrica, porque “os assistentes não escalam”.

A abordagem do NetDocuments é única. Estamos construindo bancadas de IA para atingir nosso objetivo de um DMS invisível, por meio do qual os clientes e parceiros de negócios podem enviar qualquer conteúdo - e-mail, documentos, livros de apresentação. Assim que o conteúdo é submetido, nossa plataforma SOLR processa o documento, classifica, extrai partes, nomes, datas, etc. Os resultados estão disponíveis para pesquisa personalizada, governança ou equipes de marketing para consultar nomes coletados para processos de negócios fora do documento. Considere as possibilidades disponíveis conforme o conteúdo do documento é desbloqueado. Contacte-nos com as suas ideias.

Want a Demo? Request one today!

Postagens recentes