Dentro das instalações de desenvolvimento do NetDocuments, há uma pequena sala de conferências chamada Sundance. A equipe SOLR está concentrada em torno de um script Python atualizado e coçando a cabeça: isso poderia realmente estar certo? É possível pegar o 6.1 B - isto é, com um B ou bilhões de documentos e criar um algoritmo de aprendizado de máquina de extração de entidade que pode arquivar automaticamente qualquer e-mail ou documento enviado para a plataforma. Mou está reconciliando os resultados com seu código. Ela se recosta e sorri. "Acho que temos um bom equilíbrio entre precisão e um modelo flexível."
Mou lidera a equipe de engenharia NetDocuments SOLR. SOLR é o mecanismo de pesquisa de código aberto que indexa 145 documentos por segundo, todos os dias úteis, com picos de 350 documentos por segundo. Mou e sua equipe criaram uma maneira de ...
A equipe avalia os resultados e se volta para o quadro branco, coberto com caixas, setas e anotações. A equipe resume a essência da IA: tabelas de candidatos e anti-candidatos para cada modelo relevante para a tarefa. Os gerentes de produto na sala olham para Mou e dizem "o quê?".
Mais uma vez, ela se recompõe e pega uma caneta de tinta apagável, em seguida, se move para o quadro branco caótico. "Veja", começa Mou, "esses algoritmos são apenas tabelas de pesquisa. A chave são os termos que enviamos, e o valor é o rótulo. Temos centenas de rótulos em nossos modelos de ND. Alguns dos mais comuns são demandante, especialista, juiz e tribunal. Apresento ao nosso algoritmo tantos exemplos em cada categoria quanto possível. 'Este é um juiz. Este é um reclamante. Este não é um juiz, etc.' Nosso modelo mantém essas decisões em uma tabela. Então , se um novo exemplo surgir - ou se eu pedir a ele para observar novos exemplos - bem, o algoritmo simplesmente vai e examina todos os exemplos que o alimentamos. Quais linhas na tabela parecem semelhantes? E como? Ele está tentando decidir: 'Essa coisa nova é um juiz? Acho que sim.' Se estiver certo, a entidade será colocada no grupo "Este é um documento do tribunal de contestação de moção" e, se estiver errada, será colocada no grupo "Este não é um juiz". Da próxima vez, terá mais dados para pesquisar. Existem centenas de modelos semelhantes que sua equipe criou no domínio jurídico, consistentes com a privacidade do cliente.
A equipe de Mou está hiperfocada em alguns grandes desafios. Uma delas é como resolver nomes semelhantes em comparação aos armazenados na tabela. Um aspecto do aprendizado de máquina é aprender funções de similaridade. Você sabe mais quando vê mais. Outro desafio é: o que acontece quando sua mesa fica muito grande? O valor do aprendizado de máquina é que os algoritmos podem "estimar aproximadamente qual o valor correspondente deve ser baseado em modelos de aprendizado", diz Mou.
The engineering team frowns when a plucky product manager says. "Wow, that sounds boring, almost mechanical. So much of the conversation around AI is awash in mystical descriptions for its near-magic capabilities." Mou doesn’t like that and tries to use more-prosaic terms. "Sure it’s powerful, but not magical. It has limitations. You need data at scale, for example. During presentations, she frequently draws a picture of a wizard hat with a one under it and an n-dimensional table, aka a modern version of the factory. The contrast defines NetDocuments approach to AI as the factory, because “wizards don’t scale.”
A abordagem do NetDocuments é única. Estamos construindo bancadas de IA para atingir nosso objetivo de um DMS invisível, por meio do qual os clientes e parceiros de negócios podem enviar qualquer conteúdo - e-mail, documentos, livros de apresentação. Assim que o conteúdo é submetido, nossa plataforma SOLR processa o documento, classifica, extrai partes, nomes, datas, etc. Os resultados estão disponíveis para pesquisa personalizada, governança ou equipes de marketing para consultar nomes coletados para processos de negócios fora do documento. Considere as possibilidades disponíveis conforme o conteúdo do documento é desbloqueado. Contacte-nos com as suas ideias.