Janela do Dev - Uma janela aberta para o mundo da Informática, Programação e da Inteligência Artificial.

A Importância da Tokenização no processamento de texto

28 de agosto de 202426 de fevereiro de 2025@lab301 comentário

A tokenização é um passo essencial no processamento de dados textuais. Ao dividir o texto em unidades significativas, ela potencializa os algoritmos.

Leia mais

Os Melhores Repositórios Públicos de Datasets para Análise de Dados e Machine Learning

28 de agosto de 202426 de fevereiro de 2025@lab30Leave a Comment

Conheça os principais repositórios de dados públicos para quem quer começar na área de Análise de Dados, Aprendizado de Máquinas e Ciência de Dados.

Leia mais

Expressões Regulares: A Arte da Busca e Manipulação de Texto

28 de agosto de 202426 de fevereiro de 2025@lab30

As expressões regulares são uma ferramenta poderosa e versátil no processamento de texto, com a capacidade de definir padrões complexos de maneira eficiente.

Leia mais

Geração automática de certificados com python

10 de abril de 202428 de agosto de 2024@lab30

Neste tutorial utilizaremos o python para automatização na geração de certificados. Para as bibliotecas openpyxl para leitura de informações de alunos/participantes no formato de planilha do Microsoft Excel (.xlsx) e docx a geração dos certificados em formato docx. Com a função para a geração dos certificados vamos agora iterar sobre a lista de alunos para […]

Leia mais

Pré-processamento de Dados para Modelos BERT: Garantindo Qualidade e Eficiência

21 de outubro de 202310 de abril de 2024@lab30Leave a Comment

Quando se trata de tarefas de Processamento de Linguagem Natural (NLP), a qualidade dos dados é de suma importância, ela tem impacto direto nos resultados obtidos. Os modelos que utilizam a arquitetura Transformer, como os modelos baseados no Bidirectional Encoder Representations from Transformers – BERT provaram alcançar resultados impressionantes na compreensão de texto, mas eles […]

Leia mais

Utilizando Sentence Transformers para geração de embeddings

1 de setembro de 202310 de abril de 2024@lab30

No campo do Processamento de Linguagem Natural (PLN), a capacidade de compreender e manipular a linguagem é fundamental. Uma das tarefas mais importantes é a vetorização de sentenças, que consiste em converter texto em uma representação numérica que pode ser entendida e processada por algoritmos de aprendizado de máquina. Nesse sentido, a biblioteca SentenceTransformers, baseada […]

Leia mais

Classificação Binária com K-NN utilizando Scikit-Learn

1 de setembro de 202310 de abril de 2024@lab30

Neste post, iremos explorar a implementação de um classificador binário utilizando o algoritmo de K-Vizinhos Mais Próximos (KNN) a partir do pacote Scikit-Learn. Iremos passar por todos os passos necessários, desde a conceitualização até a avaliação do classificador, usando um conjunto de dados simulado de comentários sobre o atendimento ao cliente de uma loja virtual […]

Leia mais