¿Es posible entrenar el PNL de Stanford para NER personalizado con tipos de entidad como ‘producto’ y ‘habilidades’, etc.?

Sí, puede capacitar a Stanford NER para el reconocimiento de entidades personalizadas. Stanford NER utiliza un algoritmo de campo aleatorio condicional para el modelo de entrenamiento. Debe crear y proporcionar datos de capacitación para NER personalizado. Los datos de entrenamiento deben estar en formato separado por tabulaciones, donde la primera palabra individual de la columna, la última palabra contiene la clase de entidad nombrada, otras columnas con diferentes características relacionadas con las palabras. Por ejemplo, en la sección siguiente, la primera columna contiene las palabras respectivas, la última columna contiene la clase de entidad.

CAPITULO O
II O
Sr. B-PERS
Weston I-PERS
fue O
……

Para más información, consulte.

El Stanford Natural Language Processing Group. Debe crear datos de capacitación en formato BIO, donde B significa “Comienzo de la entidad” y I significa “Entidad interna”, y O significa “exterior / Otros”. Por ejemplo, en la sección anterior, el Sr. Weston es persona nombre. y Mr. es la primera palabra de entidad, por lo que se etiqueta como B-PERS, y Weston es la segunda palabra de entidad, por lo que se etiqueta como etiqueta I-PERS.

el formato de datos de entrenamiento que se menciona en la sección anterior, se conoce como formato de Conll,

También puede usar la lista de diccionarios geográficos junto con los datos de capacitación. La lista del diccionario geográfico contendría una lista de entidades nombradas. Para obtener más información, consulte el siguiente enlace (The Stanford Natural Language Processing Group).

Stanford NER admite múltiples funciones para el reconocimiento de entidades con nombre. Puede encontrar una lista detallada en el enlace (NERFeatureFactory (API Stanford JavaNLP)).

Servicio al cliente